Robôs treinados com VLM para ler emoções humanas — mas confiança importa mais que polidez
Cientistas da Universidade de Melbourne treinaram um robô para ler emoções usando um modelo de visão-linguagem — ele analisa toda a cena, não apenas…
Processado por IA de IEEE Spectrum AI; editado por Hamidun News
Cientistas da Universidade de Melbourne treinaram robôs colaborativos para ler emoções humanas usando um modelo de visão-linguagem (VLM). A pesquisa, publicada em IEEE Robotics and Automation Letters, demonstra que os robôs se tornam mais atentos às pessoas, mas a confiança neles ainda é determinada não pelo estilo de comunicação, mas pela capacidade de executar tarefas com competência.
Contexto em Vez de Expressões Faciais
Os sistemas padrão de interação humano-máquina se baseiam na análise de expressões faciais e rastreamento de objetos no quadro. Pesquisadores liderados por Sung Chan Hong decidiram ir além e aproveitar o VLM — uma classe de modelos que processam texto e dados visuais simultaneamente. Para treinar o modelo, voluntários assistiram a gravações de vídeo onde robôs entregavam objetos a pessoas com graus variáveis de sucesso e descreviam as emoções dos participantes da cena.
Crucialmente, os avaliadores consideraram todo o contexto: uma testa franzida em uma pessoa batendo os dedos na mesa indica frustração; a mesma testa franzida em uma pessoa focada em uma tarefa simplesmente indica concentração. A comparação com o algoritmo clássico produziu um resultado convincente: o VLM alcançou uma precisão de 0,86 em uma escala de 0 a 1, enquanto a abordagem tradicional alcançou 0,77. De acordo com Hong, o modelo "via a cena inteira: onde a pessoa estava, o que ela estava fazendo, como estava interagindo com o robô" — isso é o que lhe deu a vantagem.
Desculpas Personalizadas Funcionam — Mas Nem Sempre
No segundo experimento, 40 voluntários trabalharam juntos com um robô que foi pré-programado para cometer um erro. Após a falha, o robô respondeu de uma de duas maneiras:
- Desculpa adaptativa — composta levando em conta o estado emocional detectado da pessoa
- Frase padrão — uma resposta em script pré-escrita
31 dos 40 participantes preferiram a resposta personalizada. Isso confirma que as pessoas querem sentir que o robô percebe seu estado e responde a ele de forma significativa. No entanto, os dados das pesquisas revelaram outro lado da história: as avaliações de confiança no robô diminuíram na maioria dos participantes após o erro, independentemente do tipo de desculpa.
"A desculpa personalizada funciona como lubrificante social, mas não restaura a confiança perdida devido à falha em uma tarefa física", explica
Hong.
Onde as Capacidades do VLM Terminam
Ao analisar dados do segundo experimento, uma limitação importante surgiu. Quando as avaliações emocionais do VLM foram comparadas com o que os próprios participantes relataram sobre seu estado, a precisão do modelo caiu drasticamente. O modelo se alinhava bem com a percepção de observadores externos, mas previa mal as experiências internas dos próprios participantes. "VLM é um bom observador de sinais sociais externos, mas não consegue ler mentes", explicou Hong. Em outras palavras, o modelo percebe a mesma coisa que um observador externo observando de fora perceberia. Em situações em que uma pessoa mascara emoções ou experimenta algo que não se manifesta em expressões faciais e gestos, o sistema falha.
O Que Isto Significa
A pesquisa identifica uma prioridade clara para desenvolvedores: primeiro confiabilidade e precisão na execução de tarefas, depois a camada de interação emocional. As pessoas estão prontas para colaborar com robôs que conseguem se desculpar de forma humanizada — mas em primeiro lugar querem parceiros competentes que evitem erros. À medida que as abordagens VLM se desenvolvem, a lacuna com os sistemas tradicionais de reconhecimento de emoções crescerá, mas isso não resolve a questão fundamental da confiança.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.