Robôs treinados com VLM para ler emoções humanas — mas confiança importa mais que polidez

Q: Qual é a fonte?

Publicado originalmente em IEEE Spectrum AI. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

15 de jun. de 2026. Tempo de leitura: 3 min.

Cientistas da Universidade de Melbourne treinaram um robô para ler emoções usando um modelo de visão-linguagem — ele analisa toda a cena, não apenas…

Redação da Hamidun News

Monitoramento de AI · IEEE Spectrum AI

15 de jun. de 2026· 3 min

Processado por IA de IEEE Spectrum AI; editado por Hamidun News

Robôs treinados com VLM para ler emoções humanas — mas confiança importa mais que polidez — Fonte: IEEE Spectrum AI. Colagem: Hamidun News.

◐ Ouvir artigo

Cientistas da Universidade de Melbourne treinaram robôs colaborativos para ler emoções humanas usando um modelo de visão-linguagem (VLM). A pesquisa, publicada em IEEE Robotics and Automation Letters, demonstra que os robôs se tornam mais atentos às pessoas, mas a confiança neles ainda é determinada não pelo estilo de comunicação, mas pela capacidade de executar tarefas com competência.

Contexto em Vez de Expressões Faciais

Os sistemas padrão de interação humano-máquina se baseiam na análise de expressões faciais e rastreamento de objetos no quadro. Pesquisadores liderados por Sung Chan Hong decidiram ir além e aproveitar o VLM — uma classe de modelos que processam texto e dados visuais simultaneamente. Para treinar o modelo, voluntários assistiram a gravações de vídeo onde robôs entregavam objetos a pessoas com graus variáveis de sucesso e descreviam as emoções dos participantes da cena.

Crucialmente, os avaliadores consideraram todo o contexto: uma testa franzida em uma pessoa batendo os dedos na mesa indica frustração; a mesma testa franzida em uma pessoa focada em uma tarefa simplesmente indica concentração. A comparação com o algoritmo clássico produziu um resultado convincente: o VLM alcançou uma precisão de 0,86 em uma escala de 0 a 1, enquanto a abordagem tradicional alcançou 0,77. De acordo com Hong, o modelo "via a cena inteira: onde a pessoa estava, o que ela estava fazendo, como estava interagindo com o robô" — isso é o que lhe deu a vantagem.

Desculpas Personalizadas Funcionam — Mas Nem Sempre

No segundo experimento, 40 voluntários trabalharam juntos com um robô que foi pré-programado para cometer um erro. Após a falha, o robô respondeu de uma de duas maneiras:

Desculpa adaptativa — composta levando em conta o estado emocional detectado da pessoa
Frase padrão — uma resposta em script pré-escrita

31 dos 40 participantes preferiram a resposta personalizada. Isso confirma que as pessoas querem sentir que o robô percebe seu estado e responde a ele de forma significativa. No entanto, os dados das pesquisas revelaram outro lado da história: as avaliações de confiança no robô diminuíram na maioria dos participantes após o erro, independentemente do tipo de desculpa.

"A desculpa personalizada funciona como lubrificante social, mas não restaura a confiança perdida devido à falha em uma tarefa física", explica

Hong.

Onde as Capacidades do VLM Terminam

Ao analisar dados do segundo experimento, uma limitação importante surgiu. Quando as avaliações emocionais do VLM foram comparadas com o que os próprios participantes relataram sobre seu estado, a precisão do modelo caiu drasticamente. O modelo se alinhava bem com a percepção de observadores externos, mas previa mal as experiências internas dos próprios participantes. "VLM é um bom observador de sinais sociais externos, mas não consegue ler mentes", explicou Hong. Em outras palavras, o modelo percebe a mesma coisa que um observador externo observando de fora perceberia. Em situações em que uma pessoa mascara emoções ou experimenta algo que não se manifesta em expressões faciais e gestos, o sistema falha.

O Que Isto Significa

A pesquisa identifica uma prioridade clara para desenvolvedores: primeiro confiabilidade e precisão na execução de tarefas, depois a camada de interação emocional. As pessoas estão prontas para colaborar com robôs que conseguem se desculpar de forma humanizada — mas em primeiro lugar querem parceiros competentes que evitem erros. À medida que as abordagens VLM se desenvolvem, a lacuna com os sistemas tradicionais de reconhecimento de emoções crescerá, mas isso não resolve a questão fundamental da confiança.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis