Robots entrenados con VLM para leer emociones humanas — la confianza es más importante que la cortesía

Q: ¿Cuál es la fuente?

Publicado originalmente en IEEE Spectrum AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

15 jun 2026. Tiempo de lectura: 3 min.

Científicos de la Universidad de Melbourne entrenaron a un robot para leer emociones usando un modelo de visión-lenguaje — analiza toda la escena, no solo…

Redacción de Hamidun News

Monitoreo de AI · IEEE Spectrum AI

15 jun 2026· 3 min

Procesado por IA desde IEEE Spectrum AI; editado por Hamidun News

Robots entrenados con VLM para leer emociones humanas — la confianza es más importante que la cortesía — Fuente: IEEE Spectrum AI. Collage: Hamidun News.

◐ Escuchar artículo

Científicos de la Universidad de Melbourne entrenaron robots colaborativos para leer emociones humanas utilizando un modelo de visión-lenguaje (VLM). La investigación, publicada en IEEE Robotics and Automation Letters, demuestra que los robots se vuelven más atentos a las personas, pero la confianza en ellos sigue siendo determinada no por el estilo de comunicación, sino por la capacidad de ejecutar tareas de manera competente.

Contexto en Lugar de Expresiones Faciales

Los sistemas estándar de interacción humano-máquina se basan en el análisis de expresiones faciales y el seguimiento de objetos en el fotograma. Investigadores dirigidos por Sung Chan Hong decidieron ir más allá y aprovechar el VLM — una clase de modelos que procesan tanto texto como datos visuales simultáneamente. Para entrenar el modelo, voluntarios vieron grabaciones de video donde robots entregaban objetos a personas con distintos grados de éxito, y describían las emociones de los participantes en la escena.

Crucialmente, los evaluadores consideraron el contexto completo: una frente fruncida en una persona golpeando los dedos en la mesa indica frustración; la misma frente fruncida en una persona concentrada en una tarea simplemente indica concentración. La comparación con el algoritmo clásico produjo un resultado convincente: el VLM logró una precisión de 0,86 en una escala de 0 a 1, mientras que el enfoque tradicional logró 0,77. Según Hong, el modelo "vio la escena completa: dónde estaba la persona, qué estaba haciendo, cómo interactuaba con el robot" — esto es lo que le dio la ventaja.

Las Disculpas Personalizadas Funcionan — Pero No Siempre

En el segundo experimento, 40 voluntarios trabajaron junto con un robot que estaba preprogramado para cometer un error. Después del fallo, el robot respondió de una de dos maneras:

Disculpa adaptativa — elaborada teniendo en cuenta el estado emocional detectado de la persona
Frase estándar — una respuesta en guion preescrita

31 de los 40 participantes prefirieron la respuesta personalizada. Esto confirma que las personas quieren sentir que el robot percibe su estado y responde a él de manera significativa. Sin embargo, los datos de las encuestas revelaron otro lado de la historia: las evaluaciones de confianza hacia el robot disminuyeron en la mayoría de los participantes después del error, independientemente del tipo de disculpa.

"La disculpa personalizada funciona como lubricante social, pero no restaura la confianza perdida debido al fracaso en una tarea física", explica

Hong.

Dónde Terminan las Capacidades del VLM

Al analizar los datos del segundo experimento, surgió una limitación importante. Cuando las evaluaciones emocionales del VLM se compararon con lo que los propios participantes reportaron sobre su estado, la precisión del modelo cayó bruscamente. El modelo se alineó bien con la percepción de observadores externos, pero predijo mal las experiencias internas de los propios participantes. "VLM es un buen observador de señales sociales externas, pero no puede leer la mente", explicó Hong. En otras palabras, el modelo nota lo mismo que notaría un observador externo mirando desde fuera. En situaciones donde una persona enmascara emociones o experimenta algo que no se refleja en expresiones faciales y gestos, el sistema falla.

Lo Que Esto Significa

La investigación identifica una prioridad clara para los desarrolladores: primero confiabilidad y precisión en la ejecución de tareas, luego la capa de interacción emocional. Las personas están dispuestas a colaborar con robots que pueden disculparse de manera humanizada — pero en primer lugar quieren socios competentes que eviten errores. A medida que los enfoques VLM se desarrollan, la brecha con los sistemas tradicionales de reconocimiento de emociones crecerá, pero esto no resuelve la pregunta fundamental de la confianza.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita