Des robots entraînés avec un VLM pour lire les émotions humaines — la confiance compte plus que la politesse

Q: Quelle est la source ?

Publication originale sur IEEE Spectrum AI. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

15 juin 2026. Temps de lecture : 3 min.

Des scientifiques de l'Université de Melbourne ont entraîné un robot à lire les émotions en utilisant un modèle de vision-langage — il analyse toute la…

Rédaction de Hamidun News

Veille IA · IEEE Spectrum AI

15 juin 2026· 3 min

Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News

Des robots entraînés avec un VLM pour lire les émotions humaines — la confiance compte plus que la politesse — Source : IEEE Spectrum AI. Collage: Hamidun News.

◐ Écouter l'article

Des scientifiques de l'Université de Melbourne ont entraîné des robots collaboratifs à lire les émotions humaines en utilisant un modèle de vision-langage (VLM). L'étude, publiée dans IEEE Robotics and Automation Letters, démontre que les robots deviennent plus attentifs aux personnes, mais la confiance envers eux est toujours déterminée non pas par le style de communication, mais par la capacité à exécuter les tâches avec compétence.

Le Contexte Plutôt que les Expressions Faciales

Les systèmes standard d'interaction humain-machine reposent sur l'analyse des expressions faciales et le suivi des objets dans l'image. Les chercheurs dirigés par Sung Chan Hong ont décidé d'aller plus loin et de tirer parti des VLM — une classe de modèles qui traitent à la fois le texte et les données visuelles simultanément. Pour entraîner le modèle, des volontaires ont regardé des enregistrements vidéo où des robots remettaient des objets à des personnes avec des degrés de succès variables et ont décrit les émotions des participants de la scène.

De manière cruciale, les évaluateurs ont tenu compte du contexte complet : un front froncé chez une personne qui tape des doigts sur la table indique de la frustration; le même front froncé chez une personne concentrée sur une tâche indique simplement de la concentration. La comparaison avec l'algorithme classique a produit un résultat convaincant : le VLM a atteint une précision de 0,86 sur une échelle de 0 à 1, tandis que l'approche traditionnelle a atteint 0,77. Selon Hong, le modèle « voyait la scène entière : où se trouvait la personne, ce qu'elle faisait, comment elle interagissait avec le robot » — c'est ce qui lui a donné l'avantage.

Les Excuses Personnalisées Fonctionnent — Mais Pas Toujours

Dans la deuxième expérience, 40 volontaires ont travaillé ensemble avec un robot qui était programmé pour commettre une erreur. Après l'échec, le robot a réagi de l'une de deux façons :

Excuse adaptative — composée en tenant compte de l'état émotionnel détecté de la personne
Phrase standard — une réponse de script pré-écrite

31 des 40 participants ont préféré la réponse personnalisée. Cela confirme que les personnes veulent sentir que le robot remarque leur état et y répond de manière significative. Cependant, les données des sondages ont révélé un autre côté du tableau : les évaluations de confiance envers le robot ont diminué chez la plupart des participants après l'erreur, indépendamment du type d'excuse.

« L'excuse personnalisée fonctionne comme un lubrifiant social, mais elle ne restaure pas la confiance perdue à cause de l'échec d'une tâche physique », explique

Hong.

Où les Capacités des VLM s'Arrêtent

Lors de l'analyse des données de la deuxième expérience, une limitation importante a émergé. Lorsque les évaluations émotionnelles du VLM ont été comparées à ce que les participants eux-mêmes ont rapporté sur leur état, la précision du modèle a chuté considérablement. Le modèle s'alignait bien avec la perception des observateurs externes, mais prédisait mal les expériences internes des participants eux-mêmes.

« Le VLM est un bon observateur des signaux sociaux externes, mais il ne peut pas lire les pensées », a expliqué Hong. En d'autres termes, le modèle remarque la même chose qu'un observateur externe regardant de côté remarquerait. Dans les situations où une personne masque les émotions ou éprouve quelque chose qui ne se manifeste pas par des expressions faciales et des gestes, le système échoue.

Ce Que Cela Signifie

L'étude identifie une priorité claire pour les développeurs : d'abord la fiabilité et la précision dans l'exécution des tâches, puis la couche d'interaction émotionnelle. Les personnes sont prêtes à collaborer avec des robots qui peuvent s'excuser de manière humaine — mais avant tout, elles veulent des partenaires compétents qui évitent les erreurs. À mesure que les approches VLM se développent, l'écart avec les systèmes traditionnels de reconnaissance d'émotions augmentera, mais cela ne résout pas la question fondamentale de la confiance.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite