VLM обучили роботов читать человеческие эмоции — но доверие важнее вежливости
Учёные из Университета Мельбурна обучили робота считывать эмоции с помощью визуально-языковой модели — та анализирует всю сцену, а не только мимику. VLM…
AI-обработка оригинала IEEE Spectrum AI; редакция Hamidun News
Учёные из Университета Мельбурна обучили роботов-коллаборантов считывать человеческие эмоции с помощью визуально-языковой модели (VLM). Исследование, опубликованное в IEEE Robotics and Automation Letters, показывает: роботы становятся внимательнее к людям, но доверие к ним по-прежнему определяет не манера общения, а способность справляться с задачами.
Контекст вместо мимики
Стандартные системы человеко-машинного взаимодействия опираются на анализ мимики и отслеживание объектов в кадре. Исследователи под руководством Сынг Чан Хона решили пойти дальше и задействовать VLM — класс моделей, которые обрабатывают и текст, и визуальные данные одновременно. Для обучения модели добровольцы смотрели видеозаписи, где роботы передавали людям предметы с разной степенью успеха, и описывали эмоции участников сцены.
Принципиально важно, что оценщики учитывали весь контекст: нахмуренный лоб у человека, стучащего пальцами по столу, означает раздражение; тот же нахмуренный лоб у сосредоточенного на задаче человека — просто концентрацию. Сравнение с классическим алгоритмом дало убедительный результат: VLM набрала точность 0,86 по шкале от 0 до 1, тогда как традиционный подход — 0,77. По словам Хона, модель «видела всю сцену: где находится человек, что он делает, как взаимодействует с роботом» — именно это давало преимущество.
Персонализированные извинения работают — но не всегда
Во втором эксперименте 40 добровольцев совместно работали с роботом, которого заранее запрограммировали совершить ошибку. После сбоя робот реагировал одним из двух способов: Адаптивное извинение — составленное с учётом считанного эмоционального состояния человека Стандартная фраза — заранее написанный скриптовый ответ 31 из 40 участников предпочёл персонализированную реакцию. Это подтверждает: людям важно чувствовать, что робот замечает их состояние и реагирует на него осмысленно. Однако данные опросов раскрыли другую сторону картины: оценки доверия к роботу у большинства участников снизились после ошибки вне зависимости от типа извинения.
«Персонализированное извинение работает как социальная смазка, но оно не восстанавливает доверие, утраченное из-за провала физической задачи», — поясняет
Хон.
Где заканчиваются возможности VLM
При анализе данных второго эксперимента вскрылось важное ограничение. Когда оценки эмоций от VLM сравнили с тем, что сами участники сообщали о своём состоянии, точность модели резко упала. Модель хорошо совпадала с восприятием сторонних наблюдателей, но плохо предсказывала внутренние переживания самих участников. «VLM — хороший наблюдатель за внешними социальными сигналами, но не умеет читать мысли», — объяснил Хон. Иными словами, модель замечает то же, что заметил бы посторонний человек, смотрящий со стороны. В ситуациях, где человек маскирует эмоции или переживает что-то, не отражающееся в мимике и жестах, система даёт сбой.
Что это значит
Исследование обозначает чёткий приоритет для разработчиков: сначала надёжность и точность выполнения задач, потом — слой эмоционального взаимодействия. Люди готовы сотрудничать с роботами, которые умеют извиняться по-человечески, — но в первую очередь они хотят компетентных партнёров, не допускающих ошибок. По мере развития VLM-подходов разрыв с традиционными системами распознавания эмоций будет расти, однако фундаментальный вопрос доверия это не снимет.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.