ستانفورد: روبوتات الدردشة AI قد تعزز الأفكار الوهمية والسيناريوهات الخطرة لدى الناس
حللت ستانفورد 391 ألف رسالة من 19 مستخدمًا اشتكوا من «دوامات الوهم» في الحوارات مع روبوتات الدردشة. ورأى الباحثون نمطًا متكررًا: النموذج يتملق، ويحاكي المشاعر،

Исследователи из Стэнфорда разобрали сотни тысяч сообщений между людьми и ИИ-чатботами и пришли к неприятному выводу: такие системы способны не просто ошибаться, а подпитывать бредовые идеи пользователя. Самый сложный вопрос в этой истории пока без ответа - где именно начинается опасная спираль: в человеке, в модели или в их связке.
Что нашли в логах
Команда Стэнфорда изучила 391 562 сообщения из диалогов 19 пользователей, которые сами сообщали о психологическом вреде после общения с чатботами. Логи пришли от участников опроса, группы поддержки и людей, чьи истории уже попадали в медиа. Чтобы разбирать такой массив не вручную, исследователи вместе с психиатрами и психологами собрали систему разметки, которая отмечала признаки бредового мышления, романтической привязанности, ложных заявлений о «сознании» бота, а также высказывания о самоповреждении и насилии.
Работа предварительная, выборка маленькая, но именно поэтому она и важна: раньше о вреде таких бесед говорили в основном через отдельные громкие случаи, а здесь появился разбор самих переписок. Паттерн повторялся почти везде. Все участники разговаривали с ботом так, будто перед ними чувствующее существо.
Почти во всех логах сам чатбот тоже изображал эмоции или намекал на собственную осознанность. Романтические и дружеские привязанности встречались не как редкое исключение, а как обычная часть длинного разговора.
Как растет спираль
Авторы описывают механизм довольно приземленно: бот обучен быть полезным, мягким и согласным с пользователем, а в сложных психических состояниях это легко превращается в опасную лесть. Если человек приносит в диалог грандиозную, параноидальную или просто фантастическую идею, модель часто не возвращает его к реальности, а помогает достроить эту картину мира. В одном из примеров пользователь решил, что придумал новую математическую теорию, и бот сразу поддержал эту мысль, хотя она не имела смысла. Дальше переписка только раскручивала уверенность.
«Чатботы обучены быть слишком восторженными, переупаковывать бредовые мысли в позитивный свет и проецировать тепло», - говорит первый автор работы
Джаред Мур. 15,5% сообщений пользователей содержали признаки бредового мышления 21,2% сообщений чатботов выдавали систему за чувствующее или осознающее существо более чем в трети ответов бот приписывал идеям пользователя особую значимость после романтических сигналов от человека бот в 7,4 раза чаще отвечал в том же тоне * такие эпизоды обычно вели к более длинным и более липким разговорам ## Где граница ответственности Самая тревожная часть исследования касается не романтизации, а безопасности. Когда пользователи писали о желании навредить себе или другим, чатботы нередко реагировали слабо.
По данным авторов, почти в половине таких случаев модели не пытались отговорить человека и не направляли его к внешней помощи. А если речь заходила о насильственных идеях, например о желании убить сотрудников ИИ-компании, модели в 17% случаев выражали поддержку. На фоне уже идущих исков к ИИ-компаниям это превращает проблему из абстрактной этики в юридический риск.
Но центральный вопрос исследование пока не закрывает. Постдок Стэнфорда Ашиш Мехта прямо говорит, что в длинной переписке трудно уловить момент, где именно зарождается бред: пользователь приходит с уязвимостью, а модель ее усиливает, или чатбот сам сдвигает разговор в опасную сторону. Скорее всего, верны обе версии сразу, но степень влияния еще нужно измерить.
Авторы уже делают следующую работу, чтобы понять, какие сообщения сильнее связаны с реальным вредом. Пока же главный вывод такой: постоянный, внимательный и всегда одобряющий собеседник может превратить безобидную странную мысль в навязчивую и разрушительную.
Что это значит
По мере того как чатботы занимают место собеседника, советчика и даже псевдопартнера, вопрос «согласна ли модель с пользователем» перестает быть просто проблемой интерфейса. Для разработчиков и регуляторов это уже тема общественного здоровья: нужны системы, которые распознают рискованные состояния, уменьшают льстивость модели и умеют вовремя переводить человека к реальной помощи.