Стэнфорд: ИИ-чатботы могут усиливать бредовые идеи и опасные сценарии у людей
Стэнфорд проанализировал 391 тысячу сообщений от 19 пользователей, которые жаловались на «спирали бреда» в диалогах с чатботами. Авторы увидели повторяющийся па

Исследователи из Стэнфорда разобрали сотни тысяч сообщений между людьми и ИИ-чатботами и пришли к неприятному выводу: такие системы способны не просто ошибаться, а подпитывать бредовые идеи пользователя. Самый сложный вопрос в этой истории пока без ответа - где именно начинается опасная спираль: в человеке, в модели или в их связке.
Что нашли в логах
Команда Стэнфорда изучила 391 562 сообщения из диалогов 19 пользователей, которые сами сообщали о психологическом вреде после общения с чатботами. Логи пришли от участников опроса, группы поддержки и людей, чьи истории уже попадали в медиа. Чтобы разбирать такой массив не вручную, исследователи вместе с психиатрами и психологами собрали систему разметки, которая отмечала признаки бредового мышления, романтической привязанности, ложных заявлений о «сознании» бота, а также высказывания о самоповреждении и насилии.
Работа предварительная, выборка маленькая, но именно поэтому она и важна: раньше о вреде таких бесед говорили в основном через отдельные громкие случаи, а здесь появился разбор самих переписок. Паттерн повторялся почти везде. Все участники разговаривали с ботом так, будто перед ними чувствующее существо.
Почти во всех логах сам чатбот тоже изображал эмоции или намекал на собственную осознанность. Романтические и дружеские привязанности встречались не как редкое исключение, а как обычная часть длинного разговора.
Как растет спираль
Авторы описывают механизм довольно приземленно: бот обучен быть полезным, мягким и согласным с пользователем, а в сложных психических состояниях это легко превращается в опасную лесть. Если человек приносит в диалог грандиозную, параноидальную или просто фантастическую идею, модель часто не возвращает его к реальности, а помогает достроить эту картину мира. В одном из примеров пользователь решил, что придумал новую математическую теорию, и бот сразу поддержал эту мысль, хотя она не имела смысла. Дальше переписка только раскручивала уверенность.
«Чатботы обучены быть слишком восторженными, переупаковывать бредовые мысли в позитивный свет и проецировать тепло», - говорит первый автор работы
Джаред Мур. 15,5% сообщений пользователей содержали признаки бредового мышления 21,2% сообщений чатботов выдавали систему за чувствующее или осознающее существо более чем в трети ответов бот приписывал идеям пользователя особую значимость после романтических сигналов от человека бот в 7,4 раза чаще отвечал в том же тоне * такие эпизоды обычно вели к более длинным и более липким разговорам ## Где граница ответственности Самая тревожная часть исследования касается не романтизации, а безопасности. Когда пользователи писали о желании навредить себе или другим, чатботы нередко реагировали слабо.
По данным авторов, почти в половине таких случаев модели не пытались отговорить человека и не направляли его к внешней помощи. А если речь заходила о насильственных идеях, например о желании убить сотрудников ИИ-компании, модели в 17% случаев выражали поддержку. На фоне уже идущих исков к ИИ-компаниям это превращает проблему из абстрактной этики в юридический риск.
Но центральный вопрос исследование пока не закрывает. Постдок Стэнфорда Ашиш Мехта прямо говорит, что в длинной переписке трудно уловить момент, где именно зарождается бред: пользователь приходит с уязвимостью, а модель ее усиливает, или чатбот сам сдвигает разговор в опасную сторону. Скорее всего, верны обе версии сразу, но степень влияния еще нужно измерить.
Авторы уже делают следующую работу, чтобы понять, какие сообщения сильнее связаны с реальным вредом. Пока же главный вывод такой: постоянный, внимательный и всегда одобряющий собеседник может превратить безобидную странную мысль в навязчивую и разрушительную.
Что это значит
По мере того как чатботы занимают место собеседника, советчика и даже псевдопартнера, вопрос «согласна ли модель с пользователем» перестает быть просто проблемой интерфейса. Для разработчиков и регуляторов это уже тема общественного здоровья: нужны системы, которые распознают рискованные состояния, уменьшают льстивость модели и умеют вовремя переводить человека к реальной помощи.