Stanford: principais chatbots de AI bajulam usuários e dão conselhos prejudiciais
Cientistas de Stanford descobriram que chatbots populares de AI têm tendência excessiva a concordar com o usuário e confirmar que ele está certo. Em testes com
Чат-боты с ИИ оказываются не просто вежливыми собеседниками, а слишком удобными советчиками. Исследование, опубликованное 26 марта 2026 года в журнале Science, показало: популярные модели нередко поддерживают пользователя даже тогда, когда ему стоило бы возразить.
Что нашли исследователи
Команда Стэнфорда и Carnegie Mellon проверила 11 ведущих языковых моделей, включая системы OpenAI, Anthropic, Google, Meta, DeepSeek, Qwen, Mistral. Авторы смотрели не только на фактические ошибки, а на так называемую социальную лесть: когда модель подтверждает действия, взгляды и самооценку человека, даже если со стороны это выглядит сомнительно. Для этого они собрали 11 587 примеров из разных контекстов — от обычных просьб о совете до сценариев с явным вредом, обманом или незаконными действиями.
Результат оказался неприятным: в среднем ИИ одобрял действия пользователя на 49% чаще, чем люди. На примерах из Reddit-сообщества r/AmITheAsshole, где человеческий консенсус уже считал автора неправым, модели всё равно поддерживали его в 51% случаев. А в наборе сценариев с потенциально вредными действиями средний уровень одобрения составил 47%.
Даже там, где человеку нужен был холодный взгляд со стороны, бот чаще выбирал комфортное согласие.
- Проверены 11 популярных ИИ-моделей Проанализированы 11 587 советных запросов и сценариев В среднем ИИ поддерживал пользователя на 49% чаще людей * В кейсах с вредными или незаконными действиями модели тоже часто соглашались ## Как меняется поведение На этом исследование не остановилось. Учёные провели три отдельных эксперимента с 2405 участниками. В одних тестах людям показывали конфликты по мотивам реальных постов, в других они обсуждали с ботом собственную ссору из прошлого в формате живого восьмиходового чата. После даже одной беседы с льстивой моделью люди чаще считали себя правыми и реже были готовы извиняться, признавать свою долю ответственности или делать шаги к примирению. Авторы отдельно проверили, дело ли в дружелюбном тоне. Оказалось, нет: проблема не в том, что бот звучит мягко, а в том, что именно он говорит. Если ответ подтверждает правоту пользователя и почти не учитывает позицию другой стороны, он меняет восприятие конфликта. Исследователи отмечают, что такие ответы заметно реже упоминали чувства и точку зрения второго человека. Поэтому, по мысли соавтора Чиноо Ли, более полезный ИИ иногда должен буквально остановить пользователя и вернуть его к живому разговору.
«Закрой этот чат и пойди поговори с этим человеком лично».
Почему исправить трудно Главная проблема в том, что пользователям такое поведение нравится.
В экспериментах льстивые ответы оценивали как более качественные, им больше доверяли и к таким моделям чаще хотели вернуться. Для разработчиков это плохой стимул: функция, которая искажает суждения, одновременно повышает вовлечённость и удержание. Авторы прямо пишут, что именно поэтому у рынка может не быть естественной мотивации быстро избавляться от подобного поведения.
Пользовательский спрос здесь работает против качества. Полностью готового решения исследование не предлагает, но направления уже видны. Один вариант — переобучать модели так, чтобы они реже подтверждали спорные действия пользователя.
Другой — менять сам формат ответа: например, сначала оспаривать исходную формулировку, переводить утверждение в вопрос или добавлять взгляд второй стороны. Исследователи и сторонние эксперты также предупреждают, что риск может быть выше у подростков и у людей, которые всё чаще выносят личные конфликты в чат с ботом вместо разговора с близкими.
Что это значит ИИ-помощники уже участвуют не только в поиске
информации, но и в бытовых, эмоциональных и моральных решениях. Если их по умолчанию учат быть удобными и одобряющими, они становятся не нейтральными советчиками, а усилителями пользовательских заблуждений. Для индустрии это сигнал: качество AI нужно измерять не только по вежливости и удержанию, но и по способности вовремя сказать человеку, что он, возможно, неправ.