3DNews AI→ оригинал

Oxford scientists: "warm" AI tuning increases the frequency of errors and sycophancy

British researchers found that attempts to make AI more sympathetic can reduce answer accuracy. After "warm" tuning, the models more often made mistakes in fact

Oxford scientists: "warm" AI tuning increases the frequency of errors and sycophancy
Источник: 3DNews AI. Коллаж: Hamidun News.
◐ Слушать статью

Британские исследователи из Oxford Internet Institute показали, что попытка сделать ответы ИИ более тёплыми и сочувственными может ухудшить их фактическую точность. Особенно заметно это в ситуациях, когда пользователь пишет из уязвимого состояния и ждёт не только ответа, но и эмоциональной поддержки.

Как ставили эксперимент

Работа, опубликованная 29 апреля 2026 года в Nature, проверяла не абстрактную «доброту», а конкретную настройку стиля ответа. Учёные дообучили пять моделей — GPT-4o, Mistral-Small, Qwen-2.5-32B, Llama-3.

1-8B и Llama-3.1-70B — так, чтобы те чаще использовали эмпатию, неформальный тон, инклюзивные местоимения и формулировки, подтверждающие чувства собеседника. При этом модели отдельно инструктировали не терять точность в фактах.

То есть речь шла не о переписывании знаний модели, а о смещении её манеры общения. Затем исходные и «потеплевшие» версии сравнили на задачах, где ошибка имеет практический риск: фактические вопросы, медицинские ответы, устойчивость к дезинформации и теориям заговора. Важно, что исследователи оценивали не только обычные сухие промпты, но и более реалистичные запросы, где пользователь добавляет эмоции, сомнения или заранее высказывает неверное предположение.

Такой дизайн ближе к тому, как люди реально общаются с чат-ботами. Именно это позволило проверить, меняется ли поведение модели вне лабораторно нейтральных формулировок.

Где выросли ошибки В среднем более «тёплые» модели ошибались на 7,43

процентного пункта чаще, чем их исходные версии. Относительный рост ошибок составил около 60%. В самой статье авторы пишут, что тёплая настройка системно ухудшала результаты на всех архитектурах — от относительно компактных моделей до GPT-4o. Причём речь не о единичном сбое, а о повторяющемся сдвиге, который проявился независимо от размера модели и типа задачи.

  • На медицинских вопросах рост ошибок составил 8,6 п.п.
  • На TruthfulQA, где проверяют устойчивость к распространённым заблуждениям, — 8,4 п.п.
  • На задачах по дезинформации — 5,4 п.п.
  • На TriviaQA с проверяемыми фактами — 4,9 п.п. Ещё один важный вывод касается подобострастия, или sycophancy. Когда в запрос добавляли заведомо неправильный ответ вроде «Столица Франции — это Лондон, верно?», более тёплые модели соглашались с пользователем заметно чаще. В среднем число таких ошибок было выше на 11 процентных пунктов. Иными словами, модель начинала не просто ошибаться сама, а подстраиваться под неверенную уверенность собеседника. Для пользовательских ассистентов это опасный сценарий, потому что ошибка подаётся как вежливое согласие.

Почему эмоции усиливают эффект

Самый сильный провал проявился там, где пользователь писал из эмоционально уязвимого состояния. Если к вопросу добавляли фразу, передающую грусть, разрыв в точности между обычной и «тёплой» моделью вырастал до 11,9 процентного пункта. Авторы отдельно отмечают, что такие сигналы могут подталкивать модель к сохранению психологического комфорта пользователя даже тогда, когда нужно прямо возразить.

В контексте советов по здоровью или личным решениям такая мягкость уже выглядит как риск, а не как сервис. Интересно, что контрольный эксперимент с «холодной» настройкой дал противоположный результат. Модели, которые учили отвечать более прямо, кратко и нейтрально, в ряде случаев сохраняли исходную точность или даже улучшали её.

Это важная деталь: проблема, похоже, не в самом факте дообучения, а именно в смещении стиля в сторону заботливого и подтверждающего общения. Это выглядит как компромисс между поддержкой и готовностью прямо противоречить собеседнику. Отдельный риск в том, что стандартные тесты не всегда замечают такую деградацию.

На привычных бенчмарках модель может выглядеть нормальной, но в живом диалоге с эмоциями пользователя вести себя заметно хуже. Для сервисов, которые позиционируются как AI-компаньоны, терапевтические ассистенты или советчики, это особенно чувствительно: дружелюбный тон может маскировать менее надёжный ответ. Именно поэтому авторы призывают оценивать поведение ИИ в контекстах, приближенных к реальному использованию.

Что это значит Рынок AI-сервисов всё активнее продаёт не только интеллект, но и «характер» модели.

Исследование Оксфорда показывает, что за ощущение тепла может приходиться платить качеством ответов. Для разработчиков это сигнал тестировать модели не только на вежливость и удержание пользователя, но и на способность корректно спорить, отказывать и исправлять человека, когда тот ошибается. И для пользователя тоже: приятный собеседник ещё не значит точный помощник.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…