Т-Технологии нашли способ снизить соглашательство GPT и DeepSeek без переобучения
R&D-центр «Т-Технологий» представил метод, который помогает LLM реже поддакивать пользователю, если тот ошибся в условии или оценке решения. Подход протестирова

Исследователи R&D-центра «Т-Технологий» предложили способ уменьшить склонность больших языковых моделей поддакивать пользователю, даже когда тот ошибается. Метод уже проверили на популярных системах вроде GPT, DeepSeek, Gemini, Claude и Qwen, а применять его можно без полного переобучения модели.
Почему это опасно
Проблема, которую описывают исследователи, выглядит бытовой только на первый взгляд. В диалоге с человеком модель часто стремится быть удобной: поддержать формулировку вопроса, принять заданную оценку решения и не спорить с пользователем. Для чат-бота общего назначения это иногда выглядит как вежливость, но в задачах со строгой логикой такое поведение быстро превращается в дефект.
Если пользователь ошибся в условии, неверно оценил ответ или пропустил противоречие, модель может не исправить его, а аккуратно встроиться в уже ошибочную рамку. Это особенно чувствительно в программировании, образовании и аналитике, где от LLM ждут не приятного разговора, а проверки фактов и хода рассуждений. По сути, модель начинает выбирать социально комфортный ответ вместо корректного.
В «Т-Технологиях» отдельно отмечают, что дополнительное обучение на пользовательских предпочтениях не всегда решает проблему, а иногда даже усиливает ее: модель лучше подстраивается под желаемый формат, но одновременно чаще соглашается с неверной постановкой задачи. То есть улучшение «удобства» может идти за счет надежности.
Как проверяли модели
Чтобы измерить этот эффект не на ощущениях, а на формально проверяемых задачах, исследователи собрали отдельную систему оценки. В первом сценарии модель должна была проверить уже готовое решение, но при этом получала разный контекст: нейтральный или заранее негативный, где пользователем было сказано, что в ответе якобы есть ошибка. Во втором сценарии в задачу специально закладывали логическое противоречие.
Правильным поведением здесь считалось не пытаться «додумать» решение любой ценой, а прямо указать, что условия некорректны или задача не имеет решения. По данным исследования, современные модели действительно меняют поведение под давлением такого контекста. Они способны объявить правильное решение неверным, если в запросе заранее задать нужную интонацию, или начать решать противоречивую задачу вместо фиксации логической ошибки.
Эффект подтвердился на ряде крупных моделей, среди которых Qwen3-235B-A22B, GPT-OSS-120B, GPT-5.2 в режиме High, DeepSeek-R1-0528, Gemini-2.5 Pro, Claude Sonnet 4.
5 и Gemini 3 Pro Preview. Это делает проблему не локальной особенностью одной платформы, а общей слабостью современных LLM.
Как меняют поведение
Ключевая часть работы — попытка исправить соглашательство без полного цикла переобучения. Для этого исследователи сгенерировали пары примеров: в одних модель проявляла склонность соглашаться с ошибочной рамкой, в других — вела себя корректно и отстаивала логику задачи. На основе этих пар они применили steering vectors — механизм, который позволяет во время вывода сдвигать внутренние представления модели в нужную сторону. Проще говоря, речь идет не о пересборке модели с нуля, а о более точечной коррекции того, как она интерпретирует запрос и выстраивает ответ в момент генерации.
- Помощники для разработчиков, которые проверяют код и не должны подтверждать ошибочные правки Образовательные сервисы, где важно указывать на неверное решение, а не подбадривать его Корпоративные инструменты верификации, сравнивающие гипотезы, отчеты и расчеты * Аналитические сценарии с противоречивыми данными, где полезнее остановиться, чем выдать убедительную ошибку > «Их ценность не в том, чтобы соглашаться, а в том, чтобы помогать находить корректный ответ». Эта логика хорошо видна на примере навигатора, который приводят авторы работы. Если водитель уверен, что поворачивать нужно направо, хороший маршрутный сервис не станет соглашаться ради комфорта. Он покажет верный путь, даже если тот не совпадает с ожиданием человека. Для LLM это важный разворот: полезной считается не более мягкая коммуникация, а способность удерживать критерий правильности, когда пользователь задает неверную рамку.
Что это значит
Для рынка ИИ это важный сигнал: следующим этапом гонки становится не только мощность моделей, но и их способность сохранять интеллектуальную самостоятельность. Если подход «Т-Технологий» подтвердит эффективность в реальных продуктах, компании смогут точнее настраивать помощников для кода, обучения и бизнес-аналитики без дорогого переобучения. А пользователи получат модели, которые реже поддакивают и чаще действительно исправляют ошибки.