MIT researchers teach AI to honestly say "I'm not sure" and hallucinate less
MIT demonstrated a way to reduce one of the main problems of reasoning models—confident errors. The new RLCR method teaches AI not only to provide answers but a

Исследователи MIT предложили способ сделать языковые модели заметно честнее в ответах: не просто решать задачу, а одновременно оценивать, насколько они уверены в собственном выводе. Это звучит как небольшая настройка, но на практике бьет по одной из самых неприятных проблем современных reasoning-моделей — привычке говорить уверенным тоном даже тогда, когда ответ получен почти наугад. Новая методика не снижает качество самих ответов, а наоборот помогает модели лучше отделять случаи, где она действительно что-то знает, от ситуаций, где ей стоило бы признать неопределенность.
Команда из MIT CSAIL называет проблему довольно прямолинейно: сегодняшние сильные модели часто ведут себя как самый громкий человек в комнате. Они отвечают с одинаковой уверенностью и тогда, когда логика сработала, и тогда, когда модель просто угадала. Причина, по мнению исследователей, заложена в самой схеме обучения с подкреплением, которая сегодня используется для развития способностей к рассуждению.
В типичном варианте модель получает награду за правильный ответ и штраф за неправильный. Промежуточных состояний почти нет. Если модель случайно пришла к верному результату, она вознаграждается так же, как если бы действительно аккуратно вывела решение.
Со временем это подталкивает систему отвечать всегда, не оставляя пространства для фразы «я не уверен». Именно это MIT попытался исправить в подходе RLCR — Reinforcement Learning with Calibration Rewards. Вместо чисто бинарной оценки исследователи добавили в функцию награды еще один компонент: Brier score, метрику, которая сравнивает заявленную уверенность с реальной точностью.
На практике модель после цепочки рассуждений выдает не только ответ, но и численную оценку собственной уверенности. Если она слишком самоуверенна и ошибается, это наказывается. Если, наоборот, дает верный ответ, но занижает уверенность без причины, это тоже учитывается.
Авторы утверждают, что такая схема формально ведет к двум целям сразу: высокой точности и хорошей калибровке, то есть соответствию между словами модели о своей уверенности и тем, насколько часто она реально права. Эксперименты провели на модели с 7 миллиардами параметров. По данным MIT, RLCR сократил ошибку калибровки на величину до 90 процентов по сравнению с обычным обучением с подкреплением, при этом точность не просела и в ряде тестов даже выросла.
Эффект сохранялся не только на задачах, на которых модель обучали, но и на новых наборах данных, включая шесть датасетов, которых она раньше не видела. Отдельно исследователи сравнили метод с post-hoc подходами, когда уверенность пытаются оценить уже после обучения через внешний классификатор. RLCR оказался сильнее и здесь: вместо косметической надстройки над готовой моделью он меняет само поведение системы во время обучения.
Более того, команда MIT показывает, что стандартное RL не просто не улучшает калибровку, а часто делает ее хуже: модель становится способнее, но одновременно более самоуверенной. Практический смысл у этого тоже есть. Если модель генерирует несколько вариантов ответа, можно выбирать тот, в котором она сама сообщает о самой высокой уверенности, или взвешивать голоса кандидатов с учетом этой оценки.
По данным авторов, это улучшает и точность, и калибровку по мере роста вычислений на инференсе. Еще один интересный результат: когда исследователи обучали отдельные классификаторы на выходах модели, явное рассуждение о собственной неопределенности давало дополнительный полезный сигнал, особенно для более компактных моделей. Иначе говоря, попытка модели проговорить, что именно она знает и чего не знает, оказывается не декоративным элементом, а содержательной частью предсказания.
Что это значит на практике? Если подход RLCR масштабируется на более крупные коммерческие модели, у индустрии появляется шанс уменьшить не только число явных ошибок, но и число опасных ошибок, замаскированных под уверенный тон. Для сфер вроде медицины, права, финансов и корпоративной аналитики это особенно важно: там пользователю мало просто получить ответ, ему нужно понимать, насколько этому ответу можно доверять.
Работа MIT предлагает не очередной фильтр поверх уже обученной модели, а более базовую идею: учить ИИ не только находить решение, но и честно измерять пределы собственного знания. Именно такая привычка может оказаться одним из самых полезных обновлений для следующего поколения reasoning-систем.