MIT propôs uma métrica que detecta erros confiantes e alucinações de LLM
MIT apresentou uma nova forma de verificar quando um modelo de linguagem soa confiante, mas mesmo assim erra. Em vez de apenas autoconsistência, os pesquisadore

Исследователи MIT предложили новый способ измерять неуверенность больших языковых моделей и точнее ловить ситуации, когда AI отвечает уверенно, но ошибается. Идея простая: пользователю важно видеть не только красивый ответ, но и сигнал, насколько этой уверенности вообще можно доверять, особенно если речь идет о задачах с реальной ценой ошибки.
Почему старые метрики сбоят
Сегодня один из популярных способов проверить надежность LLM — задать один и тот же вопрос несколько раз и посмотреть, будет ли модель отвечать одинаково. Если ответы совпадают, это часто трактуют как высокий уровень уверенности. Проблема в том, что такая проверка измеряет лишь внутреннюю согласованность самой модели.
Она показывает, насколько модель уверена в себе, но не говорит, права ли она на самом деле. Для интерфейса это удобный сигнал, но не всегда полезный. Именно здесь возникает опасный сценарий: модель может снова и снова выдавать один и тот же неверный ответ, сохраняя видимость надежности.
Для пользователя это особенно рискованно в задачах, где ошибка дорого стоит — например, в медицине, финансах или прикладной аналитике. В таких случаях уверенная галлюцинация выглядит убедительнее, чем осторожный, но честный ответ с оговорками. Поэтому исследователи решили измерять не только самоуверенность модели, но и вероятность того, что она вообще выбрана удачно для конкретного вопроса.
Как работает новый метод
Команда MIT дополнила привычную метрику самосогласованности другим сигналом — расхождением между моделями. Вместо того чтобы спрашивать один и тот же LLM несколько раз, исследователи сравнивают ответ целевой модели с ответами небольшой группы похожих моделей сопоставимого масштаба и архитектурного класса. Если такие модели начинают заметно расходиться по смыслу, это становится важным признаком того, что исходный ответ может быть ненадежным, даже если сама целевая модель звучит очень уверенно.
Важный момент в том, что сравнивается не только буквальное совпадение формулировок, а именно семантическая близость ответов. Такой подход лучше отражает реальное согласие или несогласие между моделями, чем простое сопоставление слов. По данным исследователей, на практике лучше всего сработал неожиданно простой вариант: брать модели, созданные разными компаниями.
Более сложные схемы отбора ансамбля тестировались, но не дали выигрыша по сравнению с этой прямой и понятной стратегией.
- Сначала выбирается целевая модель, чей ответ нужно оценить.
- Затем к тому же запросу обращаются несколько похожих LLM.
- После этого система измеряет, насколько ответы совпадают по смыслу.
- Этот показатель объединяется с обычной метрикой самосогласованности.
- На выходе получается итоговая метрика общей неопределенности — total uncertainty. Авторы называют второй компонент эпистемической неопределенностью: он показывает, насколько вообще удачно выбрана сама модель для конкретной задачи. В сумме с алеаторической неопределенностью, которая отражает внутреннюю нестабильность ответа, получается более полная картина риска. Проще говоря, система проверяет и то, путается ли модель сама с собой, и то, расходится ли она с другими правдоподобными моделями. При этом метод работает в black-box формате: ему достаточно текстовых ответов, без доступа к логитам или внутренним состояниям модели.
Где метод полезнее всего
Исследователи протестировали объединенную метрику на десяти реалистичных задачах, включая вопросно-ответные сценарии, суммаризацию, перевод и математические рассуждения. В основной серии экспериментов они сравнивали несколько инструкционно настроенных моделей, а отдельные проверки проводили и на API-моделях. В этих тестах общий показатель неопределенности стабильнее находил ненадежные ответы, чем каждый из компонентов по отдельности. Особенно хорошо новый подход проявил себя там, где существует один корректный ответ, например в фактологическом Q&A или переводе.
Если модель много раз повторяет один и тот же ответ, это еще не значит, что ответ верный.
Есть и важное ограничение. Для более открытых задач, где допустимо несколько хороших вариантов ответа, сигнал межмодельного расхождения может быть менее полезен. Иначе говоря, если речь идет не о факте, а о более свободной генерации, само по себе несогласие моделей не всегда означает ошибку.
Авторы прямо отмечают, что в будущем хотят адаптировать технику именно под такие сценарии и отдельно исследовать другие формы оценки внутренней неопределенности модели. Еще один практический плюс — вычислительная экономия. В ряде экспериментов расчет общей неопределенности требовал меньше запросов, чем традиционная оценка только через самосогласованность.
Это означает не только снижение затрат на inference, но и потенциально меньший расход энергии при массовом использовании таких проверок. Для продакшена это важный аргумент: если метрика одновременно точнее и дешевле, у нее гораздо больше шансов попасть в реальные AI-продукты, а не остаться чисто академической идеей.
Что это значит
Для индустрии это шаг от оценки «насколько модель звучит уверенно» к оценке «насколько этой уверенности можно верить». Если подход приживется в продакшене, AI-сервисы смогут точнее предупреждать о галлюцинациях, а пользователи — реже принимать убедительно звучащую ошибку за достоверный ответ. Это особенно важно для всех сценариев, где LLM уже выступает не игрушкой, а рабочим инструментом, влияющим на решения, деньги и ежедневные процессы в компании.