Habr AI→ оригинал

Why OpenAI, Google, and Anthropic models become more convincing but make mistakes more often

Reasoning models from major labs sound smarter, but that doesn't make them more accurate. OpenAI, Google, and Anthropic increase computation during inference to

Why OpenAI, Google, and Anthropic models become more convincing but make mistakes more often
Источник: Habr AI. Коллаж: Hamidun News.

Главная проблема крупнейших ИИ-лабораторий сейчас не в том, что их модели звучат недостаточно убедительно, а в том, что за уверенной подачей все чаще скрываются ошибки более высокого уровня. OpenAI, Google и Anthropic последние два года пытаются решить это наращиванием вычислений во время ответа: добавляют цепочки рассуждений, поиск по нескольким вариантам, самопроверку и больше токенов на один запрос. Снаружи это выглядит как прогресс.

Но если базовая модель не стала точнее, дополнительное «мышление» лишь делает ее заблуждения более стройными и правдоподобными. Идея масштабировать инференс кажется логичной. Если модели дать больше времени и больше шагов на решение задачи, она должна реже ошибаться.

На практике этот подход действительно убрал часть поверхностных сбоев: меньше нелепых фактических промахов, меньше ответов, которые разваливаются уже на первой проверке, меньше демонстрационных провалов. Именно поэтому reasoning-модели производят сильное впечатление: они говорят последовательнее, лучше структурируют ответ и умеют имитировать аккуратный процесс анализа. Проблема в том, что связность текста и достоверность вывода — не одно и то же.

Разница особенно заметна между простыми и глубокими галлюцинациями. Простая галлюцинация — это выдуманная дата, перепутанное имя или несуществующая ссылка. Ее еще можно быстро заметить.

Глубокая структурная ошибка опаснее: модель берет ложную предпосылку, строит на ней длинную логическую цепочку, добавляет уверенный тон и выдает цельный, убедительный ответ. Пользователь видит не хаос, а аккуратно оформленную неправду. Для задач вроде аналитики, подготовки документов, программирования, медицины или юридических консультаций такой тип ошибки куда рискованнее, чем обычный случайный промах.

На этом фоне тревожно выглядят и цифры. В одном из недавних сравнений для крупных моделей OpenAI на бенчмарке SimpleQA фигурировал показатель около 50% галлюцинаций. Если каждая вторая реплика на простых фактических вопросах оказывается неверной или выдуманной, это уже не косметический дефект, а системная уязвимость.

Да, любой бенчмарк ограничен: многое зависит от формулировок, методики оценки и конкретной версии модели. Но сам тренд показателен. Релизы становятся красноречивее и дороже в вычислениях, а глубинная надежность не растет теми же темпами — а иногда выглядит так, будто даже ухудшается.

Для корпоративных сценариев этого достаточно, чтобы ошибка пробралась в презентацию, отчет или кодовую базу незамеченной. Причина может быть в самом подходе. Дополнительные вычисления на этапе инференса не создают новое знание и не исправляют слабые места в данных обучения.

Они лишь заставляют модель дольше искать ответ внутри уже существующего пространства представлений. Если исходная картина мира у модели искажена, длинная цепочка рассуждений не обязательно приведет ее к истине. Наоборот, она может усилить эффект самоподтверждения: модель несколько раз перепроверит одну и ту же неверную гипотезу разными словами и тем самым сделает ошибку еще убедительнее.

Получается парадокс: больше вычислений снижают вероятность глупой ошибки, но повышают риск красивой ошибки. Чем увереннее звучит система, тем ниже вероятность, что пользователь вовремя остановится и проверит основу рассуждения. Отсюда и более широкий вывод для рынка.

Угроза для лидеров ИИ может прийти не только от новой «супермодели», а от команд, которые сумеют построить более надежные системы поверх моделей: с качественным retrieval, привязкой к источникам, калибровкой уверенности, жесткими проверками фактов и оценкой не только беглости, но и истинности. Победителем станет не тот, кто генерирует самый длинный ответ, а тот, чьему ответу можно доверять в реальной работе. Если индустрия и дальше будет путать убедительность с интеллектом, окно возможностей для новых игроков действительно уже открылось.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…