Why OpenAI, Google, and Anthropic models become more convincing but make mistakes more often

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-28. Время чтения: 3 мин.

Reasoning models from major labs sound smarter, but that doesn't make them more accurate. OpenAI, Google, and Anthropic increase computation during inference to

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-04-28· 2 мин

Why OpenAI, Google, and Anthropic models become more convincing but make mistakes more often — Источник: Habr AI. Коллаж: Hamidun News.

Главная проблема крупнейших ИИ-лабораторий сейчас не в том, что их модели звучат недостаточно убедительно, а в том, что за уверенной подачей все чаще скрываются ошибки более высокого уровня. OpenAI, Google и Anthropic последние два года пытаются решить это наращиванием вычислений во время ответа: добавляют цепочки рассуждений, поиск по нескольким вариантам, самопроверку и больше токенов на один запрос. Снаружи это выглядит как прогресс.

Но если базовая модель не стала точнее, дополнительное «мышление» лишь делает ее заблуждения более стройными и правдоподобными. Идея масштабировать инференс кажется логичной. Если модели дать больше времени и больше шагов на решение задачи, она должна реже ошибаться.

На практике этот подход действительно убрал часть поверхностных сбоев: меньше нелепых фактических промахов, меньше ответов, которые разваливаются уже на первой проверке, меньше демонстрационных провалов. Именно поэтому reasoning-модели производят сильное впечатление: они говорят последовательнее, лучше структурируют ответ и умеют имитировать аккуратный процесс анализа. Проблема в том, что связность текста и достоверность вывода — не одно и то же.

Разница особенно заметна между простыми и глубокими галлюцинациями. Простая галлюцинация — это выдуманная дата, перепутанное имя или несуществующая ссылка. Ее еще можно быстро заметить.

Глубокая структурная ошибка опаснее: модель берет ложную предпосылку, строит на ней длинную логическую цепочку, добавляет уверенный тон и выдает цельный, убедительный ответ. Пользователь видит не хаос, а аккуратно оформленную неправду. Для задач вроде аналитики, подготовки документов, программирования, медицины или юридических консультаций такой тип ошибки куда рискованнее, чем обычный случайный промах.

На этом фоне тревожно выглядят и цифры. В одном из недавних сравнений для крупных моделей OpenAI на бенчмарке SimpleQA фигурировал показатель около 50% галлюцинаций. Если каждая вторая реплика на простых фактических вопросах оказывается неверной или выдуманной, это уже не косметический дефект, а системная уязвимость.

Да, любой бенчмарк ограничен: многое зависит от формулировок, методики оценки и конкретной версии модели. Но сам тренд показателен. Релизы становятся красноречивее и дороже в вычислениях, а глубинная надежность не растет теми же темпами — а иногда выглядит так, будто даже ухудшается.

Для корпоративных сценариев этого достаточно, чтобы ошибка пробралась в презентацию, отчет или кодовую базу незамеченной. Причина может быть в самом подходе. Дополнительные вычисления на этапе инференса не создают новое знание и не исправляют слабые места в данных обучения.

Они лишь заставляют модель дольше искать ответ внутри уже существующего пространства представлений. Если исходная картина мира у модели искажена, длинная цепочка рассуждений не обязательно приведет ее к истине. Наоборот, она может усилить эффект самоподтверждения: модель несколько раз перепроверит одну и ту же неверную гипотезу разными словами и тем самым сделает ошибку еще убедительнее.

Получается парадокс: больше вычислений снижают вероятность глупой ошибки, но повышают риск красивой ошибки. Чем увереннее звучит система, тем ниже вероятность, что пользователь вовремя остановится и проверит основу рассуждения. Отсюда и более широкий вывод для рынка.

Угроза для лидеров ИИ может прийти не только от новой «супермодели», а от команд, которые сумеют построить более надежные системы поверх моделей: с качественным retrieval, привязкой к источникам, калибровкой уверенности, жесткими проверками фактов и оценкой не только беглости, но и истинности. Победителем станет не тот, кто генерирует самый длинный ответ, а тот, чьему ответу можно доверять в реальной работе. Если индустрия и дальше будет путать убедительность с интеллектом, окно возможностей для новых игроков действительно уже открылось.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com