Jiqizhixin (机器之心)→ оригинал

Действительно ли нейросети умеют рассуждать? Исследование структурных ошибок в логике LLM

Системное исследование когнитивных способностей больших языковых моделей (LLM) выявило их неспособность к истинному логическому выводу. Вместо глубокого пониман

Действительно ли нейросети умеют рассуждать? Исследование структурных ошибок в логике LLM
Источник: Jiqizhixin (机器之心). Коллаж: Hamidun News.

Действительно ли нейросети умеют рассуждать? Исследование структурных ошибок в логике LLM

Когда GPT-4 решает задачу по математике или Claude разбирает сложный юридический документ, у стороннего наблюдателя возникает закономерный вопрос: это настоящее мышление или искусная иллюзия? Новое системное исследование когнитивных способностей больших языковых моделей даёт неудобный ответ: скорее всего, второе. Учёные зафиксировали то, что они называют «структурными сбоями» — предсказуемые, воспроизводимые провалы в логике, которые обнажают принципиальную разницу между имитацией рассуждения и самим рассуждением.

За последние два года языковые модели достигли впечатляющих результатов на академических бенчмарках, что породило широкий оптимизм в отношении их интеллектуальных способностей. Компании стали внедрять LLM в медицину, юриспруденцию, финансовый анализ — области, где цена ошибки измеряется не только репутацией, но и человеческими судьбами. Именно этот разрыв между публичными заявлениями об «умных» системах и их реальными возможностями побудил исследователей провести методичное, системное изучение того, как именно модели справляются с задачами, требующими последовательного логического вывода.

Суть открытия состоит в следующем: LLM не выстраивают цепочки умозаключений — они ищут статистически правдоподобные продолжения текста. Это различие кажется тонким, но на практике оно критично. Когда модель сталкивается с задачей, похожей на те, что встречались в обучающих данных, она выдаёт убедительный ответ. Но стоит незначительно изменить условия — переформулировать вопрос, добавить промежуточный шаг или потребовать рассуждения в обратном направлении — и система начинает ошибаться не случайно, а системно. Исследователи назвали эти провалы «структурными», потому что они возникают не из-за недостатка данных, а из-за архитектурных ограничений самого подхода.

Особенно показательны эксперименты с многошаговыми задачами. Модели демонстрируют нечто похожее на «деградацию глубины»: чем длиннее требуемая цепочка рассуждений, тем выше вероятность ошибки на каком-либо из промежуточных звеньев. При этом модель редко осознаёт собственный сбой — она продолжает генерировать уверенный, грамматически безупречный текст, который выглядит как корректный ответ, но содержит логические противоречия. Именно эта самоуверенность делает структурные ошибки особенно опасными: пользователь не получает сигнала о том, что что-то пошло не так.

Исследование также ставит под сомнение популярную интерпретацию успехов моделей на тестах. Высокие баллы на стандартных бенчмарках могут объясняться не развитием логических способностей, а всё более точной «калибровкой» под паттерны, которые присутствуют в тестовых наборах. Иными словами, модель учится правильно отвечать на определённый тип вопросов, не приобретая при этом переносимого понимания. Это принципиальная разница между заучиванием и осмыслением — и именно она объясняет, почему LLM могут одновременно решать задачи уровня PhD и спотыкаться на элементарных головоломках, сформулированных нестандартно.

Для индустрии эти выводы имеют конкретные практические последствия. Внедрение языковых моделей в критические инфраструктуры — медицинскую диагностику, правовой анализ, управление рисками — требует переосмысления. Компании, которые строят продукты на предположении о том, что LLM способны к надёжному логическому выводу, принимают на себя риски, которые сложно измерить заранее. Исследователи не призывают отказаться от этих технологий, но настаивают на более строгих стандартах верификации: каждое применение должно сопровождаться чёткими рамками того, где модель работает предсказуемо, а где — нет.

Фундаментальный вопрос, который ставит это исследование, выходит за рамки технического: что мы на самом деле создаём? Если языковые модели — это очень точные системы предсказания следующего токена, а не системы понимания, то весь нарратив об «искусственном интеллекте» нуждается в переформулировке. Качественная имитация рассуждения может быть полезным инструментом, но это не то же самое, что рассуждение. Понимание этой границы — не пессимизм, а необходимое условие для того, чтобы строить на фундаменте LLM что-то по-настоящему надёжное.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…