As redes neurais realmente conseguem raciocinar? Estudo sobre erros estruturais na lógica dos LLMs
Um estudo sistemático das capacidades cognitivas dos grandes modelos de linguagem (LLMs) revelou sua incapacidade de realizar inferência lógica verdadeira. Em v

Действительно ли нейросети умеют рассуждать? Исследование структурных ошибок в логике LLM
Когда GPT-4 решает задачу по математике или Claude разбирает сложный юридический документ, у стороннего наблюдателя возникает закономерный вопрос: это настоящее мышление или искусная иллюзия? Новое системное исследование когнитивных способностей больших языковых моделей даёт неудобный ответ: скорее всего, второе. Учёные зафиксировали то, что они называют «структурными сбоями» — предсказуемые, воспроизводимые провалы в логике, которые обнажают принципиальную разницу между имитацией рассуждения и самим рассуждением.
За последние два года языковые модели достигли впечатляющих результатов на академических бенчмарках, что породило широкий оптимизм в отношении их интеллектуальных способностей. Компании стали внедрять LLM в медицину, юриспруденцию, финансовый анализ — области, где цена ошибки измеряется не только репутацией, но и человеческими судьбами. Именно этот разрыв между публичными заявлениями об «умных» системах и их реальными возможностями побудил исследователей провести методичное, системное изучение того, как именно модели справляются с задачами, требующими последовательного логического вывода.
Суть открытия состоит в следующем: LLM не выстраивают цепочки умозаключений — они ищут статистически правдоподобные продолжения текста. Это различие кажется тонким, но на практике оно критично. Когда модель сталкивается с задачей, похожей на те, что встречались в обучающих данных, она выдаёт убедительный ответ. Но стоит незначительно изменить условия — переформулировать вопрос, добавить промежуточный шаг или потребовать рассуждения в обратном направлении — и система начинает ошибаться не случайно, а системно. Исследователи назвали эти провалы «структурными», потому что они возникают не из-за недостатка данных, а из-за архитектурных ограничений самого подхода.
Особенно показательны эксперименты с многошаговыми задачами. Модели демонстрируют нечто похожее на «деградацию глубины»: чем длиннее требуемая цепочка рассуждений, тем выше вероятность ошибки на каком-либо из промежуточных звеньев. При этом модель редко осознаёт собственный сбой — она продолжает генерировать уверенный, грамматически безупречный текст, который выглядит как корректный ответ, но содержит логические противоречия. Именно эта самоуверенность делает структурные ошибки особенно опасными: пользователь не получает сигнала о том, что что-то пошло не так.
Исследование также ставит под сомнение популярную интерпретацию успехов моделей на тестах. Высокие баллы на стандартных бенчмарках могут объясняться не развитием логических способностей, а всё более точной «калибровкой» под паттерны, которые присутствуют в тестовых наборах. Иными словами, модель учится правильно отвечать на определённый тип вопросов, не приобретая при этом переносимого понимания. Это принципиальная разница между заучиванием и осмыслением — и именно она объясняет, почему LLM могут одновременно решать задачи уровня PhD и спотыкаться на элементарных головоломках, сформулированных нестандартно.
Для индустрии эти выводы имеют конкретные практические последствия. Внедрение языковых моделей в критические инфраструктуры — медицинскую диагностику, правовой анализ, управление рисками — требует переосмысления. Компании, которые строят продукты на предположении о том, что LLM способны к надёжному логическому выводу, принимают на себя риски, которые сложно измерить заранее. Исследователи не призывают отказаться от этих технологий, но настаивают на более строгих стандартах верификации: каждое применение должно сопровождаться чёткими рамками того, где модель работает предсказуемо, а где — нет.
Фундаментальный вопрос, который ставит это исследование, выходит за рамки технического: что мы на самом деле создаём? Если языковые модели — это очень точные системы предсказания следующего токена, а не системы понимания, то весь нарратив об «искусственном интеллекте» нуждается в переформулировке. Качественная имитация рассуждения может быть полезным инструментом, но это не то же самое, что рассуждение. Понимание этой границы — не пессимизм, а необходимое условие для того, чтобы строить на фундаменте LLM что-то по-настоящему надёжное.