Google предлагает думать глубже, а не дольше — и вдвое снижает затраты на инференс
Совместное исследование Google и Университета Вирджинии ставит под сомнение главную догму последних лет: чем длиннее цепочка рассуждений (Chain-of-Thought), тем

Последние несколько лет индустрия больших языковых моделей жила по негласному правилу: хочешь получить от модели более точный ответ на сложный вопрос — заставь её думать дольше. Техника Chain-of-Thought, при которой модель пошагово выстраивает цепочку рассуждений перед финальным ответом, стала золотым стандартом. Разработчики наращивали длину этих цепочек, увеличивали контекстные окна, тратили всё больше вычислительных ресурсов на каждый запрос. Но новое исследование, проведённое совместно Университетом Вирджинии и Google, утверждает: мы всё это время путали многословие с интеллектом.
Идея, лежащая в основе работы, обманчиво проста. Исследователи задались вопросом: действительно ли каждый дополнительный токен в цепочке рассуждений приближает модель к правильному ответу? Или значительная часть этих токенов — информационный шум, повторения и топтание на месте? Чтобы ответить на этот вопрос, команда ввела новую метрику — Deep-Thinking Ratio, или коэффициент глубокого мышления. Вместо того чтобы измерять длину рассуждения в токенах, эта метрика оценивает, какая доля рассуждений действительно содержит продуктивные логические шаги — те, что ведут к решению задачи, а не просто заполняют пространство.
Результаты оказались красноречивыми. Анализ показал, что в типичных длинных цепочках рассуждений современных LLM огромная часть промежуточных шагов не несёт реальной смысловой нагрузки. Модель может десятки раз переформулировать одну и ту же мысль, возвращаться к уже пройденным этапам, генерировать избыточные пояснения — и всё это стоит реальных денег. Каждый лишний токен на этапе инференса — это время GPU, электроэнергия и задержка для конечного пользователя. В масштабах крупных сервисов, обрабатывающих миллиарды запросов, речь идёт о колоссальных суммах.
Ключевое достижение исследования состоит в том, что, оптимизируя процесс рассуждения с учётом Deep-Thinking Ratio, удалось одновременно добиться двух вещей, которые обычно считаются взаимоисключающими. Точность ответов модели выросла — потому что отсечение непродуктивных шагов фактически снижает вероятность того, что модель «заблудится» в собственных рассуждениях и придёт к ошибочному выводу. А общие затраты на инференс сократились примерно вдвое — потому что модель генерирует значительно меньше токенов на каждый запрос. Это не компромисс между качеством и стоимостью, а редкий случай, когда оптимизация одного параметра улучшает оба.
Чтобы понять масштаб этого открытия, стоит вспомнить контекст. Стоимость инференса — одна из главных головных болей индустрии. OpenAI, Google, Anthropic и другие компании тратят миллиарды долларов на вычислительную инфраструктуру, и значительная часть этих расходов приходится именно на генерацию ответов для пользователей. Модели вроде o1 и o3 от OpenAI, а также Gemini с расширенным мышлением от Google специально проектировались для длинных цепочек рассуждений. Если окажется, что половину этих рассуждений можно безболезненно отсечь — или, точнее, научить модель не генерировать их в первую очередь — экономический эффект будет измеряться сотнями миллионов долларов ежегодно.
Есть и более глубокий теоретический аспект. Исследование фактически ставит под вопрос саму парадигму масштабирования инференса, которая доминировала в 2024-2025 годах. Если «думать дольше» не равно «думать лучше», то гонка за увеличением контекстных окон и наращивание вычислительного бюджета на рассуждения — это тупиковый путь. Вместо этого индустрии, возможно, стоит сосредоточиться на качестве каждого шага рассуждения, а не на их количестве. Это перекликается с тем, как работает человеческое мышление: эксперт решает задачу не потому, что думает дольше новичка, а потому, что каждый его мыслительный шаг более целенаправлен.
Практические последствия для разработчиков и пользователей могут проявиться довольно быстро. Deep-Thinking Ratio — это метрика, которую относительно несложно интегрировать в существующие пайплайны обучения и оценки моделей. Можно ожидать, что крупные лаборатории начнут использовать подобные подходы при файн-тюнинге, а облачные провайдеры — при оптимизации стоимости API-вызовов. Для конечных пользователей это означает более быстрые и при этом более точные ответы при том же или меньшем ценнике.
Исследование Google и Университета Вирджинии напоминает индустрии важную истину, которую легко забыть в погоне за масштабом: эффективность — это не про «больше», а про «точнее». Модели будущего, вероятно, будут не теми, которые думают дольше всех, а теми, которые умеют думать по существу.