Инференс

Цепочка рассуждений (CoT)

Цепочка рассуждений (Chain-of-Thought, CoT) — метод работы с языковыми моделями, при котором модель перед финальным ответом явно генерирует последовательность промежуточных шагов рассуждения, что значительно повышает точность на сложных логических и математических задачах.

Цепочка рассуждений (Chain-of-Thought, CoT) — техника, при которой языковая модель явно записывает логические шаги, ведущие к ответу, вместо того чтобы выдавать его напрямую. Метод был систематически описан в работе Wei et al. из Google Brain в 2022 году и быстро стал одним из базовых инструментов работы с большими языковыми моделями. Ключевое открытие состоит в том, что модели, достаточно крупные для возникновения этой способности, при явной генерации промежуточных шагов решают задачи существенно лучше.

CoT активируется двумя способами: через примеры с готовыми цепочками рассуждений в промпте (few-shot CoT) или простой инструкцией «думай пошагово» (zero-shot CoT). В обоих случаях модель разбивает задачу на подзадачи, формулирует промежуточные выводы и на их основе приходит к финальному ответу. Расширение метода — self-consistency (Wang et al., 2022) — предполагает генерацию нескольких независимых цепочек с последующим выбором наиболее частого ответа, что дополнительно повышает надёжность.

На бенчмарках GSM8K, MATH и BIG-Bench Hard применение CoT повышает точность моделей GPT-4 класса с 20–40% до 70–90% в зависимости от задачи. Метод особенно эффективен там, где у задачи есть структурированная логическая цепочка: арифметика, символическая логика, многошаговые умозаключения. На задачах без чёткой структуры вывода (например, стилистических суждениях) эффект значительно слабее.

К 2025–2026 годам CoT встроен в архитектуру целого класса «мыслящих» моделей. OpenAI o1/o3, Anthropic Claude 3.7 Sonnet (extended thinking), DeepSeek R1, Qwen QwQ используют CoT как основной механизм вывода. Токены рассуждений при этом нередко скрыты от пользователя, но генерируются внутренне и могут потреблять десятки тысяч токенов на один ответ, что делает эти модели дороже в инференсе, но значительно точнее на сложных задачах.

Пример

Когда пользователь задаёт GPT-4o вопрос о подсчёте букв в слове с инструкцией «думай пошагово», модель перечисляет буквы по одной и подсчитывает совпадения — классическое применение zero-shot CoT, позволяющее избежать ошибки при прямом ответе.

Связанные термины

Рассуждающая модель Вычисления на этапе инференса (test-time compute)Паттерн ReAct

← Глоссарий