Рассуждающая модель
Рассуждающая модель — языковая модель, оптимизированная для многоэтапного логического вывода: перед финальным ответом она генерирует внутреннюю цепочку рассуждений, что повышает точность на математических, научных и программных задачах.
Рассуждающая модель — языковая модель, обученная «думать вслух» перед финальным ответом. В отличие от стандартных LLM, отвечающих непосредственно, reasoning-модели генерируют внутренний скратч-пад, в котором декомпозируют задачу, проверяют промежуточные шаги и исправляют обнаруженные ошибки. Внутренние рассуждения могут быть скрыты от пользователя или раскрыты частично в зависимости от реализации.
Техническую основу составляет обучение с подкреплением (RL): модель получает вознаграждение за правильный финальный ответ, а не за конкретную стратегию рассуждения. Это позволяет ей самостоятельно вырабатывать эффективные алгоритмы верификации. OpenAI представила o1 в сентябре 2024 года — первую широкодоступную reasoning-модель, набравшую около 78% на научном бенчмарке GPQA (уровень PhD) и 83-й процентиль на математической олимпиаде AIME 2024. DeepSeek-R1 (январь 2025) воспроизвёл сопоставимые результаты с открытыми весами, запустив волну аналогичных разработок по всей отрасли.
Reasoning-модели решают задачи, на которых стандартные LLM систематически ошибаются: многошаговые математические доказательства, формальная верификация кода, юридические рассуждения с множеством условий, стратегическое планирование. Ключевой компромисс — скорость: если GPT-4o отвечает за секунды, o3 на сложных задачах затрачивает минуты и сотни токенов рассуждений, что напрямую влияет на стоимость вызова.
К 2026 году reasoning-модели образовали отдельный продуктовый класс: OpenAI o3 и o4-mini, Google Gemini 2.0 Flash Thinking, Anthropic Claude 3.7 (расширенное мышление), Qwen QwQ. Появился механизм управляемого «бюджета мышления» — ограничения на число токенов рассуждения, позволяющего балансировать качество и стоимость в зависимости от сложности конкретного запроса.