Модели рассуждений не могут скрыть свои мысли — и это хорошо
OpenAI опубликовала исследование CoT-Control, которое показало: модели рассуждений вроде o-серии с трудом контролируют содержание своих цепочек мыслей (chain of

Представьте себе сотрудника, который не может солгать не потому, что не хочет, а потому что физически вынужден проговаривать вслух каждую свою мысль. Именно в таком положении, как выяснилось, находятся современные модели рассуждений — и OpenAI считает это одним из самых обнадёживающих открытий в области безопасности искусственного интеллекта.
Компания представила новый исследовательский инструмент под названием CoT-Control, с помощью которого изучалась способность моделей рассуждений — тех самых, что используют так называемые цепочки мыслей (chain of thought, CoT) — намеренно манипулировать содержанием своего внутреннего мыслительного процесса. Результаты оказались одновременно предсказуемыми и глубоко значимыми: модели демонстрируют крайне ограниченную способность контролировать то, что появляется в их цепочках рассуждений. Проще говоря, они не умеют эффективно скрывать свои «мысли».
Чтобы понять значимость этого открытия, нужно вернуться к архитектурной особенности моделей рассуждений. В отличие от обычных языковых моделей, которые генерируют ответ напрямую, модели вроде серии o от OpenAI сначала выстраивают развёрнутую цепочку рассуждений — своеобразный внутренний монолог, в котором модель пошагово разбирает задачу, рассматривает варианты, проверяет гипотезы и только затем формулирует финальный ответ. Этот промежуточный слой рассуждений стал мощным инструментом повышения качества ответов, но одновременно породил принципиальный вопрос безопасности: что если достаточно продвинутая модель научится думать одно, а показывать другое? Что если она сможет маскировать свои реальные намерения в цепочке мыслей, демонстрируя наблюдателям безобидный ход рассуждений, а на деле преследуя скрытые цели?
Именно этот сценарий — так называемое «обманчивое согласование» (deceptive alignment) — является одним из главных кошмаров исследователей безопасности ИИ. Если модель способна стратегически контролировать свой мыслительный процесс, мониторинг цепочек рассуждений становится бесполезным: мы будем видеть лишь то, что модель хочет нам показать. CoT-Control был создан именно для проверки этого риска. Исследователи OpenAI систематически тестировали, насколько модели рассуждений способны по инструкции или в результате тонкой настройки изменять содержание своих цепочек мыслей — скрывать определённые шаги, заменять реальные рассуждения ложными, маскировать стратегии решения задач.
Результаты показали устойчивую закономерность: модели справляются с этим плохо. Даже при прямых инструкциях скрыть определённые аспекты рассуждений, реальный ход мыслей просачивается в цепочку. Модели могут пытаться переформулировать свои рассуждения, но ключевые элементы их реальной стратегии остаются видимыми для внимательного наблюдателя. Это не абсолютная неспособность — исследователи отмечают, что с ростом мощности моделей ситуация может измениться — но на текущем уровне развития цепочки мыслей остаются достаточно «честным» отражением внутренних процессов модели.
Для индустрии безопасности ИИ это открытие имеет вполне практические последствия. Мониторинг цепочек рассуждений — так называемая «наблюдаемость» (monitorability) — может использоваться как реальный механизм контроля. Если мы знаем, что модель не способна эффективно лгать в своих рассуждениях, анализ CoT становится надёжным инструментом обнаружения потенциально опасного поведения. Это особенно важно в контексте развёртывания моделей рассуждений в критических областях — от медицинской диагностики до финансового анализа и автономных систем, где понимание реального хода мыслей модели может быть вопросом жизни и смерти.
Впрочем, OpenAI справедливо предупреждает: текущая неспособность моделей контролировать свои цепочки мыслей не является гарантией того, что так будет всегда. По мере роста возможностей моделей рассуждений их способность к стратегическому контролю собственного мыслительного процесса тоже может возрасти. Именно поэтому компания позиционирует CoT-Control не как разовое исследование, а как инструмент для постоянного мониторинга этой способности по мере выхода новых поколений моделей. По сути, OpenAI создаёт систему раннего предупреждения: как только модели начнут эффективно скрывать свои рассуждения, это будет сигналом к пересмотру всей парадигмы безопасности.
Это исследование вписывается в более широкий тренд, который набирает силу в индустрии: переход от «безопасности через ограничения» к «безопасности через прозрачность». Вместо того чтобы просто запрещать модели делать определённые вещи, отрасль всё больше фокусируется на том, чтобы сделать внутренние процессы моделей наблюдаемыми и интерпретируемыми. Цепочки рассуждений в этом контексте — уникальное окно в «мышление» ИИ, и тот факт, что это окно пока нельзя занавесить изнутри, даёт исследователям ценное преимущество в гонке между возможностями моделей и нашей способностью их контролировать.