Nous Research представила CNA: управление поведением LLM без переобучения
Nous Research представила метод CNA для управления поведением языковых моделей. Он находит и отключает отдельные нейронные цепи, убирая нежелательное поведение

Nous Research представила метод Contrastive Neuron Attribution (CNA) — прорывной подход к управлению поведением больших языковых моделей. Метод позволяет находить и отключать отдельные нейронные цепи в слоях MLP, не требуя переобучения модели и не модифицируя её веса.
Что такое CNA и как он работает
Contrastive Neuron Attribution — это техника для идентификации и абляции (отключения) разреженных цепей нейронов в многоуровневой перцептронной сети (MLP). В каждом слое MLP модели содержатся тысячи нейронов, но только небольшая часть из них отвечает за конкретное поведение, характеристику или способность модели. Метод CNA использует контрастный анализ — сравнивает активации сети на примерах, где целевое поведение ярко выражено, и на примерах, где оно отсутствует. Такой подход позволяет выделить именно те нейроны, которые наиболее чувствительны к появлению или исчезновению интересующего нас поведения. После идентификации эти нейроны можно деактивировать, и модель перестаёт демонстрировать нежелательную характеристику. Простота метода — в его элегантности: нет необходимости в дополнительном обучении, достаточно провести анализ и заблокировать сигнал от найденных нейронов во время инференса.
Главное преимущество: без переобучения и модификации весов
Традиционный способ управления поведением LLM требует либо полного переобучения (файнтюнинга с большим датасетом), либо применения sparse autoencoder (SAE) — дополнительной нейросети, которая учится выделять разреженные компоненты в активациях модели. Оба подхода требуют значительных вычислительных ресурсов, времени и часто приводят к небольшой деградации производительности. CNA принципиально отличается.
Метод не требует переобучения и вообще не изменяет веса модели. Управление поведением происходит исключительно на уровне активаций нейронов — их можно просто деактивировать при выполнении инференса. Это делает процесс гораздо более быстрым, дешёвым и, что важно, полностью обратимым: если решение не сработало, можно просто вернуть нейроны в исходное состояние.
Ключевой результат исследования Nous Research подтверждает, что применение CNA не вызывает деградацию общей производительности модели. После использования метода модель сохраняет: Высокие результаты на стандартных бенчмарках (MMLU, GSM8K, HumanEval) Полный спектр способностей, не связанные с целевым поведением * Исходную скорость и энергоэффективность инференса ## Где это может применяться CNA полезна для удаления или модификации нежелательных характеристик модели: предвзятостей в ответах, токсичного контента, нежелательного стиля генерации, искажённых ассоциаций. Также метод может применяться для усиления нужных способностей — например, для улучшения навыков в специализированной предметной области.
Для организаций это означает возможность адаптировать большие публичные модели (GPT-4, Claude, Llama) под собственные требования и ценности без необходимости полного переобучения. Это экономит ресурсы, ускоряет внедрение и позволяет быстро реагировать на новые требования.
Что это значит CNA открывает новый способ тонко настраивать поведение
LLM после их выпуска в production — дешевле и проще, чем переобучение, но гораздо эффективнее, чем наивные подходы типа prompt engineering. Это может существенно ускорить разработку безопасных и адаптированных к специфичным требованиям AI-систем, особенно в регулируемых отраслях, где поведение модели критично.