Nous Research apresenta CNA: controle do comportamento de LLMs sem retreinamento
A Nous Research apresentou o método CNA para controlar o comportamento de modelos de linguagem. Ele encontra e desativa circuitos neurais individuais…
Processado por IA de MarkTechPost; editado por Hamidun News
A Nous Research apresentou o método Contrastive Neuron Attribution (CNA) — uma abordagem inovadora para controlar o comportamento de grandes modelos de linguagem. O método permite encontrar e desativar circuitos neurais individuais em camadas de MLP, sem exigir retreinamento do modelo ou modificação de seus pesos.
O que é CNA e como funciona
Contrastive Neuron Attribution é uma técnica para identificar e ablação (desativação) de circuitos neurais esparsos em uma rede perceptron multicamadas (MLP). Cada camada MLP do modelo contém milhares de neurônios, mas apenas uma pequena parte deles é responsável por um comportamento, característica ou capacidade específica do modelo.
O método CNA usa análise contrastiva — compara as ativações da rede em exemplos onde o comportamento-alvo é pronunciado e em exemplos onde ele está ausente. Essa abordagem permite identificar exatamente os neurônios mais sensíveis ao aparecimento ou desaparecimento do comportamento de interesse.
Após a identificação, esses neurônios podem ser desativados e o modelo deixa de demonstrar a característica indesejada. A elegância do método está em sua simplicidade: não há necessidade de treinamento adicional, basta realizar a análise e bloquear o sinal dos neurônios encontrados durante a inferência.
A principal vantagem: sem retreinamento e modificação de pesos
A forma tradicional de controlar o comportamento de LLMs requer retreinamento completo (fine-tuning com um grande conjunto de dados) ou o uso de autoencoder esparso (SAE) — uma rede neural adicional que aprende a extrair componentes esparsos nas ativações do modelo. Ambas as abordagens exigem recursos computacionais significativos, tempo e frequentemente levam a uma pequena degradação de desempenho.
CNA é fundamentalmente diferente. O método não requer retreinamento e não altera os pesos do modelo. O controle de comportamento ocorre exclusivamente no nível das ativações dos neurônios — eles podem ser simplesmente desativados durante a inferência. Isso torna o processo muito mais rápido, barato e, o que é importante, completamente reversível: se a solução não funcionar, você pode simplesmente retornar os neurônios ao seu estado original.
O resultado-chave da pesquisa da Nous Research confirma que a aplicação de CNA não causa degradação do desempenho geral do modelo. Após o uso do método, o modelo mantém:
- Resultados altos em benchmarks padrão (MMLU, GSM8K, HumanEval)
- Espectro completo de capacidades não relacionadas ao comportamento-alvo
- Velocidade original e eficiência energética da inferência
Onde isso pode ser aplicado
CNA é útil para remover ou modificar características indesejadas do modelo: vieses nas respostas, conteúdo tóxico, estilo de geração indesejado, associações distorcidas. O método também pode ser aplicado para aprimorar capacidades desejadas — por exemplo, para melhorar habilidades em um domínio de especialização específico.
Para as organizações, isso significa a capacidade de adaptar grandes modelos públicos (GPT-4, Claude, Llama) aos seus próprios requisitos e valores sem necessidade de retreinamento completo. Isso economiza recursos, acelera a implantação e permite responder rapidamente a novos requisitos.
O que isso significa
CNA abre uma nova maneira de ajustar finamente o comportamento de LLMs após seu lançamento em produção — mais barato e simples do que retreinamento, mas muito mais eficaz do que abordagens ingênuas como prompt engineering. Isso pode acelerar significativamente o desenvolvimento de sistemas de IA seguros e adaptados aos requisitos específicos, especialmente em indústrias reguladas, onde o comportamento do modelo é crítico.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.