MarkTechPost→ original

Nous Research apresenta CNA: controle do comportamento de LLMs sem retreinamento

A Nous Research apresentou o método CNA para controlar o comportamento de modelos de linguagem. Ele encontra e desativa circuitos neurais individuais…

Processado por IA de MarkTechPost; editado por Hamidun News
Nous Research apresenta CNA: controle do comportamento de LLMs sem retreinamento
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A Nous Research apresentou o método Contrastive Neuron Attribution (CNA) — uma abordagem inovadora para controlar o comportamento de grandes modelos de linguagem. O método permite encontrar e desativar circuitos neurais individuais em camadas de MLP, sem exigir retreinamento do modelo ou modificação de seus pesos.

O que é CNA e como funciona

Contrastive Neuron Attribution é uma técnica para identificar e ablação (desativação) de circuitos neurais esparsos em uma rede perceptron multicamadas (MLP). Cada camada MLP do modelo contém milhares de neurônios, mas apenas uma pequena parte deles é responsável por um comportamento, característica ou capacidade específica do modelo.

O método CNA usa análise contrastiva — compara as ativações da rede em exemplos onde o comportamento-alvo é pronunciado e em exemplos onde ele está ausente. Essa abordagem permite identificar exatamente os neurônios mais sensíveis ao aparecimento ou desaparecimento do comportamento de interesse.

Após a identificação, esses neurônios podem ser desativados e o modelo deixa de demonstrar a característica indesejada. A elegância do método está em sua simplicidade: não há necessidade de treinamento adicional, basta realizar a análise e bloquear o sinal dos neurônios encontrados durante a inferência.

A principal vantagem: sem retreinamento e modificação de pesos

A forma tradicional de controlar o comportamento de LLMs requer retreinamento completo (fine-tuning com um grande conjunto de dados) ou o uso de autoencoder esparso (SAE) — uma rede neural adicional que aprende a extrair componentes esparsos nas ativações do modelo. Ambas as abordagens exigem recursos computacionais significativos, tempo e frequentemente levam a uma pequena degradação de desempenho.

CNA é fundamentalmente diferente. O método não requer retreinamento e não altera os pesos do modelo. O controle de comportamento ocorre exclusivamente no nível das ativações dos neurônios — eles podem ser simplesmente desativados durante a inferência. Isso torna o processo muito mais rápido, barato e, o que é importante, completamente reversível: se a solução não funcionar, você pode simplesmente retornar os neurônios ao seu estado original.

O resultado-chave da pesquisa da Nous Research confirma que a aplicação de CNA não causa degradação do desempenho geral do modelo. Após o uso do método, o modelo mantém:

  • Resultados altos em benchmarks padrão (MMLU, GSM8K, HumanEval)
  • Espectro completo de capacidades não relacionadas ao comportamento-alvo
  • Velocidade original e eficiência energética da inferência

Onde isso pode ser aplicado

CNA é útil para remover ou modificar características indesejadas do modelo: vieses nas respostas, conteúdo tóxico, estilo de geração indesejado, associações distorcidas. O método também pode ser aplicado para aprimorar capacidades desejadas — por exemplo, para melhorar habilidades em um domínio de especialização específico.

Para as organizações, isso significa a capacidade de adaptar grandes modelos públicos (GPT-4, Claude, Llama) aos seus próprios requisitos e valores sem necessidade de retreinamento completo. Isso economiza recursos, acelera a implantação e permite responder rapidamente a novos requisitos.

O que isso significa

CNA abre uma nova maneira de ajustar finamente o comportamento de LLMs após seu lançamento em produção — mais barato e simples do que retreinamento, mas muito mais eficaz do que abordagens ingênuas como prompt engineering. Isso pode acelerar significativamente o desenvolvimento de sistemas de IA seguros e adaptados aos requisitos específicos, especialmente em indústrias reguladas, onde o comportamento do modelo é crítico.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…