Nous Research apresenta CNA: controlando o comportamento de LLM sem retreinamento
Nous Research apresentou o método CNA para controlar o comportamento de modelos de linguagem. Ele identifica e desativa circuitos neurais individuais, eliminand

◐ Ouvir artigo
Nous Research apresentou o método CNA para controlar o comportamento de modelos de linguagem. Ele identifica e desativa circuitos neurais individuais, eliminando comportamentos indesejados sem retreinamento ou modificação de pesos. O modelo mantém desempenho completo em todos os testes.