Nous Research presenta CNA: controlando el comportamiento de LLM sin reentrenamiento
Nous Research presentó el método CNA para controlar el comportamiento de modelos de lenguaje. Identifica y desactiva circuitos neuronales individuales, eliminan

◐ Escuchar artículo
Nous Research presentó el método CNA para controlar el comportamiento de modelos de lenguaje. Identifica y desactiva circuitos neuronales individuales, eliminando comportamiento indeseable sin reentrenamiento ni modificación de pesos. El modelo mantiene desempeño completo en todos los tests.