Nous Research présente CNA : contrôler le comportement des LLM sans réapprentissage
Nous Research a présenté la méthode CNA pour contrôler le comportement des modèles de langage. Elle identifie et désactive les circuits neuronaux individuels, é

◐ Écouter l'article
Nous Research a présenté la méthode CNA pour contrôler le comportement des modèles de langage. Elle identifie et désactive les circuits neuronaux individuels, éliminant les comportements indésirables sans réapprentissage ni modification des poids. Le modèle maintient une performance complète sur tous les tests.