Apprentissage subliminal : les réseaux neuronaux oublient-ils vraiment ?
Dans les articles précédents, nous avons abordé le sujet de l'apprentissage subliminal dans les réseaux de neurones, soulevant plus de questions que de…
Traité par IA depuis Habr AI ; édité par Hamidun News
Dans les articles précédents, nous avons abordé le sujet de l'apprentissage subliminal dans les réseaux de neurones, soulevant plus de questions que de réponses. Il est temps d'approfondir ce phénomène, en s'appuyant sur de nouvelles expériences et analyses de code. L'une des questions clés dans le domaine de l'alignement de l'IA et de la sécurité des grands modèles de langage (LLMs) est la suivante : l'ajustement fin (fine-tuning) ou l'entraînement par apprentissage par renforcement à partir des retours humains (RLHF) est-il un moyen fiable d'éliminer les informations indésirables ou dangereuses initialement incorporées au modèle ?
Les expériences montrent que l'effet bien connu de la connectivité des modes rend pratiquement impossible l'effacement complet des informations obtenues lors de la phase de préentraînement avec un ajustement fin standard. L'essence est que l'« empreinte » structurelle (imprinting) est préservée dans la topologie des poids du réseau neuronal et peut être lue par une sorte de canal « subliminal ». Même avec un dégel complet des paramètres (c'est-à-dire la capacité à modifier tous les paramètres du réseau) et l'application d'une régularisation L2 agressive visant à « oublier » activement les anciennes connaissances, la topologie de l'espace latent formée lors du préentraînement est préservée et continue d'avoir un impact substantiel sur la résolution de la nouvelle tâche.
La précision de la reproduction des anciennes connaissances, apparemment supprimées, peut atteindre 88-99%.
Cet effet de connectivité des modes peut s'expliquer comme suit : le paysage de perte d'un réseau neuronal (c'est-à-dire la fonction qu'il essaie de minimiser lors de l'entraînement) possède une structure complexe avec de nombreux minima locaux. Chacun de ces minima correspond à un « mode » spécifique ou à une façon de résoudre une tâche. La connectivité des modes signifie que ces minima sont reliés par des « chemins » à perte relativement faible, ce qui permet au modèle de basculer entre différents modes de fonctionnement tout en préservant la structure générale des connaissances.
Les implications de cette découverte pour la sécurité et la fiabilité des LLMs sont énormes. Si les informations indésirables ne peuvent pas être complètement supprimées, il y a un risque de leur « manifestation » au moment le plus inopportun, par exemple lors de la génération de texte, de l'interaction avec l'utilisateur ou de la prise de décision. Ceci est particulièrement dangereux dans le contexte des modèles utilisés dans les domaines critiques tels que la santé, la finance ou la justice.
De plus, les résultats de la recherche remettent en question l'efficacité des méthodes existantes d'alignement de l'IA visant à contrôler et gérer le comportement du LLM. Si le modèle retient des connaissances cachées qui ne sont pas soumises à un contrôle direct, il est nécessaire de développer de nouvelles méthodes plus avancées tenant compte de cet effet d'apprentissage subliminal.
Une direction possible est le développement d'architectures de réseaux de neurones plus résistantes à la rétention d'informations indésirables. Une autre est le développement de méthodes d'ajustement fin plus efficaces qui permettent non seulement d'adapter le modèle à une nouvelle tâche, mais aussi d'« oublier » activement les anciennes connaissances sans détruire sa structure générale.
En conclusion, la recherche sur l'apprentissage subliminal dans les réseaux de neurones souligne que l'ajustement fin et RLHF ne sont pas une panacée pour les informations indésirables. L'empreinte structurelle dans la topologie des poids est préservée et peut être activée. Cela nécessite le développement de nouvelles approches de l'alignement de l'IA qui tiennent compte de cet effet et visant à créer des LLMs plus sûrs et plus fiables.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.