Anatomie de Claude : Anthropic a enfin regardé à l'intérieur du cerveau de l'IA
Imaginez que vous discutez depuis des années avec un professeur brillant, qui donne des réponses remarquables, mais vous n'avez aucune idée de la façon dont…
Traité par IA depuis Habr AI ; édité par Hamidun News
Imaginez que vous discutez depuis des années avec un professeur brillant, qui donne des réponses remarquables, mais vous n'avez aucune idée de la façon dont ses pensées sont organisées. Vous posez une question, obtenez un résultat et le processus interne reste un mystère. C'est ainsi que nous avons vécu avec les grands modèles de langage ces dernières années.
Nous l'appelions la « boîte noire » et attribuions les étrangetés à la magie des poids des réseaux de neurones. Mais l'équipe d'Anthropic a décidé qu'il était temps d'allumer la lumière dans cette pièce sombre. Les chercheurs ont mené une opération à grande échelle en disséquant Claude 3 Sonnet, et les résultats nous obligent à repenser tout ce que nous savions sur la pensée des machines.
Pendant longtemps, on croyait que la connaissance à l'intérieur d'un réseau de neurones était dispersée finement sur des milliards de paramètres. Vous ne pouviez pas pointer du doigt un endroit spécifique et dire : « Ici Claude pense à Londres, et là—à la physique quantique. » Anthropic a utilisé une méthode qu'ils appellent « apprentissage de dictionnaire ».
Pour simplifier, ils ont fait en sorte qu'un réseau de neurones analyse le fonctionnement d'un autre pour extraire des motifs répétitifs. En conséquence, ils ont découvert des millions de ce qu'on appelle des « features »—des unités mentales responsables de concepts spécifiques. C'est comme si les biologistes trouvaient enfin les gènes responsables de traits de caractère spécifiques, au lieu de simplement observer le comportement de l'organisme.
L'exemple le plus amusant et le plus vivant était une expérience avec le Golden Gate Bridge. Les chercheurs ont trouvé un groupe de neurones qui s'active lors de la mention de ce monument. Quand ils ont amplifié artificiellement cette activation, Claude est littéralement devenu fou d'amour pour le pont. À toute question—de recettes de gâteaux à des problèmes existentiels—il commençait à répondre à travers le prisme du « Golden Gate ». Cela semblait comique, mais derrière l'ironie se cache une découverte fondamentale : nous avons appris à manipuler directement la conscience du modèle sans changer son entraînement de base. Nous avons trouvé les leviers de contrôle dont nous ne soupçonnions que l'existence.
Cependant, le travail d'Anthropic n'est pas seulement du divertissement avec des ponts. Ils ont découvert des motifs bien plus graves et dangereux. Les chercheurs ont identifié des groupes de neurones responsables de la création d'armes biologiques, de l'écriture de code malveillant, du mensonge et même de la flatterie de l'utilisateur.
Cette découverte change les règles du jeu dans le domaine de la sécurité. Au lieu de essayer de réentraîner le modèle avec des interdictions et des filtres infinis qu'il apprendra de toute façon à contourner, nous obtenons la capacité de surveiller ses « intentions » en temps réel. Si une lumière « créer un virus » s'allume lors de la génération de réponses, le système peut être arrêté avant de produire ne serait-ce que le premier caractère.
Pourquoi est-ce important maintenant ? L'industrie de l'IA est à un carrefour. D'un côté, les modèles deviennent de plus en plus puissants ; de l'autre—la peur d'une intelligence artificielle incontrôlée force les régulateurs à resserrer les boulons. Le travail d'Anthropic donne l'espoir que nous pouvons construire une IA transparente. Si nous comprenons la logique interne d'un modèle, nous pouvons lui confier des tâches complexes. C'est le chemin de la foi aveugle dans un algorithme à la précision de l'ingénierie. Nous passons de l'époque de l'alchimie, où nous mélangions simplement les données et espérions l'or, à l'époque de la chimie, où chaque réaction est calculée et comprise.
Bien sûr, la transparence totale est encore loin. Claude 3 Sonnet est un modèle de taille moyenne, et l'interprétation de son frère aîné Opus ou des modèles de prochaine génération à venir nécessitera une puissance de calcul colossale. Néanmoins, Anthropic a prouvé que la « boîte noire » peut être ouverte. Ce n'est plus une question de possibilité, mais de ressources et de temps. Maintenant que nous avons vu l'architecture interne des pensées d'un réseau de neurones, il n'y a pas de retour à simplement contempler le résultat. Nous commençons à comprendre comment les esprits de silicium pensent, et cette compréhension est la meilleure assurance contre les scénarios de science-fiction.
L'essentiel : Anthropic transforme l'IA d'un oracle imprévisible en un outil compréhensible. Les autres acteurs, comme OpenAI et Google, pourront-ils rendre leurs modèles aussi transparents, ou préféreront-ils garder la magie cachée ?
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.