Claude contre l'apocalypse : Anthropic enseigne à un réseau de neurones à être plus sage que ses créateurs
Tandis que les leaders du marché se mesurent au nombre de paramètres et à la vitesse de génération de texte, dans les bureaux d'Anthropic, on s'occupe de…
Traité par IA depuis Wired ; édité par Hamidun News
Tandis que les leaders du marché se mesurent au nombre de paramètres et à la vitesse de génération de texte, dans les bureaux d'Anthropic, on s'occupe de choses bien plus éphémères. La société, fondée autrefois par des transfuges d'OpenAI précisément en raison de désaccords sur les questions de sécurité, a décidé de tenter le tout pour le tout. Son nouveau pari n'est pas simplement des « clôtures » autour du réseau de neurones, mais une tentative d'enseigner à Claude une forme de sagesse.
Cela ressemble à l'ouverture d'un roman de science-fiction, mais en réalité c'est un calcul pragmatique : si l'IA devient plus intelligente que nous, elle doit elle-même comprendre pourquoi elle ne devrait pas transformer la planète en un entrepôt de trombones.
Pour comprendre pourquoi cela importe maintenant, il faut se souvenir de comment fonctionnait la sécurité de l'IA jusqu'à ce moment. Généralement, cela ressemblait à une liste infinie d'interdictions : ne parle pas de ceci, n'écris pas sur cela, n'aide pas avec les recettes dangereuses. Le problème, c'est que les pirates et les utilisateurs curieux trouvent des « trous » dans ces règles plus vite que les ingénieurs ne peuvent les colmater.
Anthropic, pendant ce temps, promeut l'idée d'une « IA constitutionnelle », où le modèle dispose d'un ensemble de principes fondamentaux. Cette approche évolue maintenant vers une compréhension profonde du contexte. Les développeurs veulent que Claude comprenne les conséquences de ses actions de la même manière qu'une personne adulte et mûre.
Ce changement de stratégie ne s'est pas fait dans le vide. Après que GPT-4 et d'autres modèles aient montré qu'ils pouvaient contourner les restrictions logicielles par le biais de scénarios de jeu de rôle complexes, il est devenu clair que les anciennes méthodes ne fonctionnent pas. Anthropic essaie de créer un système qui aura un noyau éthique interne. C'est crucial à la veille de l'émergence d'agents véritablement puissants, capables d'accomplir indépendamment des actions sur Internet, de gérer de l'argent et de contrôler l'infrastructure. Sans « sagesse », un tel agent devient une machine extrêmement efficace, mais complètement dépourvue de cervelle pour la destruction.
Les critiques, bien sûr, ironisent sur la question. C'est facile de théoriser sur la sagesse algorithmique quand votre entreprise est évaluée à des milliards de dollars et que vous avez besoin de vous démarquer face à des géants comme Google. Mais si on laisse de côté le scepticisme, Anthropic pose une question fondamentale : pouvons-nous même contrôler l'intelligence qui dépasse la nôtre par des règles externes ? La réponse de l'entreprise est non—le contrôle doit être interne. Cela fait de Claude une sorte de « philosophe » parmi les réseaux de neurones, un qui dépense des cycles de calcul précieux à réfléchir sur le bien et le mal.
Qu'est-ce que cela signifie pour l'industrie ? D'abord, Anthropic établit une nouvelle norme pour la marque « sûre ». Tandis que d'autres s'excusent pour les hallucinations et les réponses toxiques, l'équipe de Dario Amodei construit l'image du joueur le plus responsable. Deuxièmement, cela crée une pression sur les concurrents. Si Claude s'avère réellement plus stable et prévisible dans les scénarios complexes, le secteur corporatif trouvera plus facile de le choisir plutôt que des alternatives plus puissantes mais « sauvages ». La sécurité se transforme d'une section ennuyeuse de la documentation en un avantage concurrentiel clé.
En fin de compte, nous assistons à une grande expérience. Un ensemble de fonctions mathématiques peut-il en venir à comprendre le concept de responsabilité ? Ou la « sagesse » de Claude restera-t-elle simplement une simulation de très haute qualité qui s'effondre à la première situation véritablement non standard ? Chez Anthropic, on croit que l'humanité n'a simplement pas d'autre voie. Soit nous enseignons à l'IA à nous comprendre, soit nous devenons pour elle simplement une collection de données du passé.
Point clé : Anthropic essaie de transformer Claude en premier agent « éthique » qui comprend non seulement la lettre mais l'esprit des règles. La compétition pour l'« IA la plus sage » peut-elle remplacer la course à l'« IA la plus puissante » ?
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.