Anthropic a présenté Claude Mythos 5 et Fable 5 avec protection contre les cyberattaques
Anthropic a publié deux versions de Claude : Mythos 5 pour les partenaires de confiance et Fable 5 pour le grand public. Fable 5 est dotée d'une protection…
Traité par IA depuis Wired ; édité par Hamidun News
Anthropic a présenté deux nouvelles versions de Claude : Mythos 5 pour les organisations de confiance et Fable 5 pour le grand public. La deuxième version a été développée spécifiquement avec des mécanismes qui rendent son utilisation dans les cyberattaques plus difficile.
Division par objectif
AnthropIc suit une stratégie de division de ses modèles d'IA en fonction du public cible et des risques potentiels. Claude Mythos 5 est destinée aux partenaires de confiance, y compris les entreprises de cybersécurité, les organisations de recherche et les clients d'entreprise qui ont besoin des capacités complètes d'un modèle de langage sans restrictions.
Claude Fable 5 est mise à disposition du grand public en libre accès. L'entreprise a intégré dans cette version des restrictions spéciales visant à empêcher l'utilisation du modèle dans les cyberattaques et autres fins nuisibles. C'est une stratégie qui permet à Anthropic d'offrir un outil d'IA puissant tout en minimisant sa responsabilité directe en cas d'utilisation malveillante potentielle.
La protection est intégrée dans l'architecture
La différence clé de Fable 5 est que le mécanisme de protection n'est pas basé simplement sur des instructions ou des interdictions au niveau de l'API (qui sont faciles à contourner), mais sur des modifications dans l'architecture et le processus d'entraînement du modèle lui-même. Anthropic considère que cette approche est plus robuste et durable que les systèmes de contrôle au niveau de l'application.
- Restrictions intégrées dans le processus d'entraînement du modèle
- Modifications architecturales empêchant certaines classes de tâches
- Disponibilité publique sans barrières de licence, mais avec restrictions
Contrairement à un simple filtre qui intercepte les requêtes malveillantes en temps réel, les restrictions intégrées modifient le comportement du modèle à un niveau fondamental. Cela signifie que même en cas de tentatives de contournement, le système sera moins utile pour les cyberattaques.
Pression croissante sur l'industrie
La décision d'Anthropic reflète la pression croissante des régulateurs, des politiciens et du public, qui exigent que les entreprises d'IA assument la responsabilité des dommages potentiels. Sur fond de débats sur la possibilité d'utiliser les grands modèles de langage dans les cyberattaques, la sortie d'une version « sécurisée » semble être un coup stratégique.
D'autres entreprises, y compris OpenAI et Google, subissent également des pressions et développent leurs propres approches de contrôle. Cependant, il n'y a toujours pas de norme unique dans l'industrie. L'approche d'Anthropic avec une division à deux niveaux semble pragmatique : donner aux partenaires de confiance un accès complet, tout en offrant au public une version limitée mais sécurisée.
Ce que cela signifie
Anthropic démontre que la sécurité de l'IA commence à être considérée comme une gamme de produits distincte, plutôt que comme un module supplémentaire. Cela pourrait devenir une tendance dans l'industrie : au lieu d'un seul modèle pour tous, les entreprises proposeront plusieurs versions avec différents niveaux de restrictions. Cependant, des questions subsistent sur l'efficacité pratique des restrictions intégrées et sur la question de savoir si les utilisateurs accepteront des restrictions en échange de la promesse de sécurité.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.