Anthropic : Claude Mythos Preview Découvre des Milliers de Vulnérabilités Critiques dans le Code
Anthropic a présenté Claude Mythos Preview comme une nouvelle classe d'outil pour découvrir les bugs de code. Selon l'entreprise, le modèle a déjà identifié…
Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Anthropic a démontré comment la cybersécurité change rapidement à l'ère de l'IA générative : son modèle Claude Mythos Preview a pu identifier des milliers de vulnérabilités de niveau élevé et critique, incluant des problèmes dans les systèmes d'exploitation populaires, les navigateurs et les bibliothèques cryptographiques. Mais la conclusion principale n'est pas que l'IA a appris à trouver les bugs mieux. Les mêmes capacités qui aident à identifier les faiblesses du code peuvent également être utilisées pour les exploiter, donc l'automatisation de la sécurité exige désormais non seulement de la vitesse, mais aussi de nouvelles règles de contrôle.
Au début d'avril, l'équipe Frontier Red Team au sein d'Anthropic a rapporté que Mythos Preview avait découvert de nombreux problèmes graves, même si le modèle n'avait pas été spécifiquement entraîné pour rechercher de telles vulnérabilités. Selon la compagnie, parmi les découvertes figurent des défauts dans pratiquement tous les principaux systèmes d'exploitation et navigateurs principaux. Les exemples cités incluent un bug vieux de 27 ans dans OpenBSD qui permet le compromis à distance de la machine, une vulnérabilité dans le navigateur grâce à laquelle un attaquant peut lire des données d'un autre domaine, et des faiblesses dans les bibliothèques cryptographiques qui pourraient permettre le déchiffrement du trafic protégé ou la falsification de certificats.
Sur la base de ces résultats, Anthropic a lancé Project Glasswing. Le projet implique Amazon Web Services, Apple, Google, Microsoft et Nvidia, et la tâche du partenariat est simple : utiliser Mythos Preview pour scanner les logiciels et renforcer sa protection. La logique est claire.
Si les grands modèles de langage sont déjà capables d'analyser d'énormes bases de code, de suivre le flux de données entre les composants et de remarquer des connexions non triviales entre les erreurs, ils deviennent plus qu'un simple outil d'analyse statique—ils deviennent un instrument qui, à certains égards, commence à s'approcher du travail d'un chercheur en sécurité vivant. Ceci est également noté par les professionnels de l'industrie. Ils soulignent que la force de ces modèles n'est pas seulement la vitesse, bien que cela compte en soi, mais la capacité à raisonner sur la sémantique du code.
Les outils traditionnels avec des règles rigides recherchent principalement les correspondances de modèles par rapport à des modèles prédéterminés, tandis que les systèmes LLM modernes peuvent tracer comment les données circulent à travers différents niveaux d'abstraction et remarquer un problème qui ne se pose qu'à la jonction de plusieurs composants. Pour les grands référentiels, c'est particulièrement important : un agent IA peut plus facilement trouver une aiguille rare mais dangereuse dans une énorme meule de foin de code. Cependant, cette approche a un revers.
Les modèles produisent toujours des faux positifs, peuvent mal classer un bug comme vulnérabilité ou exagérer la gravité d'un problème. Pour les responsables de projets open source, cela devient une charge supplémentaire : le nombre de rapports augmente, et le temps pour examiner chaque signal augmente. Un autre risque est que les outils IA ne peuvent pas seulement être attaqués—par exemple, par injection de prompt—mais également être utilisés comme mécanisme offensif.
Le même Mythos Preview, prétend-on, peut lier plusieurs défauts séparés dans une chaîne d'exploitation étape par étape qui finit par accorder un accès de niveau racine au noyau Linux. C'est pourquoi les experts parlent non pas de remplacer complètement les humains, mais d'un schéma de vérification multicouche. Une approche déjà utilisée dans l'industrie est l'adversarial self review : le modèle trouve d'abord un problème, puis tente de remettre en question sa propre conclusion ou transmet la découverte à un autre modèle pour validation indépendante.
Cette couche supplémentaire aide à réduire le bruit, mais n'élimine pas l'examen manuel. Les conclusions de l'IA restent probabilistes, ce qui signifie que la décision finale doit être prise par un spécialiste qui comprend la logique commerciale du produit, l'architecture du système et les scénarios d'exploitation réels. Les entreprises sont également conseillées de développer la modélisation dynamique des menaces, le red teaming, et de décaler la sécurité au début du processus de développement, afin que les développeurs éliminent les points faibles lors de l'écriture du code, plutôt qu'après le lancement.
La question principale maintenant n'est même pas de savoir si l'IA peut trouver les vulnérabilités mieux et plus vite que les humains, mais comment l'intégrer dans un flux de travail sécurisé. La prochaine frontière pour ces systèmes n'est pas seulement la détection mais aussi la remédiation à grande échelle des problèmes découverts. Si cette étape peut être automatisée sans perte de qualité et sans abandon du contrôle humain, le développement de logiciels sécurisés s'accélérera notablement.
Sinon, l'industrie aura un autre outil puissant mais bruyant qui crée autant de travail qu'il en économise.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.