OpenAI et Paradigm ont créé un test pour l’audit par AI des smart contracts
OpenAI, en partenariat avec la société de capital-risque crypto Paradigm, a présenté EVMbench — un benchmark spécialisé destiné à évaluer les capacités des…
Traité par IA depuis OpenAI Blog ; édité par Hamidun News
OpenAI et Paradigm, une entreprise de capital-risque en cryptomonnaies, ont annoncé le lancement d'EVMbench — un benchmark spécialisé conçu pour mesurer la qualité de performance des agents IA dans l'audit de contrats intelligents. L'outil teste trois compétences spécifiques : l'identification des vulnérabilités de haut niveau de sévérité, la création de correctifs pour les corriger et l'exploitation pratique des failles découvertes. Dans un contexte où l'industrie de la blockchain perd des centaines de millions de dollars chaque année en raison des vulnérabilités des contrats intelligents, l'émergence d'un outil d'évaluation de l'IA standardisé n'est pas un exercice académique, mais une nécessité urgente.
Pour comprendre pourquoi EVMbench a émergé à ce moment particulier, il faut examiner l'état du marché de la sécurité dans l'espace blockchain. Les contrats intelligents sont du code auto-exécutable déployé sur la blockchain qui gère des milliards de dollars dans les protocoles de finance décentralisée. Le problème est qu'une fois publié sur le réseau, un contrat est pratiquement impossible à modifier — toute erreur devient permanente et potentiellement désastreuse.
L'audit traditionnel nécessite des spécialistes hautement qualifiés, qui sont cruellement en manque : la demande d'auditeurs de contrats intelligents dépasse largement l'offre depuis longtemps, et les délais de vérification s'étendent sur des semaines. C'est précisément cet écart que les agents IA peuvent théoriquement combler — si, bien sûr, leurs capacités peuvent être mesurées et comparées.
EVMbench cible la machine virtuelle Ethereum — l'EVM, la norme d'exécution des contrats intelligents qui sous-tend non seulement Ethereum, mais des dizaines de blockchains compatibles : BNB Chain, Polygon, Arbitrum et autres. Cela rend le benchmark pertinent pour l'ensemble de l'écosystème, et non seulement pour un seul réseau. Le test est construit autour de scénarios du monde réel : un agent IA reçoit le code du contrat et ne doit pas simplement signaler une "vulnérabilité possible" abstraite, mais localiser précisément une faille critique, proposer un correctif fonctionnel et démontrer l'exploitation — c'est-à-dire montrer comment un attaquant pourrait exploiter le problème en pratique.
Cette approche à trois niveaux distingue fondamentalement EVMbench des tests généralisés d'écriture de code : il évalue non pas les capacités syntaxiques du modèle, mais la compréhension de la logique de sécurité.
Le partenariat entre OpenAI et Paradigm semble logique, mais il est assez non-trivial. Paradigm n'est pas simplement un fonds investissant dans les startups de cryptomonnaies : l'entreprise est connue pour son expertise technique approfondie et mène ses propres recherches en matière de sécurité blockchain. Pour OpenAI, cette collaboration ouvre la possibilité de démontrer la valeur appliquée de ses agents au-delà des scénarios familiers comme l'écriture de textes ou la génération de code. Significativement, le développement du benchmark a été mené conjointement — cela signifie qu'EVMbench reflète l'expertise des spécialistes de la sécurité en exercice, et pas seulement des ingénieurs formés pour créer des tests.
Pour l'industrie de la sécurité de l'IA, l'émergence d'EVMbench signifie une transition de la conversation aux résultats mesurables. Jusqu'à présent, les affirmations concernant l'efficacité des auditeurs IA pour les contrats intelligents étaient difficiles à vérifier : chaque entreprise utilisait ses propres tests, incompatibles les uns avec les autres. Un benchmark standardisé crée un langage commun — maintenant les développeurs peuvent comparer les modèles objectivement, et les clients d'audit auront des orientations lors de la sélection des outils. Cela change la dynamique concurrentielle : le gagnant n'est pas celui qui crie le plus fort sur ses capacités, mais celui dont le modèle démontre réellement les résultats sur des tâches identiques.
Pour les utilisateurs et les projets travaillant avec la blockchain, les conséquences à long terme pourraient s'avérer très tangibles. Si les agents IA apprennent à identifier de manière fiable les vulnérabilités critiques, le coût et les délais des audits de contrats intelligents diminueront considérablement — ce qui signifie que les protocoles plus petits, qui aujourd'hui ne peuvent pas se permettre des examens de sécurité complets, obtiendront accès à la protection. Cela n'élimine pas les audits humains, mais change leur rôle : les spécialistes pourront se concentrer sur les vulnérabilités logiques complexes, en déléguant les recherches de routine des modèles connus aux machines.
EVMbench est une reconnaissance que l'audit de sécurité automatisé devient un domaine sérieux nécessitant des outils d'évaluation sérieux. Que OpenAI et Paradigm aient entrepris le développement ensemble témoigne de la maturité du moment : l'industrie est prête à passer des expériences aux normes. La question suivante est le score que les modèles existants vont afficher et la rapidité avec laquelle les concurrents commenceront à s'optimiser pour le nouveau test. L'histoire avec d'autres benchmarks suggère : une fois qu'un objectif mesurable apparaît, le progrès s'accélère considérablement.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.