Habr AI→ original

Positive Technologies a énuméré les meilleurs benchmarks pour évaluer les LLM en cybersécurité

Positive Technologies a publié un aperçu complet des benchmarks ouverts pour les LLM en cybersécurité. Conclusion principale : aux tests de connaissance…

Traité par IA depuis Habr AI ; édité par Hamidun News
Positive Technologies a énuméré les meilleurs benchmarks pour évaluer les LLM en cybersécurité
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Positive Technologies a publié une analyse détaillée des benchmarks ouverts pour évaluer les grands modèles de langage dans les tâches de cybersécurité et est parvenue à une conclusion simple : tester les LLM uniquement sur la connaissance de la terminologie, des normes et des CVE est devenu presque inutile. Même les modèles relativement petits surpassent constamment les humains dans ce domaine, tandis que la véritable différence entre les systèmes émerge dans les tâches qui exigent non pas de se souvenir de définitions mais d'agir : enquêter sur les incidents, résoudre des défis CTF, trouver des vulnérabilités et écrire des correctifs. L'auteur de l'examen propose de diviser ces tests en deux classes.

La première est celle des benchmarks encyclopédiques, où le modèle répond à des questions sur la cryptographie, la sécurité des réseaux, la conformité, MITRE ATT&CK, CVE et d'autres sujets. La seconde est celle des benchmarks basés sur les compétences, ou benchmarks d'action, où le modèle est censé livrer un résultat pratique. L'exemple le plus illustratif du premier groupe est CyberMetric.

Il contient 10 mille questions sur sept domaines, et même des modèles plus anciens comme gpt-3.5-turbo ont obtenu environ 85%, tandis que des spécialistes expérimentés ont montré environ 75%. Selon l'évaluation de l'auteur, un tel test est maintenant utile principalement pour les petits modèles, la quantification de domaine et les scénarios rapides de vérification.

SECURE est un peu plus complexe, assemblé à partir de matériels sur MITRE ATT&CK, CVE, CWE et CISA. Il vérifie non seulement la connaissance des faits, mais aussi la capacité à évaluer le risque, déterminer l'exactitude des affirmations concernant des vulnérabilités spécifiques et calculer CVSS. Encore plus élevée en valeur pratique dans l'examen est AthenaBench — une version mise à jour du populaire CTIBench pour les tâches de renseignement sur les menaces cybernétiques.

Ce benchmark vérifie si un modèle peut extraire les techniques d'attaque, faire correspondre CVE et CWE, prédire la gravité et proposer des stratégies d'atténuation des risques. GPT-5 est nommé comme le leader avec un score de 66,1%, et la connexion de la recherche web lui a donné des gains supplémentaires dans les scénarios complexes. C'est une observation importante : même les modèles forts ont besoin d'un contexte externe, et en sécurité appliquée, un tel mode est plus proche du travail d'un véritable analyste qu'un test purement hors ligne.

Dans la catégorie des actions, l'auteur met en évidence CyBench comme l'un des tests ouverts les plus solides. Il déploie des tâches CTF complètes dans un environnement isolé et évalue non seulement le drapeau final, mais aussi la proximité de l'agent par rapport à la bonne solution. Sur le classement public au moment de l'examen, Claude Opus 4.

6 était en tête avec 93%, suivi de Claude 4.5 Sonnet et Grok 4. Le résultat absolu est important, mais aussi la vitesse de la progression : en seulement quelques générations de modèles, la proportion de tâches résolues est passée d'environ 20% à plus de 80%.

Ce n'est plus une démonstration de capacités générales mais un signal que les LLM agentifs entrent dans la zone de l'utilité pratique pour les scénarios offensifs et de recherche. Pour évaluer l'utilité appliquée dans les vulnérabilités, l'auteur recommande séparément BountyBench. Dans celui-ci, les tâches sont mesurées par la valeur potentielle sur les plateformes de prime aux bogues : le modèle doit trouver une vulnérabilité, construire un exploit ou écrire un correctif, et les chercheurs enregistrent simultanément l'économie de l'exécution en tokens.

Sur cet échantillon, il est notable que la correction est plus facile pour les LLM que la détection de bogues elle-même. Encore plus proche de la défense du monde réel est ExCyTIn-Bench, où un agent accède aux journaux et enquête pas à pas sur une attaque via des requêtes SQL. Les leaders sont Claude Opus 4.

5, GPT-5.1 et GPT-5, mais quelque chose d'autre est plus important : l'architecture de l'agent et les motifs comme ReAct augmentent considérablement les résultats même pour les modèles plus faibles. En d'autres termes, dans les tâches de SOC, beaucoup dépend non seulement du modèle de base, mais aussi de la façon dont la boucle de travail est construite autour de lui.

En même temps, l'examen ne tente pas de dépeindre le marché comme un système ordonné et mature. Au contraire, l'une des principales critiques est le chaos du paysage des benchmarks lui-même. Certains ensembles de données deviennent rapidement obsolètes, d'autres sont trop liés à une langue ou à un public spécifique, comme SecBench avec un fort biais chinois, tandis que d'autres souffrent d'une faible préparation des matériels sources.

Un exemple d'une telle approche discutable est CyberSOCEval : en tant que benchmark complet, il semble peu convaincant, bien que la partie avec les traces réelles de bac à sable de logiciels malveillants puisse être utile comme ensemble de données pour les équipes EDR, antivirus et analytiques. La conclusion pratique de l'examen est la suivante : si vous avez besoin de comparer rapidement et clairement les LLM pour la cybersécurité, l'ensemble minimum doit être assemblé à partir de CyberMetric et AthenaBench pour vérifier les connaissances, CyBench et ExCyTIn-Bench pour évaluer les compétences pratiques, et BountyBench quand l'effet économique est important. Le principal changement de perspective s'est déjà produit : la question n'est plus de savoir si le modèle connaît les choses de base du manuel, mais à quel point il peut bien fonctionner dans un environnement avec des journaux bruyants, des attaques multi-étapes, des données ambiguës et des erreurs coûteuses.

C'est là que la véritable valeur des LLM pour la cybersécurité sera déterminée.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…