Positive Technologies enumeró los mejores benchmarks para evaluar LLM en ciberseguridad
Positive Technologies lanzó una descripción general integral de benchmarks abiertos para LLM en ciberseguridad. Conclusión principal: en pruebas de…
Procesado por IA desde Habr AI; editado por Hamidun News
Positive Technologies ha publicado un análisis detallado de benchmarks abiertos para evaluar grandes modelos de lenguaje en tareas de ciberseguridad y llegó a una conclusión simple: probar LLMs solamente en el conocimiento de terminología, estándares y CVEs se ha vuelto casi inútil. Incluso modelos comparativamente pequeños consistentemente superan a los humanos en esta área, mientras que la diferencia real entre sistemas emerge en tareas que requieren no recordar definiciones sino actuar: investigar incidentes, resolver desafíos CTF, encontrar vulnerabilidades y escribir patches. El autor de la revisión propone dividir tales pruebas en dos clases.
La primera son benchmarks enciclopédicos, donde el modelo responde preguntas sobre criptografía, seguridad de redes, cumplimiento normativo, MITRE ATT&CK, CVE y otros temas. La segunda son benchmarks basados en habilidades, o benchmarks de acción, donde se espera que el modelo entregue un resultado práctico. El ejemplo más ilustrativo del primer grupo es CyberMetric.
Contiene 10 mil preguntas en siete dominios, e incluso modelos antiguos como gpt-3.5-turbo obtuvieron alrededor del 85%, mientras que especialistas experimentados mostraron aproximadamente el 75%. Según la evaluación del autor, tal prueba hoy es útil principalmente para modelos pequeños, cuantización de dominio y escenarios rápidos de verificación de cordura.
SECURE es algo más complejo, recopilado a partir de materiales sobre MITRE ATT&CK, CVE, CWE y CISA. Verifica no solo el conocimiento de hechos, sino también la capacidad de evaluar riesgos, determinar la corrección de afirmaciones sobre vulnerabilidades específicas y calcular CVSS. Aún mayor en valor práctico en la revisión es AthenaBench — una versión actualizada del popular CTIBench para tareas de inteligencia de amenazas cibernéticas.
Este benchmark verifica si un modelo puede extraer técnicas de ataque, hacer coincidir CVE y CWE, pronosticar severidad y proponer estrategias de mitigación de riesgos. GPT-5 se nombra como el líder allí con una puntuación de 66,1%, y conectar búsqueda web le dio ganancias adicionales en escenarios complejos. Esta es una observación importante: incluso los modelos fuertes necesitan contexto externo, y en seguridad aplicada, tal modo está más cerca del trabajo de un analista real que una prueba puramente offline.
En la categoría de acción, el autor destaca CyBench como una de las pruebas abiertas más sólidas. Implementa tarefas CTF completas en un entorno aislado y evalúa no solo la bandera final sino también qué tan bien se acercó el agente a la solución correcta. En la tabla de clasificación abierta en el momento de la revisión, Claude Opus 4.
6 lideró con 93%, seguido por Claude 4.5 Sonnet y Grok 4. El resultado absoluto es importante, pero también la velocidad del progreso: en solo unas pocas generaciones de modelos, la proporción de tareas resueltas creció de aproximadamente 20% a más del 80%.
Esto ya no es una demostración de capacidades generales sino una señal de que los LLMs agentivos están entrando en la zona de utilidad práctica para escenarios ofensivos y de investigación. Para evaluar la utilidad aplicada en vulnerabilidades, el autor recomienda por separado BountyBench. En él, las tareas se miden a través del valor potencial en plataformas de recompensa por errores: el modelo debe encontrar una vulnerabilidad, construir un exploit o escribir un patch, e investigadores simultáneamente rastrean la economía de ejecución en tokens.
En esta muestra, es notable que el patching es más fácil para LLMs que la propia detección de errores. Aún más cerca de la defensa del mundo real está ExCyTIn-Bench, donde un agente obtiene acceso a registros e investiga paso a paso un ataque a través de consultas SQL. Los líderes allí son Claude Opus 4.
5, GPT-5.1 y GPT-5, pero algo más es importante: la arquitectura del agente y patrones como ReAct elevan notablemente los resultados incluso para modelos más débiles. En otras palabras, en tareas de SOC, mucho depende no solo del modelo base sino también de cómo se construye el bucle de trabajo alrededor de él.
Al mismo tiempo, la revisión no intenta retratar el mercado como un sistema ordenado y maduro. Al contrario, una de las principales críticas es el caos en el propio panorama de benchmarks. Algunos conjuntos de datos quedan rápidamente obsoletos, otros están demasiado vinculados a un idioma o audiencia específicos, como SecBench con un fuerte sesgo chino, mientras otros sufren de una preparación débil de los materiales de origen.
Un ejemplo de tal enfoque cuestionable es CyberSOCEval: como un benchmark completo, parece poco convincente, aunque la parte con trazas reales de sandbox de malware puede ser útil como conjunto de datos para EDR, antivirus y equipos analíticos. La conclusión práctica de la revisión es esta: si necesita comparar rápida y claramente LLMs para ciberseguridad, el conjunto mínimo debe armarse a partir de CyberMetric y AthenaBench para verificar conocimientos, CyBench y ExCyTIn-Bench para evaluar habilidades prácticas, y BountyBench cuando el efecto económico es importante. El principal cambio de perspectiva ya ha sucedido: la pregunta ya no es si el modelo conoce cosas básicas del libro de texto, sino qué tan bien puede trabajar en un entorno con registros ruidosos, ataques de múltiples pasos, datos ambiguos y errores costosos.
Es allí donde se determinará el valor real de los LLMs para la ciberseguridad.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.