Positive Technologies listou os melhores benchmarks para avaliar LLM em cibersegurança
Positive Technologies lançou uma visão geral abrangente de benchmarks abertos para LLM em cibersegurança. Conclusão principal: em testes de conhecimento, até…
Processado por IA de Habr AI; editado por Hamidun News
A Positive Technologies divulgou uma análise detalhada de benchmarks abertos para avaliar grandes modelos de linguagem em tarefas de cibersegurança e chegou a uma conclusão simples: testar LLMs apenas no conhecimento de terminologia, padrões e CVEs se tornou quase inútil. Até mesmo modelos comparativamente pequenos consistentemente superam humanos nessa área, enquanto a diferença real entre sistemas emerge em tarefas que exigem não lembrar definições, mas agir: investigar incidentes, resolver desafios CTF, encontrar vulnerabilidades e escrever patches. O autor da revisão propõe dividir tais testes em duas classes.
A primeira é benchmarks enciclopédicos, onde o modelo responde perguntas sobre criptografia, segurança de redes, conformidade, MITRE ATT&CK, CVE e outros tópicos. A segunda é baseada em habilidades, ou benchmarks de ação, onde espera-se que o modelo entregue um resultado prático. O exemplo mais ilustrativo do primeiro grupo é CyberMetric.
Contém 10 mil perguntas em sete domínios, e até mesmo modelos mais antigos como gpt-3.5-turbo pontuaram cerca de 85%, enquanto especialistas experientes mostraram aproximadamente 75%. De acordo com a avaliação do autor, tal teste agora é útil principalmente para modelos pequenos, quantização de domínio e cenários rápidos de verificação sanitária.
SECURE é um pouco mais complexo, montado com materiais sobre MITRE ATT&CK, CVE, CWE e CISA. Ele verifica não apenas conhecimento de fatos, mas também a capacidade de avaliar risco, determinar a correção de afirmações sobre vulnerabilidades específicas e calcular CVSS. Ainda maior em valor prático na revisão é AthenaBench — uma versão atualizada do popular CTIBench para tarefas de inteligência de ameaças cibernéticas.
Este benchmark verifica se um modelo pode extrair técnicas de ataque, fazer correspondência de CVE e CWE, prever severidade e propor estratégias de mitigação de risco. GPT-5 é nomeado o líder lá com uma pontuação de 66,1%, e conectar busca na web lhe deu ganhos adicionais em cenários complexos. Esta é uma observação importante: até mesmo modelos fortes precisam de contexto externo, e em segurança aplicada, tal modo é mais próximo do trabalho de um analista real do que um teste puramente offline.
Na categoria de ação, o autor destaca CyBench como um dos testes abertos mais fortes. Ele implanta tarefas CTF completas em um ambiente isolado e avalia não apenas o sinalizador final, mas também como o agente se aproximou da solução correta. No placar aberto no momento da revisão, Claude Opus 4.
6 liderou com 93%, seguido por Claude 4.5 Sonnet e Grok 4. O resultado absoluto é importante, mas também a velocidade do progresso: em apenas algumas gerações de modelos, a proporção de tarefas resolvidas cresceu de aproximadamente 20% para mais de 80%.
Isto não é mais uma demonstração de capacidades gerais, mas um sinal de que LLMs agentivos estão entrando na zona de utilidade prática para cenários ofensivos e de pesquisa. Para avaliar a utilidade aplicada em vulnerabilidades, o autor recomenda separadamente BountyBench. Nele, tarefas são medidas através do valor potencial em plataformas de bug bounty: o modelo deve encontrar uma vulnerabilidade, construir um exploit ou escrever um patch, e pesquisadores simultaneamente rastreiam a economia da execução em tokens.
Nesta amostra, é notável que patching é mais fácil para LLMs do que a própria detecção de vulnerabilidades. Ainda mais próximo da defesa do mundo real é ExCyTIn-Bench, onde um agente ganha acesso a logs e investiga passo a passo um ataque através de consultas SQL. Os líderes lá são Claude Opus 4.
5, GPT-5.1 e GPT-5, mas algo mais é importante: arquitetura do agente e padrões como ReAct aumentam significativamente os resultados até para modelos mais fracos. Em outras palavras, em tarefas de SOC, muito depende não apenas do modelo base, mas também de como o loop de trabalho é construído em torno dele.
Ao mesmo tempo, a revisão não tenta retratar o mercado como um sistema arrumado e maduro. Pelo contrário, uma das principais críticas é o caos no próprio cenário de benchmarks. Alguns conjuntos de dados rapidamente se tornam desatualizados, outros estão muito vinculados a um idioma ou público específico, como SecBench com um forte viés chinês, enquanto outros sofrem com preparação fraca dos materiais de origem.
Um exemplo de tal abordagem questionável é CyberSOCEval: como um benchmark completo, parece pouco convincente, embora a parte com traços reais de sandbox de malware possa ser útil como um conjunto de dados para EDR, antivírus e equipes analíticas. A conclusão prática da revisão é esta: se você precisa comparar rapidamente e claramente LLMs para cibersegurança, o conjunto mínimo deve ser montado a partir de CyberMetric e AthenaBench para verificar conhecimento, CyBench e ExCyTIn-Bench para avaliar habilidades práticas, e BountyBench quando o efeito econômico é importante. A principal mudança de perspectiva já aconteceu: a questão não é mais se o modelo conhece coisas básicas do livro didático, mas como ele pode trabalhar bem em um ambiente com logs ruidosos, ataques em múltiplas etapas, dados ambíguos e erros custosos.
É aí que o verdadeiro valor dos LLMs para cibersegurança será determinado.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.