Habr AI→ original

Positive Technologies listou os melhores benchmarks para avaliar LLM em cibersegurança

Positive Technologies lançou uma visão geral abrangente de benchmarks abertos para LLM em cibersegurança. Conclusão principal: em testes de conhecimento, até…

Processado por IA de Habr AI; editado por Hamidun News
Positive Technologies listou os melhores benchmarks para avaliar LLM em cibersegurança
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A Positive Technologies divulgou uma análise detalhada de benchmarks abertos para avaliar grandes modelos de linguagem em tarefas de cibersegurança e chegou a uma conclusão simples: testar LLMs apenas no conhecimento de terminologia, padrões e CVEs se tornou quase inútil. Até mesmo modelos comparativamente pequenos consistentemente superam humanos nessa área, enquanto a diferença real entre sistemas emerge em tarefas que exigem não lembrar definições, mas agir: investigar incidentes, resolver desafios CTF, encontrar vulnerabilidades e escrever patches. O autor da revisão propõe dividir tais testes em duas classes.

A primeira é benchmarks enciclopédicos, onde o modelo responde perguntas sobre criptografia, segurança de redes, conformidade, MITRE ATT&CK, CVE e outros tópicos. A segunda é baseada em habilidades, ou benchmarks de ação, onde espera-se que o modelo entregue um resultado prático. O exemplo mais ilustrativo do primeiro grupo é CyberMetric.

Contém 10 mil perguntas em sete domínios, e até mesmo modelos mais antigos como gpt-3.5-turbo pontuaram cerca de 85%, enquanto especialistas experientes mostraram aproximadamente 75%. De acordo com a avaliação do autor, tal teste agora é útil principalmente para modelos pequenos, quantização de domínio e cenários rápidos de verificação sanitária.

SECURE é um pouco mais complexo, montado com materiais sobre MITRE ATT&CK, CVE, CWE e CISA. Ele verifica não apenas conhecimento de fatos, mas também a capacidade de avaliar risco, determinar a correção de afirmações sobre vulnerabilidades específicas e calcular CVSS. Ainda maior em valor prático na revisão é AthenaBench — uma versão atualizada do popular CTIBench para tarefas de inteligência de ameaças cibernéticas.

Este benchmark verifica se um modelo pode extrair técnicas de ataque, fazer correspondência de CVE e CWE, prever severidade e propor estratégias de mitigação de risco. GPT-5 é nomeado o líder lá com uma pontuação de 66,1%, e conectar busca na web lhe deu ganhos adicionais em cenários complexos. Esta é uma observação importante: até mesmo modelos fortes precisam de contexto externo, e em segurança aplicada, tal modo é mais próximo do trabalho de um analista real do que um teste puramente offline.

Na categoria de ação, o autor destaca CyBench como um dos testes abertos mais fortes. Ele implanta tarefas CTF completas em um ambiente isolado e avalia não apenas o sinalizador final, mas também como o agente se aproximou da solução correta. No placar aberto no momento da revisão, Claude Opus 4.

6 liderou com 93%, seguido por Claude 4.5 Sonnet e Grok 4. O resultado absoluto é importante, mas também a velocidade do progresso: em apenas algumas gerações de modelos, a proporção de tarefas resolvidas cresceu de aproximadamente 20% para mais de 80%.

Isto não é mais uma demonstração de capacidades gerais, mas um sinal de que LLMs agentivos estão entrando na zona de utilidade prática para cenários ofensivos e de pesquisa. Para avaliar a utilidade aplicada em vulnerabilidades, o autor recomenda separadamente BountyBench. Nele, tarefas são medidas através do valor potencial em plataformas de bug bounty: o modelo deve encontrar uma vulnerabilidade, construir um exploit ou escrever um patch, e pesquisadores simultaneamente rastreiam a economia da execução em tokens.

Nesta amostra, é notável que patching é mais fácil para LLMs do que a própria detecção de vulnerabilidades. Ainda mais próximo da defesa do mundo real é ExCyTIn-Bench, onde um agente ganha acesso a logs e investiga passo a passo um ataque através de consultas SQL. Os líderes lá são Claude Opus 4.

5, GPT-5.1 e GPT-5, mas algo mais é importante: arquitetura do agente e padrões como ReAct aumentam significativamente os resultados até para modelos mais fracos. Em outras palavras, em tarefas de SOC, muito depende não apenas do modelo base, mas também de como o loop de trabalho é construído em torno dele.

Ao mesmo tempo, a revisão não tenta retratar o mercado como um sistema arrumado e maduro. Pelo contrário, uma das principais críticas é o caos no próprio cenário de benchmarks. Alguns conjuntos de dados rapidamente se tornam desatualizados, outros estão muito vinculados a um idioma ou público específico, como SecBench com um forte viés chinês, enquanto outros sofrem com preparação fraca dos materiais de origem.

Um exemplo de tal abordagem questionável é CyberSOCEval: como um benchmark completo, parece pouco convincente, embora a parte com traços reais de sandbox de malware possa ser útil como um conjunto de dados para EDR, antivírus e equipes analíticas. A conclusão prática da revisão é esta: se você precisa comparar rapidamente e claramente LLMs para cibersegurança, o conjunto mínimo deve ser montado a partir de CyberMetric e AthenaBench para verificar conhecimento, CyBench e ExCyTIn-Bench para avaliar habilidades práticas, e BountyBench quando o efeito econômico é importante. A principal mudança de perspectiva já aconteceu: a questão não é mais se o modelo conhece coisas básicas do livro didático, mas como ele pode trabalhar bem em um ambiente com logs ruidosos, ataques em múltiplas etapas, dados ambíguos e erros custosos.

É aí que o verdadeiro valor dos LLMs para cibersegurança será determinado.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…