Claude Mythos supostamente encontrou uma vulnerabilidade, mas ela já estava nos dados de treinamento
A Anthropic alardeou: Claude Mythos supostamente descobriu e usou “o primeiro exploit remoto do kernel encontrado por AI”. Parece impressionante. Mas pesquisado

Anthropic fez alarde na imprensa, anunciando que seu último modelo Claude Mythos descobriu e explorou "o primeiro exploit remoto de kernel identificado e implementado por IA". Uma afirmação atraente que se espalhou rapidamente pelas redes de notícias. Mas quando pesquisadores investigaram os detalhes, descobriram uma decepção: o modelo simplesmente relembraria uma vulnerabilidade de seus dados de treinamento. Era um bug de 20 anos atrás que havia muito era conhecido por especialistas.
O que a Anthropic anunciou
No contexto do crescente interesse nas capacidades de modelos de linguagem avançados em cibersegurança, a Anthropic afirmou que durante os testes do Claude Mythos, o modelo identificou independentemente um CVE (Common Vulnerabilities and Exposures)—uma vulnerabilidade de kernel do sistema que teoricamente poderia ser explorada para execução remota de código. De acordo com a empresa, este foi um exemplo impressionante de como a IA de ponta pode encontrar ameaças reais que os humanos podem perder. A história parecia um avanço na automação de cibersegurança e provocou uma onda de discussão sobre quando a IA começaria a encontrar independentemente vulnerabilidades.
O que pesquisadores descobriram após inspeção
Um grupo de pesquisadores que analisou a descrição deste evento descobriu uma verdade desconfortável. O bug suspeito é uma vulnerabilidade bem conhecida que já estava em domínio público e provavelmente foi incluída nos dados de treinamento do Mythos. Em outras palavras, o modelo não fez nenhuma descoberta independente—simplesmente relembraria informações que tinha visto durante o treinamento. É como se vangloriar de que um aluno descobriu independentemente o Teorema de Pitágoras quando simplesmente reproduziu a fórmula de um livro didático.
A história levanta várias questões críticas:
- A fronteira entre memorização e descoberta—como você distingue o que o modelo memorizou do que ele realmente descobriu independentemente?
- Falta de verificação independente—como podemos ter certeza de que afirmações ruidosas sobre conquistas de IA não são exageradas?
- Falta de transparência—por que as empresas não divulgam todos os detalhes da metodologia para verificação independente?
Significado para a indústria
A história ilustra um problema fundamental: quando um modelo viu dados durante o treinamento, sua re-"descoberta" desses dados é simplesmente lembrança, não descoberta genuinamente nova. À medida que a IA se torna uma ferramenta para áreas críticas como segurança, a indústria deve desenvolver padrões mais rigorosos para avaliar os resultados. Afirmações ruidosas sem metodologia transparente e verificação independente apenas prejudicam a confiança na indústria e criam expectativas irrealistas sobre as capacidades dos modelos atuais.