Habr AI→ original

Claude Mythos supuestamente encontró una vulnerabilidad, pero ya estaba en los datos de entrenamiento

Anthropic presumió: Claude Mythos supuestamente descubrió y utilizó “el primer exploit remoto del kernel encontrado por AI”. Suena impresionante. Pero los inves

Claude Mythos supuestamente encontró una vulnerabilidad, pero ya estaba en los datos de entrenamiento
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Anthropic causó revuelo en la prensa, anunciando que su último modelo Claude Mythos descubrió y explotó "el primer exploit remoto del kernel identificado e implementado por IA". Una afirmación atractiva que se propagó rápidamente a través de los feeds de noticias. Pero cuando los investigadores profundizaron en los detalles, descubrieron una decepción: el modelo simplemente recordó una vulnerabilidad de sus datos de entrenamiento. Era un bug de 20 años atrás que había sido conocido durante mucho tiempo por especialistas.

Lo que anunció Anthropic

En el contexto del creciente interés en las capacidades de modelos de lenguaje avanzados en ciberseguridad, Anthropic afirmó que durante las pruebas de Claude Mythos, el modelo identificó de forma independiente un CVE (Common Vulnerabilities and Exposures)—una vulnerabilidad del kernel del sistema que teóricamente podría explotarse para la ejecución remota de código. Según la empresa, este fue un ejemplo impresionante de cómo la IA de vanguardia puede encontrar amenazas reales que los humanos podrían pasar por alto. La historia parecía un avance en la automatización de la ciberseguridad y generó una ola de discusiones sobre cuándo comenzaría la IA a encontrar independientemente vulnerabilidades.

Lo que los investigadores descubrieron al inspeccionar

Un grupo de investigadores que analizó la descripción de este evento descubrió una verdad incómoda. El supuesto bug es una vulnerabilidad bien conocida que ya estaba en el dominio público y probablemente fue incluida en los datos de entrenamiento de Mythos. En otras palabras, el modelo no hizo ningún descubrimiento independiente—simplemente recordó información que había visto durante el entrenamiento. Es como jactarse de que un estudiante descubrió de forma independiente el Teorema de Pitágoras cuando simplemente reprodujo la fórmula de un libro de texto.

La historia plantea varias preguntas críticas:

  • El límite entre la memorización y el descubrimiento—¿cómo distinguir lo que el modelo memorizó de lo que realmente descubrió de forma independiente?
  • Falta de verificación independiente—¿cómo podemos estar seguros de que las afirmaciones ruidosas sobre logros de IA no están exageradas?
  • Falta de transparencia—¿por qué las empresas no divulgan los detalles completos de la metodología para verificación independiente?

Significado para la industria

La historia ilustra un problema fundamental: cuando un modelo ha visto datos durante el entrenamiento, su re-"descubrimiento" de esos datos es simplemente recuerdo, no un descubrimiento genuinamente nuevo. Conforme la IA se convierte en una herramienta para áreas críticas como la seguridad, la industria debe desarrollar estándares más rigurosos para evaluar los resultados. Afirmaciones ruidosas sin metodología transparente y verificación independiente solo socavan la confianza en la industria y crean expectativas poco realistas sobre las capacidades de los modelos actuales.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…