Wired→ original

Anthropic presentó Claude Mythos 5 y Fable 5 con protección contra ciberataques

Anthropic lanzó dos versiones de Claude: Mythos 5 para socios de confianza y Fable 5 para el público en general. Fable 5 viene con protección integrada…

Procesado por IA desde Wired; editado por Hamidun News
Anthropic presentó Claude Mythos 5 y Fable 5 con protección contra ciberataques
Fuente: Wired. Collage: Hamidun News.
◐ Escuchar artículo

Anthropic presentó dos nuevas versiones de Claude: Mythos 5 para organizaciones de confianza y Fable 5 para el público en general. La segunda versión fue desarrollada especialmente con mecanismos que dificultan su uso en ciberataques.

División por propósito

Anthropric está siguiendo el camino de dividir sus modelos de IA según la audiencia objetivo y los riesgos potenciales. Claude Mythos 5 está destinado a socios de confianza, incluidas empresas de ciberseguridad, organizaciones de investigación y clientes corporativos que necesitan todas las capacidades del modelo de lenguaje sin restricciones. Claude Fable 5 se lanza al acceso público para el público en general. La compañía integró en esta versión limitaciones especiales diseñadas para prevenir el uso del modelo en ciberataques y otros fines maliciosos. Esta es una estrategia que permite a Anthropic ofrecer una herramienta de IA poderosa, pero minimiza la responsabilidad directa por su uso potencial indebido.

La protección está integrada en la arquitectura

La diferencia clave de Fable 5 es que el mecanismo de protección no se basa simplemente en instrucciones o prohibiciones a nivel de API (que son fáciles de eludir), sino en cambios en la arquitectura y el proceso de entrenamiento del modelo mismo. Anthropic cree que este enfoque es más robusto y duradero que los sistemas de control a nivel de aplicación.

  • Limitaciones integradas en el proceso de entrenamiento del modelo
  • Cambios arquitectónicos que impiden ciertas clases de tareas
  • Disponibilidad pública sin barreras de licencia, pero con limitaciones

A diferencia de un simple filtro que captura solicitudes maliciosas en tiempo real, las limitaciones integradas alteran el comportamiento del modelo a nivel fundamental. Esto significa que incluso ante intentos de evasión, el sistema será menos útil para ciberataques.

Presión creciente en la industria

La decisión de Anthropic refleja la presión creciente de reguladores, políticos y el público que exigen que las empresas de IA asuman responsabilidad por el daño potencial. En medio de los debates sobre la posibilidad de usar grandes modelos de lenguaje en ciberataques, el lanzamiento de una versión «segura» parece un movimiento estratégico. Otras empresas, incluyendo OpenAI y Google, también experimentan presión y están desarrollando sus propios enfoques de control. Sin embargo, todavía no hay un estándar único en la industria. El enfoque de Anthropic con división de dos niveles parece pragmático: dar acceso completo a socios de confianza y ofrecer al público una versión limitada pero segura.

Qué significa esto

Anthropic demuestra que la seguridad de la IA está comenzando a considerarse como una línea de productos separada, no como un módulo adicional. Esto podría convertirse en una tendencia en la industria: en lugar de un modelo para todos, las empresas ofrecerán varias versiones con diferentes niveles de restricciones. Sin embargo, quedan preguntas sobre la efectividad práctica de las limitaciones integradas y si los usuarios aceptarán limitaciones a cambio de la promesa de seguridad.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…