Anthropic actualizó su Responsible Scaling Policy — un sistema flexible de protección para modelos de IA en crecimiento
Anthropic publicó una actualización significativa de su política de gestión de riesgos de IA (Responsible Scaling Policy). En lugar de un enfoque universal, la
Procesado por IA desde Anthropic Blog; editado por Hamidun News
Anthropic publicó una actualización de su Responsible Scaling Policy — la política de gestión de riesgos en el desarrollo de sistemas de IA poderosos. Esta actualización significativa introduce un enfoque más flexible y matizado, manteniendo el principio fundamental: la empresa no entrenará ni desplegará modelos hasta asegurarse de que los riesgos estén en niveles aceptables.
Por qué se actualizó la política
Hace un año, Anthropic lanzó la primera versión de RSP, desarrollada para gestionar los riesgos de los sistemas de IA en crecimiento. Sin embargo, un año de implementación práctica mostró la necesidad de un enfoque más flexible. La empresa no solo monitorea las capacidades técnicas de los modelos, sino también sus riesgos potenciales e impacto.
Anthropic monitorea varias categorías de amenazas simultáneamente. Estos incluyen problemas clásicos como la propagación de desinformación, incitación a la violencia y fraude — todos cubiertos por la Política de Uso de la empresa. Pero RSP se enfoca en escenarios catastróficos más ambiciosos que podrían surgir cuando los modelos alcanzan cierto nivel de autonomía y capacidad para manipulaciones complejas.
La política actualizada incorpora experiencia práctica y enfoques empleados en otras industrias de alto riesgo — aviación, energía nuclear y farmacéutica. Esto permite una mejor preparación para el ritmo acelerado del desarrollo de IA y la construcción de sistemas de protección que se escalen junto con la tecnología.
Cómo funcionan los niveles ASL
El fundamento del nuevo sistema es el principio de protección proporcional: las medidas de seguridad deben crecer junto con los riesgos. Anthropic introdujo los Estándares de Nivel de Seguridad de IA (ASL Standards) — conjuntos escalonados de requisitos técnicos y procedimentales, inspirados en los Niveles de Bioseguridad internacionales utilizados en laboratorios para trabajar con materiales peligrosos. El sistema comienza con ASL-1 para modelos con capacidades básicas (por ejemplo, bots especializados para ajedrez o búsqueda rápida de información) y asciende a ASL-2, ASL-3 y más a medida que aumentan las capacidades y riesgos potenciales. Cada nivel superior implica requisitos más estrictos:
- Monitoreo y registro mejorados de todas las operaciones realizadas por el modelo
- Pruebas de seguridad previas más estrictas antes del despliegue
- Capas adicionales de control de acceso, aislamiento y segmentación
- Auditorías independientes obligatorias y verificaciones de expertos externos en seguridad
- Reevaluaciones más frecuentes de riesgos potenciales a medida que surgen nuevos datos
Actualmente, todos los modelos de Anthropic funcionan bajo el estándar ASL-2, que la empresa considera refleja las mejores prácticas de la industria en la actualidad.
Umbrales de capacidad — cuándo se requiere preparación operativa
En lugar de criterios vagos y subjetivos, Anthropic definió umbrales específicos, o Capability Thresholds — habilidades específicas del modelo que, al alcanzarse, requieren medidas de seguridad más potentes y un nuevo nivel ASL. Hasta ahora se han definido dos umbrales clave. El primero es Autonomous AI R&D: si el modelo puede realizar de forma independiente tareas de investigación complejas en el campo de la IA que normalmente requieren experiencia e intuición humana, esto potencialmente podría acelerar significativamente el desarrollo de IA en una dirección impredecible.
El segundo umbral se menciona en el documento original, pero su descripción completa aún no se ha revelado. La empresa se reserva la posibilidad de expandir esta lista a medida que comprenda mejor el impacto real de las nuevas capacidades en la práctica.
Qué significa esto
AnthropIc demuestra que la seguridad de la IA no debe ser ni un bloqueo irracional ni una completa falta de control. En su lugar, la empresa está construyendo un sistema escalable que crece junto con la tecnología y se adapta a los riesgos reales. Este enfoque es importante para otros desarrolladores también. Si las ideas de Anthropic ganan amplio reconocimiento en la comunidad, podrían convertirse en el estándar de facto de la industria. Esto es especialmente relevante para los reguladores que actualmente buscan marcos prácticos para supervisar sistemas de IA.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.