Seguridad

Seguridad de IA

La seguridad de IA es el campo interdisciplinario dirigido a garantizar que los sistemas de inteligencia artificial operen de manera confiable, predecible y sin causar daño no intencional, abarcando investigación técnica, política y gobernanza.

La seguridad de IA es el amplio campo dedicado a identificar, medir y mitigar riesgos derivados de sistemas de IA. Abarca tanto problemas a corto plazo — como robustez del modelo, sesgo y mal uso para fraude o desinformación — como preocupaciones a más largo plazo sobre sistemas de IA altamente capaces que actúan de maneras dañinas para la humanidad a escala. El campo se basa en aprendizaje automático, ciencia cognitiva, filosofía y política pública, y es distinto pero estrechamente relacionado con la alineación de IA.

La investigación técnica de seguridad de IA incluye interpretabilidad (entender qué cálculos realizan los modelos internamente y por qué), robustez (garantizar que los modelos se comporten correctamente bajo cambio de distribución e entradas adversariales), alineación (garantizar que los sistemas persigan objetivos pretendidos) y evaluaciones de capacidad — protocolos estructurados de red-teaming que saquen a la luz capacidades peligrosas como asistencia de ciberataques u orientación de síntesis de armas biológicas antes del despliegue. En el lado de la gobernanza, el trabajo de seguridad incluye fichas de modelo, auditorías de terceros, políticas de despliegue y marcos de coordinación internacional.

La seguridad de IA ganó impulso institucional después del lanzamiento de modelos de lenguaje grandes como GPT-3 (2020) y ChatGPT (2022), que demostraron que la IA capaz podría ser mal utilizada para fraude, desinformación y generación de contenido dañino a escala. Los gobiernos en EE.UU., UE y Reino Unido comenzaron a exigir evaluaciones de seguridad para sistemas de IA de frontera entre 2023 y 2025, citando tanto riesgos de mal uso a corto plazo como escenarios de riesgo catastrófico a más largo plazo.

Para 2026, equipos dedicados de seguridad de IA operan en todos los laboratorios de IA principales. El Instituto de Seguridad de IA del Reino Unido y el Instituto de Seguridad de IA de EE.UU. (AISI) conducen evaluaciones de terceros de modelos de frontera antes y después del despliegue. Los consorcios de investigación abierta publican suites de evaluación compartidas, y las evaluaciones de seguridad formal son requeridas antes de desplegar IA de alta capacidad en sectores de infraestructura crítica incluyendo atención médica, energía y finanzas en múltiples jurisdicciones.

Ejemplo

Antes de lanzar una actualización importante del modelo, un laboratorio lo ejecuta a través de una suite de evaluación estructurada probando capacidades peligrosas — como la capacidad de proporcionar un impulso significativo para la síntesis de armas químicas — y publica un informe de seguridad resumiendo hallazgos y mitigaciones tomadas.

Términos relacionados

Últimas noticias sobre el tema

← Glosario