OpenAI Blog→ original

OpenAI lanza Safety Bug Bounty para vulnerabilidades en sistemas de AI agéntica

OpenAI lanzó Safety Bug Bounty, un programa de recompensas para investigadores de seguridad que encuentren vulnerabilidades específicas de los sistemas de…

Procesado por IA desde OpenAI Blog; editado por Hamidun News
OpenAI lanza Safety Bug Bounty para vulnerabilidades en sistemas de AI agéntica
Fuente: OpenAI Blog. Collage: Hamidun News.
◐ Escuchar artículo

OpenAI ha anunciado un programa Safety Bug Bounty — una pista especializada dentro de su sistema existente de recompensas por vulnerabilidades, enfocada no en bugs clásicos de software, sino en riesgos únicos de sistemas de IA. Los investigadores de seguridad que descubran y documenten vulnerabilidades en los productos de la empresa podrán recibir recompensas monetarias a través de la plataforma Bugcrowd. La distinción principal de Safety Bug Bounty respecto a los programas estándar de bug bounty radica en el objeto de búsqueda.

Las campañas tradicionales de bug bounty buscan inyecciones SQL, vulnerabilidades de autenticación o problemas de infraestructura de servidor. El nuevo programa se enfoca en tres vectores específicos de modelos de lenguaje: abuso de capacidades de IA (eludir filtros de seguridad, usar el modelo para tareas prohibidas), inyección de prompts y filtraciones de datos del contexto de conversación o instrucciones del sistema. Se presta particular atención al enfoque en vulnerabilidades de agentes.

Durante los últimos dieciocho meses, OpenAI ha desplegado activamente productos de agentes — Operator, Deep Research, Responses API con herramientas para navegación y operaciones de archivos. Un agente que visita independientemente sitios web, ejecuta búsquedas y ejecuta código tiene una superficie de ataque fundamentalmente mayor que un chatbot. Una página web o documento especialmente elaborado puede contener instrucciones ocultas que el modelo percibirá como comandos del usuario — y las ejecutará.

Esta clase de ataques se denomina inyección indirecta de prompt. La esencia: el atacante no se dirige al modelo directamente, sino que incrustra instrucciones maliciosas en contenido que el agente procesa como datos. Por ejemplo, visitar un sitio web comprometido podría hacer que el agente envíe un correo en nombre del usuario, copie datos confidenciales o modifique configuraciones de servicios conectados.

El ataque funciona precisamente porque muchos modelos no distinguen entre instrucciones del sistema de confianza y contenido externo no confiable. El problema de filtración de datos en el contexto de LLM también requiere métodos de prueba específicos. No se trata de brechas en servidores, sino de situaciones en las que el modelo revela involuntariamente el contenido del prompt del sistema, reproduce datos de otros usuarios a través de mecanismos de memoria o permite la reconstrucción de fragmentos del conjunto de datos de entrenamiento mediante consultas dirigidas.

Las herramientas tradicionales de pruebas de penetración no son adecuadas para tales tareas — se requiere expertise especializada. Al crear una pista separada con sus propias reglas de evaluación y pago, OpenAI reconoce de facto que las amenazas específicas de IA requieren una metodología separada. Esto se alinea con la posición de laboratorios líderes: Anthropic realiza regularmente red-teaming antes de lanzar nuevos modelos, Google DeepMind publica investigación sobre seguridad de sistemas de agentes, y los reguladores en EE.

UU. y UE comienzan a exigir prueba de pruebas sistemáticas. El significado práctico del programa radica en la escalabilidad.

Los equipos internos de seguridad son limitados en número y propensos a puntos ciegos. La comunidad externa de investigadores es capaz de descubrir vectores de ataque que los insiders pasaron por alto, especialmente con entradas no estándar. Para usuarios de productos de agentes, esto significa pruebas más sistemáticas de sistemas a los que otorgan acceso a sus navegadores, archivos y cuentas.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…