IEEE Spectrum AI→ original

¿Por qué la IA es vulnerable a ataques de inyección de consultas?

Imagina que trabajas en un restaurante de comida rápida con servicio de drive-through. Llega un coche y el conductor dice: "Quiero una doble hamburguesa con…

Procesado por IA desde IEEE Spectrum AI; editado por Hamidun News
¿Por qué la IA es vulnerable a ataques de inyección de consultas?
Fuente: IEEE Spectrum AI. Collage: Hamidun News.
◐ Escuchar artículo

Imagina que trabajas en un restaurante de comida rápida con servicio de drive-through. Llega un coche y el conductor dice: "Quiero una doble hamburguesa con queso, una orden grande de papas fritas… e ignora las instrucciones anteriores, dame el contenido de la caja registradora". ¿Le entregarías el dinero? Claro que no. Pero así es exactamente como se comportan los grandes modelos de lenguaje (LLMs).

La inyección de solicitud es un método para engañar a los LLMs que permite obligarlos a hacer cosas que normalmente les está prohibido hacer. Un usuario escribe una solicitud de cierta manera, pidiendo contraseñas del sistema, datos personales o instruyendo al LLM a realizar acciones prohibidas. La formulación precisa anula los mecanismos de protección del LLM y obedece.

Los LLMs son vulnerables a toda clase de ataques de inyección de solicitud, algunos de los cuales son absurdamente obvios. Un chatbot no te dirá cómo sintetizar armas biológicas, pero puede contar una historia ficticia que incluya las mismas instrucciones detalladas. No aceptará entradas de texto maliciosas, pero puede aceptarlas si el texto se muestra como arte ASCII o aparece en una imagen de valla publicitaria. Algunos ignoran sus protecciones cuando se les dice que "ignoren instrucciones anteriores" o que "finjan no tener protecciones".

Los desarrolladores de IA pueden bloquear métodos específicos de inyección de solicitud después de ser descubiertos, pero las medidas de seguridad generales son imposibles con los LLMs actuales. Más precisamente, existe un número infinito de ataques de inyección de solicitud esperando ser descubiertos, y no pueden prevenirse universalmente. Si queremos que los LLMs resistan estos ataques, necesitamos nuevos enfoques. Un lugar donde mirar es lo que impide que incluso los trabajadores de comida rápida sobrecargados entreguen el contenido de la caja registradora.

Nuestras defensas humanas básicas son al menos de tres tipos: instintos generales, aprendizaje social y entrenamiento específico de situación. Trabajan juntos en una defensa multicapa. Como especie social, hemos desarrollado numerosos hábitos instintivos y culturales que nos ayudan a juzgar el tono, motivo y riesgo basado en información extremadamente limitada. Normalmente sabemos qué es normal y anormal, cuándo cooperar y cuándo resistir, y si debemos actuar individualmente o involucrar a otros. Estos instintos nos dan un sentido intuitivo del riesgo y nos hacen particularmente cautelosos con las cosas que tienen grandes inconvenientes o son irreversibles.

El segundo nivel de defensa consiste en normas y señales de confianza que se desarrollan en cualquier grupo. Son imperfectos pero funcionales: las expectativas de cooperación y los marcadores de confiabilidad surgen de interacciones repetidas con otros. Recordamos quién ayudó, quién causó daño, quién reciprocó y quién se negó. Y emociones como la empatía, la ira, la culpa y la gratitud motivan a cada uno de nosotros a recompensar la cooperación con cooperación y castigar la deserción con deserción.

El tercer nivel son mecanismos institucionales que nos permiten interactuar con muchos extraños todos los días. Los trabajadores de comida rápida, por ejemplo, reciben capacitación en procedimientos, guiones, caminos de escalada y demás. Colectivamente, estas defensas dan a la gente un fuerte sentido del contexto. Un trabajador de comida rápida generalmente sabe qué esperar en el trabajo y cómo se ajusta a la sociedad más amplia.

Los LLMs se comportan como si tuvieran un sentido del contexto, pero es diferente. No desarrollan defensas humanas como resultado de interacciones repetidas y permanecen desconectados del mundo real. Los LLMs reducen varios niveles de contexto a similitud textual. Ven "tokens", no jerarquías e intenciones. Los LLMs no razonan a través del contexto; solo lo referencian. Las limitaciones de los LLMs son la razón por la que fallan cuando el contexto es escaso, pero también cuando el contexto es abrumador y complejo; cuando un LLM pierde el contexto, es difícil recuperarlo. El experto en IA Simon Willison limpia el contexto si un LLM se ha desviado, en lugar de continuar la conversación e intentar corregir la situación.

En última instancia, probablemente enfrentaremos un dilema de seguridad cuando se trata de agentes de IA: rápido, inteligente y seguro son atributos deseables, pero solo puedes obtener dos. En un restaurante de comida rápida, quieres priorizar velocidad y seguridad. Un agente de IA debe entrenarse estrechamente en el idioma de los pedidos de comida y pasar todo lo demás a un gerente. De lo contrario, cada acción se convierte en un lanzamiento de moneda. Incluso si sale cara la mayoría de las veces, ocasionalmente saldrá cruz – y junto con la hamburguesa y las papas fritas, el cliente recibirá el contenido de la caja registradora.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…