Habr AI→ original

Un Único Sufijo Rompe Cualquier LLM: Investigadores Encontraron Un Vector de Rechazo Universal

Los investigadores descubrieron que diferentes métodos para eludir las defensas de LLMs — GCG (añade sufijos basura) y AutoDAN (añade texto coherente)…

Procesado por IA desde Habr AI; editado por Hamidun News
Un Único Sufijo Rompe Cualquier LLM: Investigadores Encontraron Un Vector de Rechazo Universal
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Los investigadores demuestran: a pesar de la aparente diversidad de ataques adversariales contra modelos de lenguaje, todos ellos explotan una única debilidad estructural — un vector unificado de "dirección de rechazo" en el espacio de activaciones. Un único sufijo bien elegido es capaz de desbloquear cualquier modelo, incluso si el ataque nunca lo ha visto antes.

Dos ataques, un punto de vulnerabilidad

Los métodos más conocidos para eludir las defensas de LLM — GCG (Greedy Coordinate Gradient) y AutoDAN — funcionan según principios fundamentalmente diferentes. GCG añade un sufijo de tokens aleatoriamente optimizados a una solicitud dañina: externamente parece gibberish, pero la cadena se ajusta mediante descenso de gradiente para que el modelo cambie hacia la ejecución de la solicitud. AutoDAN funciona de manera diferente — genera texto legible y gramaticalmente correcto como complemento mediante búsqueda evolutiva o un modelo de lenguaje auxiliar. Ruido frente a significado, caos de tokens frente a prosa coherente. Sin embargo, bajo el capó, ambos métodos realizan la misma acción en el mismo lugar.

  • GCG optimiza tokens directamente mediante gradiente en la función de pérdida
  • AutoDAN utiliza búsqueda evolutiva o un LLM auxiliar para la generación
  • Ambos añaden un sufijo a la solicitud dañina original
  • Ambos se transfieren igualmente bien a modelos que el ataque nunca ha visto

Qué es la dirección de rechazo

Cuando un modelo de lenguaje rechaza una solicitud dañina, no es el funcionamiento de un sistema complejo y ramificado de filtros temáticos. En el espacio de las activaciones internas del modelo, existe un único vector — una "dirección de rechazo". Cuando las representaciones de la solicitud se proyectan a lo largo de él — el modelo rechaza. Cuando las activaciones se desplazan en la dirección opuesta — el modelo ejecuta la solicitud. Es importante entender que esto no es una metáfora, sino un objeto matemático concreto. Los investigadores lo encuentran utilizando un método de diferencia media de activaciones: comparan cómo el modelo representa una solicitud "normal" y "dañina", y la diferencia entre estos promedios es la dirección de rechazo.

Años de entrenamiento con retroalimentación de preferencia humana (RLHF) no crearon una defensa multicapa. Concentraron toda la "voluntad de rechazo" en un único eje geométrico del espacio de activaciones. El hecho de que ataques independientes diferentes, desarrollados por equipos diferentes, encontraran en última instancia el mismo objeto habla por sí solo sobre la naturaleza estructural del fenómeno.

"Toda la robustez de seguridad depende de un único vector.

Esto no es un bug en una implementación específica — es una propiedad estructural de cómo funciona el alineamiento a través de RLHF."

Por qué la universalidad de los ataques no es una coincidencia

Si un sufijo desplaza las activaciones lejos de la dirección de rechazo, funciona contra cualquier modelo con entrenamiento similar — incluso si el atacante nunca lo ha visto. Esto explica un fenómeno observado desde hace mucho tiempo: los sufijos encontrados en modelos abiertos (Llama, Mistral) eludan sistemas comerciales cerrados. Los sufijos de GPT-3.5 funcionaban contra GPT-4. La razón no está en la fuga de pesos o datos idénticos — está en que todos los modelos RLHF modernos codifican el rechazo en un objeto geométrico similar.

  • El atacante no necesita acceso directo al modelo objetivo — cualquier proxy con entrenamiento similar es suficiente
  • El sufijo puede ser basura ilegible o texto coherente — ambas variantes golpean el mismo punto
  • Los ataques públicos en modelos abiertos automáticamente se convierten en una amenaza para sistemas propietarios

Qué significa esto

Si toda la defensa contra salidas dañinas depende de un único objeto geométrico en el espacio latente, surge la pregunta: ¿es suficiente "parchar" este vector durante el ajuste fino — o requiere una arquitectura de entrenamiento fundamentalmente diferente? Algunos investigadores proponen la eliminación quirúrgica de la dirección del modelo en tiempo de inferencia, pero esto degrada la calidad general. El hecho de que ataques independientes de diferentes tipos convergieran hacia la dirección de rechazo habla de una propiedad estructural de los LLM modernos — y esta es la frontera donde la seguridad de IA aún no ha encontrado una respuesta.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…