The Verge→ original

Los hackers aprenden a eludir la protección de chatbots de IA manipulando sus 'personalidades'

Las primeras generaciones de chatbots de IA eran sorprendentemente fáciles de piratear. No se requerían habilidades técnicas especiales ni acceso al código…

Procesado por IA desde The Verge; editado por Hamidun News
Los hackers aprenden a eludir la protección de chatbots de IA manipulando sus 'personalidades'
Fuente: The Verge. Collage: Hamidun News.
◐ Escuchar artículo

Piratear las primeras generaciones de chatbots de IA era ridículamente simple. No se requerían habilidades técnicas, acceso al código fuente ni comprensión de la arquitectura de los modelos de lenguaje. A veces bastaba con pedir —y el sistema, que costaba miles de millones de dólares, descartaba sus instrucciones de seguridad.

La generación de ataques jailbreak

Los primeros intentos de piratería se llamaban jailbreaks —funcionaban de frente. Los hackers simplemente pedían a los chatbots algo peligroso, obsceno o prohibido —y a menudo accedían. No había magia, ninguna técnica como SQL injection. Solo una solicitud educada en inglés, y el sistema cedía. Esto continuó durante meses. ChatGPT y otros primeros modelos eran notablemente vulnerables —sus instrucciones literalmente podían ser reescritas con una sola frase. La comunidad de investigadores de seguridad rápidamente acumuló una base de datos de formas de eludir la protección. Con el tiempo, la defensa mejoró, pero una nueva onda de ataques comenzó a funcionar según un principio diferente.

Los investigadores notaron que cada modelo de lenguaje tiene su propia 'personalidad' —un conjunto único de patrones de comportamiento derivados del entrenamiento y el etiquetado de datos. Esta personalidad puede ser estudiada y explotada.

Ataques dirigidos a la personalidad

En lugar de solicitudes directas, los hackers ahora utilizan técnicas psicológicas que funcionan en las características de comportamiento de cada modelo:

  • Inventan historias plausibles sobre investigación, depuración o proyectos educativos
  • Piden que actúen el papel de un personaje ficticio sin limitaciones (superhéroe, científico, asistente de IA de otra compañía)
  • Utilizan manipulación emocional, halagos o sentido del humor
  • Descubren lentamente los límites mediante preguntas de prueba sin violarlos de inmediato
  • Reflejan el lenguaje, vocabulario y estilo del modelo para establecer 'confianza'
  • Hacen referencia a escenarios hipotéticos, ficción o perspectivas académicas

Los investigadores descubrieron que cada modelo tiene su propio 'punto débil'. GPT-4 es generalmente más resistente gracias a un mejor entrenamiento en ejemplos adversarios. Pero Claude, Gemini y Meta LLaMA siguen siendo vulnerables, especialmente si el ataque se diseña para su personalidad específica —su tono, preferencias en las explicaciones, inclinación a ayudar.

Por qué funciona

Los modelos de IA están entrenados para ser útiles y educados. Estas cualidades a menudo entran en conflicto con las instrucciones de seguridad, y la línea entre ellas es difusa. El modelo no puede realmente 'entender' una violación —simplemente sigue patrones de los datos de entrenamiento.

Otro problema: los modelos casi no reciben retroalimentación durante la interacción normal. No saben que su respuesta podría ser utilizada para causar daño. Solo intentan ser útiles en este chat específico, sin pensar en las consecuencias a largo plazo.

Además, muchos modelos se entrenan en grandes volúmenes de texto de internet, donde hay ejemplos de las mismas manipulaciones. Han visto cómo las personas se pedían mutuamente que eludieran las restricciones e internalizaron estos patrones. Para los modelos, esto es simplemente otra forma de ser útiles.

Qué significa esto

Las empresas lo han entendido y están trabajando activamente en la defensa. OpenAI dedica equipos completos a esto, Anthropic invirtió en Constitutional AI, Google lanzó el proyecto Gemini con protección integrada. Invierten en moderación dinámica, entrenamiento en ejemplos adversarios, equipos rojos que detectan nuevos ataques.

Pero esta es una carrera armamentista clásica. Cada ronda de defensa genera una nueva ronda de ataques creativos. Para el mercado masivo, esto significa: no esperes que un chatbot se niegue para siempre a hacer algo potencialmente peligroso. Evolucionan, pero más lentamente que la ingeniosidad de los hackers e investigadores de seguridad.

*Meta ha sido reconocida como una organización extremista y está prohibida en la Federación Rusa.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…