Por qué los bots basados en LLMs protegidos se hackean frecuentemente: análisis de 14 mil GPTs

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-19. Время чтения: 3 мин.

Los LLMs base están protegidos contra ataques. Pero los bots construidos sobre ellos son vulnerables. El culpable es la capa de orquestación: system prompts, RA

Redacción de Hamidun News

Monitoreo de AI · Habr AI

2026-05-19· 2 min

Por qué los bots basados en LLMs protegidos se hackean frecuentemente: análisis de 14 mil GPTs — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Un modelo LLM base seguro no es garantía de un bot seguro. ¿Una paradoja? No, solo arquitectura. Cuando tomas un modelo protegido como GPT o Claude y lo envuelves en un system prompt, añades RAG, tools y APIs — aparece una nueva superficie de ataque. Esto se llama capa de orquestación, y es exactamente donde se hackean los bots, incluso cuando están protegidos a nivel de modelo.

Cómo se protege la base

Los LLMs base pasan por un serio entrenamiento de seguridad: sus creadores los entrenan para rechazar solicitudes peligrosas. Los equipos de OpenAI, Anthropic y otros gastan meses asegurándose de que el modelo entienda qué solicitudes son inseguras. Encima de esto viene RLHF (aprendizaje por refuerzo a partir de retroalimentación humana) — el modelo se alinea con las preferencias humanas sobre qué es ético y qué no. El resultado: si le pides directamente a GPT que hackee un sitio web o divulgue datos personales, lo rechazará.

Dónde comienzan los problemas

Pero en cuanto envuelves el modelo en un bot (ya sea un bot de Telegram, una aplicación web o un agente de IA), añades toda una capa de componentes, cada uno potencialmente inseguro:

System prompts — instrucciones al bot que a veces anulan el entrenamiento del modelo e inyectable
Memoria de diálogo — historial de solicitudes que crece y puede usarse para ataques contextuales
RAG (Generación Aumentada por Recuperación) — bases de datos externas y documentos que pueden envenenarse con datos falsos
Tools y llamadas de función — acceso directo a APIs, correo electrónico, bases de datos, sistemas de pago
Lógica de webhook y servicios externos — fuentes de datos no confiables que pueden comprometerse

Cada capa añade un nuevo vector de ataque. Los system prompts pueden inyectarse a través de la entrada del usuario. La memoria de diálogo puede saturarse con patrones de inyección de prompt. RAG puede devolver datos envenenados de una fuente comprometida. Los tools pueden usarse para eludir restricciones del modelo.

Lo que mostró el análisis

Investigadores de arxiv analizaron 14.904 GPTs personalizados — agentes públicos creados por usuarios en la plataforma de OpenAI. Resultado: la gran mayoría son vulnerables a ataques básicos de la capa de orquestración. Un atacante no necesita comprometer el modelo en sí — es suficiente inyectar el system prompt o envenenar la fuente RAG.

La mayoría de las vulnerabilidades no están en el modelo en sí, sino en cómo se envuelve.

Esto significa que puedes usar el LLM más seguro del planeta, pero una arquitectura inadecuada anulará sus ventajas. Los bots se debilitan al escalar porque cada nuevo componente añade complejidad y nuevos puntos de entrada.

Qué significa esto

La seguridad de un bot de IA no es solo sobre la selección del modelo — es un desafío arquitectónico integral. Necesitas proteger los system prompts de inyecciones, validar datos de entrada, controlar fuentes RAG, restringir permisos de tools y registrar todas las acciones. De lo contrario, un hermoso LLM se convierte en un hermoso agujero de seguridad.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com