Por qué los bots basados en LLMs protegidos se hackean frecuentemente: análisis de 14 mil GPTs
Los LLMs base están protegidos contra ataques. Pero los bots construidos sobre ellos son vulnerables. El culpable es la capa de orquestación: system prompts, RA

Un modelo LLM base seguro no es garantía de un bot seguro. ¿Una paradoja? No, solo arquitectura. Cuando tomas un modelo protegido como GPT o Claude y lo envuelves en un system prompt, añades RAG, tools y APIs — aparece una nueva superficie de ataque. Esto se llama capa de orquestación, y es exactamente donde se hackean los bots, incluso cuando están protegidos a nivel de modelo.
Cómo se protege la base
Los LLMs base pasan por un serio entrenamiento de seguridad: sus creadores los entrenan para rechazar solicitudes peligrosas. Los equipos de OpenAI, Anthropic y otros gastan meses asegurándose de que el modelo entienda qué solicitudes son inseguras. Encima de esto viene RLHF (aprendizaje por refuerzo a partir de retroalimentación humana) — el modelo se alinea con las preferencias humanas sobre qué es ético y qué no. El resultado: si le pides directamente a GPT que hackee un sitio web o divulgue datos personales, lo rechazará.
Dónde comienzan los problemas
Pero en cuanto envuelves el modelo en un bot (ya sea un bot de Telegram, una aplicación web o un agente de IA), añades toda una capa de componentes, cada uno potencialmente inseguro:
- System prompts — instrucciones al bot que a veces anulan el entrenamiento del modelo e inyectable
- Memoria de diálogo — historial de solicitudes que crece y puede usarse para ataques contextuales
- RAG (Generación Aumentada por Recuperación) — bases de datos externas y documentos que pueden envenenarse con datos falsos
- Tools y llamadas de función — acceso directo a APIs, correo electrónico, bases de datos, sistemas de pago
- Lógica de webhook y servicios externos — fuentes de datos no confiables que pueden comprometerse
Cada capa añade un nuevo vector de ataque. Los system prompts pueden inyectarse a través de la entrada del usuario. La memoria de diálogo puede saturarse con patrones de inyección de prompt. RAG puede devolver datos envenenados de una fuente comprometida. Los tools pueden usarse para eludir restricciones del modelo.
Lo que mostró el análisis
Investigadores de arxiv analizaron 14.904 GPTs personalizados — agentes públicos creados por usuarios en la plataforma de OpenAI. Resultado: la gran mayoría son vulnerables a ataques básicos de la capa de orquestración. Un atacante no necesita comprometer el modelo en sí — es suficiente inyectar el system prompt o envenenar la fuente RAG.
La mayoría de las vulnerabilidades no están en el modelo en sí, sino en cómo se envuelve.
Esto significa que puedes usar el LLM más seguro del planeta, pero una arquitectura inadecuada anulará sus ventajas. Los bots se debilitan al escalar porque cada nuevo componente añade complejidad y nuevos puntos de entrada.
Qué significa esto
La seguridad de un bot de IA no es solo sobre la selección del modelo — es un desafío arquitectónico integral. Necesitas proteger los system prompts de inyecciones, validar datos de entrada, controlar fuentes RAG, restringir permisos de tools y registrar todas las acciones. De lo contrario, un hermoso LLM se convierte en un hermoso agujero de seguridad.