Pourquoi les bots basés sur des LLM protégés sont souvent piratés : analyse de 14 000 GPT
Les LLM de base sont protégés contre les attaques. Mais les bots construits dessus sont vulnérables. Le coupable est la couche d'orchestration : system prompts,

Un modèle LLM de base sécurisé ne garantit pas un bot sécurisé. Un paradoxe ? Non, c'est juste l'architecture. Quand vous prenez un modèle protégé comme GPT ou Claude et l'enrobez dans un system prompt, vous ajoutez RAG, des tools et des APIs — une nouvelle surface d'attaque apparaît. C'est ce qu'on appelle la couche d'orchestration, et c'est exactement là où les bots se font pirater, même quand ils sont protégés au niveau du modèle.
Comment la base est protégée
Les LLMs de base subissent un sérieux entraînement en matière de sécurité : leurs créateurs les entraînent à refuser les demandes dangereuses. Les équipes d'OpenAI, Anthropic et autres dépensent des mois pour s'assurer que le modèle comprenne quelles demandes sont dangereuses. Par-dessus cela vient RLHF (apprentissage par renforcement à partir de retours humains) — le modèle est aligné sur les préférences humaines concernant ce qui est éthique et ce qui ne l'est pas. Le résultat : si vous demandez directement à GPT de pirater un site web ou de divulguer des données personnelles, il refusera.
Où commencent les problèmes
Mais dès que vous enrobez le modèle dans un bot (qu'il s'agisse d'un bot Telegram, d'une application web ou d'un agent IA), vous ajoutez une couche entière de composants, chacun potentiellement non sécurisé :
- System prompts — instructions au bot qui contournent parfois l'entraînement du modèle et peuvent être injectées
- Mémoire de dialogue — historique des demandes qui s'accumule et peut être utilisé pour des attaques contextuelles
- RAG (Génération Augmentée par Récupération) — bases de données externes et documents qui peuvent être empoisonnés avec de fausses données
- Tools et appels de fonction — accès direct aux APIs, e-mail, bases de données, systèmes de paiement
- Logique de webhook et services externes — sources de données non fiables qui peuvent être compromises
Chaque couche ajoute un nouveau vecteur d'attaque. Les system prompts peuvent être injectés via les entrées utilisateur. La mémoire de dialogue peut être encombrée de patterns d'injection de prompt. RAG peut retourner des données empoisonnées d'une source compromise. Les tools peuvent être utilisés pour contourner les restrictions du modèle.
Ce que l'analyse a montré
Des chercheurs d'arxiv ont analysé 14 904 GPTs personnalisés — des agents publics créés par des utilisateurs sur la plateforme OpenAI. Résultat : la grande majorité sont vulnérables aux attaques de base sur la couche d'orchestration. Un attaquant n'a pas besoin de compromettre le modèle lui-même — il suffit d'injecter le system prompt ou d'empoisonner la source RAG.
La plupart des vulnérabilités ne sont pas dans le modèle lui-même, mais dans la façon dont il est enrobé.
Cela signifie que vous pouvez utiliser le LLM le plus sécurisé de la planète, mais une architecture inadéquate annulera ses avantages. Les bots s'affaiblissent à mesure qu'ils se développent car chaque nouveau composant ajoute de la complexité et de nouveaux points d'entrée.
Ce que cela signifie
La sécurité d'un bot IA n'est pas seulement une question de choix de modèle — c'est un défi architectural global. Vous devez protéger les system prompts contre les injections, valider les données d'entrée, contrôler les sources RAG, restreindre les permissions des tools et journaliser toutes les actions. Sinon, un beau LLM devient un beau trou de sécurité.