Le vol d'inférence IA est devenu un marché florissant : comment Vercel le combat
Les pirates volent les requêtes IA payantes, les enrobent dans une API compatible OpenAI et les revendent via des réseaux de proxies. Les simples limites de déb
Traité par IA depuis Vercel Blog ; édité par Hamidun News
Les pirates ont trouvé un nouveau moyen de monétiser les requêtes IA d'autrui. Ils volent tes requêtes payantes adressées à Claude, GPT ou Gemini, les enrobent dans une API compatible OpenAI et les revendent via des réseaux de proxies — sans aucun frais pour l'inférence elle-même.
Économie du vol
Une requête de prompt vers un modèle frontier peut coûter 2 $, tandis qu'une requête HTTP sur Vercel coûte 2 $ par million. L'inférence IA est un million de fois plus chère, ce qui en fait l'un des biens les plus lucratifs à voler. L'attaquant paie zéro, puis revend les tokens avec une réduction de 10–20% du prix d'origine — toujours un énorme profit avec zéro frais. Le scénario typique : l'attaquant crée un adaptateur compatible OpenAI qui enrobe ton endpoint IA. Ensuite, il distribue les requêtes via des centaines d'adresses IP proxy résidentielles et met le SDK prêt à l'emploi en accès public ou le vend par abonnement.
- Exemples : Chipotlai Max enrobe le chatbot Chipotle
- Demande ouvertement de l'aide pour le porter sur Home Depot, Lowe's, Target
- L'adaptateur — c'est une limite de session pour les utilisateurs en aval de l'attaquant
Pourquoi les limites de débit ne suffisent pas
Les défenses comme les limites de débit et les murs d'authentification ont été conçues pour des attaques avec une économie radicalement différente — quand le coût du contournement était supérieur au profit. Ici, le profit est colossal : les attaquants achètent des proxies résidentiels par milliers et créent autant de faux comptes que nécessaire. La limite de débit se dilue sur des centaines d'adresses IP.
Un bug classique : tu vérifies l'utilisateur une fois par session, puis tu envoies toutes les requêtes à l'IA. L'attaquant intercepte la session et fait passer des milliers d'appels volés à travers elle. Au moment où la requête arrive à ton API, elle a déjà franchi ta défense.
La vérification doit fonctionner sur chaque requête, pas sur la session.
L'attaque réelle sur Vercel
Le 29 avril 2026, le trafic vers la documentation du chat IA de Vercel a décuplé — 1 300 requêtes par minute vers le modèle Claude Haiku 4.5. Aux prix actuels, cela aurait coûté plus de 10 000 $ par jour. L'entreprise a détecté le vol massif en surveillant les modèles et a arrêté l'attaque grâce à une analyse approfondie de BotID au niveau de chaque requête.
«
Si tu as un endpoint IA sur Internet, le risque d'abus est énorme et peut facilement entraîner des factures de dizaines de milliers de dollars », affirme Vercel.
Ce que cela signifie
Le vol d'inférence est maintenant une menace réelle pour toute entreprise qui expose un endpoint IA sur Internet. Les limites de débit et l'authentification basique ne suffisent pas. Il faut une vérification avec analyse approfondie de chaque requête, pas de la session. Pour les startups et les SaaS, cela signifie qu'il faut passer à la vérification par requête maintenant, pas plus tard.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.