Vol d'inférences IA : comment les hackers s'enrichissent sur Vercel via les proxies résidentiels

Q: Quelle est la source ?

Publication originale sur Vercel Blog. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

2026-05-31. Temps de lecture : 3 min.

Les attaquants volent des appels IA coûteux (1-2 dollars par requête vers les modèles de pointe) et les revendent comme API OpenAI avec marge. Vercel s'est retr

Rédaction de Hamidun News

Veille IA · Vercel Blog

2026-05-31· 2 min

Traité par IA depuis Vercel Blog ; édité par Hamidun News

Vol d'inférences IA : comment les hackers s'enrichissent sur Vercel via les proxies résidentiels — Source : Vercel Blog. Collage: Hamidun News.

◐ Écouter l'article

Le vol d'inférences — c'est le vol d'appels IA coûteux pour la revente. Les attaquants volent des tokens aux startups, les enveloppent dans leur propre API et les revendent comme une alternative bon marché à OpenAI ou Anthropic. Vercel a publié un rapport détaillé sur une attaque contre ses endpoints IA, qui révèle l'économie des vols et pourquoi les protections web standard sont complètement inefficaces.

Pourquoi les appels IA sont si coûteux

Une requête HTTP ordinaire coûte environ 2 dollars par million d'appels — pratiquement gratuit. Mais une seule requête vers un modèle de pointe (GPT-5.5, Claude 3.5 Sonnet) peut coûter 1-2 dollars. C'est un million de fois plus cher qu'un endpoint standard. Pour les attaquants, c'est l'économie idéale du vol : voler un appel pour 2 dollars et le revendre pour 1,50 dollar — profit pur sans aucun coût marginal d'inférence.

Comment fonctionne le vol — architecture de l'attaque

Les attaquants créent un adaptateur — c'est une couche logicielle qui transforme l'endpoint d'autrui en API compatible OpenAI. La victime paie pour les inférences, l'attaquant paie zéro. Le processus ressemble à ceci :

Enregistrent des milliers de comptes jetables chez la victime
Achètent des IPs de proxy résidentiels en gros (des milliers d'adresses)
Enveloppent l'API volée dans un adaptateur
Le mettent à disposition de leur base de clients ou le revendent sur le marché noir
Gagnent la différence entre le prix volé et le prix de revente

Un exemple réel — Chipotlai Max, un fork d'un agent de codage qui transforme le chatbot d'assistance Chipotle en endpoint compatible OpenAI. Le projet recherche ouvertement des développeurs pour faire la même chose chez Home Depot, Lowe's, Target et Starbucks.

Pourquoi les rate limits et l'authentification ne fonctionnent pas

Les rate limits et l'authentification ont été conçus pour protéger contre le forçage de mots de passe et les DDoS. Le calcul est : voler un million de mots de passe coûte plus cher que de les protéger. Avec le vol d'inférences, les mathématiques sont inverses.

Les attaquants achètent simplement des IPs de proxy résidentiels individuellement — des centaines et des milliers d'adresses. Un rate limit qui n'est vérifié qu'une fois par session s'étale sur des milliers d'appels volés, plutôt que sur chaque requête individuelle.

Un compte ayant l'air authentique passe l'authentification. Au moment où la requête atteint votre API, elle a déjà franchi la limite que vous aviez prévu de protéger.

L'attaque réelle sur Vercel

Le 12 avril 2026, le trafic sur le chat IA dans la documentation de Vercel a augmenté 10 fois. Au pic — 1 300 requêtes par minute sur Claude Haiku 4.5. Cela correspondait à un run rate de 10 000 dollars de pertes par heure. Les attaquants ont utilisé des proxies résidentiels et des comptes nouveaux pour diluer les rate limits.

Comment Vercel se protège

Vercel filtre chaque requête IA via BotID — une analyse approfondie qui s'exécute non pas une fois par session, mais pour chaque requête individuelle. Au lieu de vérifier au début, la vérification se fait dans chaque octet de données. Cela peut être implémenté sur ses propres endpoints — quelques lignes de code bloquent les tentatives de vol automatisées.

Ce que cela signifie

Si vous avez un endpoint IA public (playground, support, document-AI) — les rate limits et l'authentification ne sauvent plus. La protection doit s'exécuter au niveau de la requête, pas de la session. Pour les startups avec accès public, c'est critique : une seule attaque sérieuse peut coûter des dizaines de milliers de dollars de pertes.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite