Vercel dévoile les principaux modèles d’AI en production : Anthropic domine en dépenses
Vercel a rassemblé des données sur l’usage réel des modèles d’AI en production. Anthropic concentre davantage de dépenses (61 % du total), Google traite plus de

Vercel a analysé sept mois de trafic de sa AI Gateway — elle traite des billions de tokens via des centaines de modèles dans des applications et agents réels. Les résultats montrent à quoi ressemble vraiment le marché de la production d'IA, contrairement aux benchmarks synthétiques qui changent chaque semaine.
Qui dépense plus, qui traite plus
Par dépenses en avril 2026, Anthropic est en tête : 61% de toutes les dépenses vont à Claude. Cela malgré un prix par token plus élevé — les développeurs paient plus parce que le résultat est plus précieux. Google représente 21%, OpenAI — 12%, le reste est réparti entre xAI et les modèles ouverts.
Par volume de tokens traités, le tableau est inverse. Google est premier ici : 38% de tout le trafic passe par Gemini (principalement Flash — la version rapide et bon marché). Anthropic traite 26%, OpenAI — 13%, xAI et autres — 23%.
Un tel écart semble étrange, mais la logique est simple. Différents modèles concourent sur différentes couches :
- Claude Opus pour les tâches complexes et coûteuses — quand une erreur coûte cher
- Gemini Flash pour les volumes — pour les tâches où la vitesse compte plus que la précision
- GPT-5.5 est réparti uniformément entre les deux couches
C'est comme deux marchés différents dans un seul marché. Quand un développeur choisit un modèle, il ne pense pas à la réputation — il pense au ratio prix-risque.
Le prix de l'erreur détermine le choix du modèle
Derrière ce modèle se cache un principe simple : un modèle est cher si une erreur est chère.
Assistants personnels — 20% des dépenses sur 40% des tokens. Peuvent fonctionner sur des modèles bon marché, car si l'assistant commet une erreur, l'utilisateur la remarque et la corrige rapidement. L'erreur est locale.
Agents de codage — 22% des dépenses sur 20% des tokens. Une erreur de code coûte du temps au développeur et du débogage. Plus cher qu'une erreur de chat, mais pas critique.
Systèmes back-office — 6% des dépenses sur 15% des tokens. Ils économisent ici car les volumes sont énormes, mais choisissent quand même pas l'option la moins chère. Une erreur pourrait affecter les finances ou les opérations.
Génération d'applications — 7% des dépenses sur 11% des tokens. Le code généré passe par une révision de code avant utilisation, donc il y a une sécurité.
Il y a aussi un modèle plus grand : les applications B2B dépensent environ deux fois plus par token que B2C. En B2B, une erreur peut entraîner des pertes financières, des procès ou des arrêts. L'erreur B2C coûte moins cher.
Qui gagne dans quelles tâches
Si vous segmentez les données par type de travail, vous voyez un tableau fragmenté du marché.
Anthropic est nettement en avant dans le développement logiciel — les développeurs choisissent Claude pour le codage complexe et l'analyse de code. Cela reflète la réputation du modèle en ML et en conception de systèmes.
Google domine les applications grand public — Gemini Flash a capturé le segment de masse grâce au faible coût et à une qualité acceptable. C'est une stratégie : bon marché, assez bon, volume.
OpenAI est le plus uniformément réparti dans toutes les catégories — cela signifie que GPT-5.5 est utilisé partout, des applications mobiles aux systèmes d'entreprise.
xAI et les modèles ouverts collectent les cas d'usage dans des niches spécialisées — par exemple, les entreprises qui veulent fonctionner sans le cloud ou qui ont besoin d'une personnalisation complète.
Sur six mois, ce tableau change rapidement. La sortie d'une nouvelle version de GPT en avril a considérablement augmenté la part de dépenses d'OpenAI. Gemini Flash en mars était beaucoup plus modeste, mais a rapidement capturé des volumes. Cela montre que le marché répond vivement à la qualité et au prix, pas à l'inertie.
Ce que cela signifie
Le marché de l'IA en 2026 n'est pas une recherche du meilleur choix unique. Les développeurs choisissent les modèles par tâche, pas par prestige. Les modèles chers vont aux scénarios à haut risque (quand une erreur coûte), les bon marché — aux scénarios à faible risque (quand la vitesse et le volume importent). Les nouvelles versions gagnent rapidement des parts si elles résolvent les problèmes réels mieux et moins cher que les concurrents. Et tous les modèles gagnent simultanément dans leur segment.