Vercel revela os principais modelos de AI em produção: Anthropic lidera em gastos
A Vercel reuniu dados sobre o uso real de modelos de AI em produção. A Anthropic concentra mais gastos (61% do total), o Google processa mais tokens (38%), e a

Vercel analisou sete meses de tráfego do seu AI Gateway — ele processa trilhões de tokens através de centenas de modelos em aplicações e agentes reais. Os resultados mostram como o mercado de produção de IA realmente se parece, ao contrário dos benchmarks sintéticos que mudam semanalmente.
Quem gasta mais, quem processa mais
Por gastos em abril de 2026, Anthropic lidera: 61% de todos os gastos vão para Claude. Isso apesar de um preço mais alto por token — desenvolvedores pagam mais porque o resultado é mais valioso. Google ocupa 21%, OpenAI — 12%, o resto é dividido entre xAI e modelos abertos.
Por volume de tokens processados, o quadro é oposto. Google é o primeiro aqui: 38% de todo o tráfego passa por Gemini (principalmente Flash — a versão rápida e barata). Anthropic processa 26%, OpenAI — 13%, xAI e outros — 23%.
Essa dispersão parece estranha, mas a lógica é simples. Diferentes modelos competem em diferentes camadas:
- Claude Opus vai para tarefas complexas e caras — quando um erro custa dinheiro
- Gemini Flash consome volumes — para tarefas onde a velocidade importa mais que a precisão
- GPT-5.5 é distribuído uniformemente entre ambas as camadas
É como dois mercados diferentes em um mercado. Quando um desenvolvedor escolhe um modelo, não pensa em reputação — pensa na razão preço-risco.
Preço do erro determina a escolha do modelo
Por trás desse padrão há um princípio simples: um modelo é caro se um erro é caro.
Assistentes pessoais — 20% dos gastos em 40% dos tokens. Podem funcionar em modelos baratos, porque se o assistente cometer um erro, o usuário percebe e corrige rapidamente. O erro é local.
Agentes de codificação — 22% dos gastos em 20% dos tokens. Um erro em código custa tempo do desenvolvedor e depuração. Mais caro que um erro de chat, mas não crítico.
Sistemas de back-office — 6% dos gastos em 15% dos tokens. Economizam aqui porque os volumes são enormes, mas mesmo assim não escolhem a opção mais barata. Um erro pode afetar finanças ou operações.
Geração de aplicativos — 7% dos gastos em 11% dos tokens. Código gerado passa por revisão de código antes do uso, então há uma rede de segurança.
Há também um padrão maior: aplicações B2B gastam aproximadamente o dobro por token do que B2C. Em B2B, um erro pode levar a perdas financeiras, processos judiciais ou paradas. Erro B2C custa menos.
Quem vence em quais tarefas
Se você dividir os dados por tipo de trabalho, verá um quadro fragmentado do mercado.
Anthropic está notavelmente à frente em desenvolvimento de software — desenvolvedores escolhem Claude para codificação complexa e análise de código. Isso reflete a reputação do modelo em ML e design de sistemas.
Google domina em aplicações de consumidor — Gemini Flash capturou o segmento de massa graças ao baixo custo e qualidade aceitável. Esta é uma estratégia: barato, bom o suficiente, volume.
OpenAI é mais uniformemente distribuído em todas as categorias — isso significa que GPT-5.5 é usado em todos os lugares, desde aplicativos móveis até sistemas corporativos.
xAI e modelos abertos coletam casos de uso em nichos especiais — por exemplo, empresas que desejam trabalhar sem a nuvem ou precisam de personalização total para si mesmas.
Ao longo de meio ano, esse quadro muda rapidamente. O lançamento de uma nova versão do GPT em abril aumentou significativamente a participação de gastos da OpenAI. Gemini Flash em março era muito mais modesto, mas rapidamente capturou volumes. Isso mostra que o mercado responde acentuadamente à qualidade e preço, não ao impulso.
O que isso significa
O mercado de IA em 2026 não é uma busca por uma melhor escolha. Desenvolvedores escolhem modelos por tarefa, não por prestígio. Modelos caros vão para cenários de alto risco (quando um erro custa), baratos — para baixo risco (quando velocidade e volume importam). Novas versões ganham rapidamente participação se resolvem problemas reais melhor e mais barato que concorrentes. E todos os modelos simultaneamente vencem em seu segmento.