Vercel revela los principales modelos de AI en producción: Anthropic lidera en gasto
Vercel reunió datos sobre el uso real de modelos de AI en producción. Anthropic concentra más gasto (61% del total), Google procesa más tokens (38%), y OpenAI c

Vercel analizó siete meses de tráfico de su AI Gateway — procesa billones de tokens a través de cientos de modelos en aplicaciones y agentes reales. Los resultados muestran cómo se ve realmente el mercado de producción de IA, a diferencia de los benchmarks sintéticos que cambian semanalmente.
Quién gasta más, quién procesa más
Por gastos en abril de 2026, Anthropic lidera: 61% de todos los gastos van a Claude. Esto a pesar de un precio más alto por token — los desarrolladores pagan más porque el resultado es más valioso. Google ocupa el 21%, OpenAI — 12%, el resto se distribuye entre xAI y modelos abiertos.
Por volumen de tokens procesados, el panorama es opuesto. Google es el primero aquí: el 38% de todo el tráfico pasa por Gemini (principalmente Flash — la versión rápida y barata). Anthropic procesa el 26%, OpenAI — 13%, xAI y otros — 23%.
Esta dispersión parece extraña, pero la lógica es simple. Diferentes modelos compiten en diferentes capas:
- Claude Opus va para tareas complejas y costosas — cuando un error cuesta dinero
- Gemini Flash consume volúmenes — para tareas donde la velocidad importa más que la precisión
- GPT-5.5 se distribuye uniformemente entre ambas capas
Es como dos mercados diferentes en un mercado. Cuando un desarrollador elige un modelo, no piensa en reputación — piensa en la relación precio-riesgo.
El precio del error determina la elección del modelo
Detrás de este patrón hay un principio simple: un modelo es caro si un error es caro.
Asistentes personales — 20% del gasto en 40% de los tokens. Pueden funcionar en modelos baratos, porque si el asistente comete un error, el usuario lo nota y lo corrige rápidamente. El error es local.
Agentes de codificación — 22% del gasto en 20% de los tokens. Un error en el código cuesta tiempo del desarrollador y depuración. Más caro que un error de chat, pero no crítico.
Sistemas de back-office — 6% del gasto en 15% de los tokens. Ahorran aquí porque los volúmenes son enormes, pero aun así no eligen la opción más barata. Un error puede afectar las finanzas u operaciones.
Generación de aplicaciones — 7% del gasto en 11% de los tokens. El código generado pasa por revisión de código antes de su uso, por lo que hay una red de seguridad.
También hay un patrón más grande: las aplicaciones B2B gastan aproximadamente el doble por token que B2C. En B2B, un error puede llevar a pérdidas financieras, litigios o paradas. El error B2C cuesta menos.
Quién gana en qué tareas
Si segmentas los datos por tipo de trabajo, ves un panorama fragmentado del mercado.
Anthropic está notablemente adelante en desarrollo de software — los desarrolladores eligen Claude para codificación compleja y análisis de código. Esto refleja la reputación del modelo en ML y diseño de sistemas.
Google domina en aplicaciones de consumidor — Gemini Flash capturó el segmento masivo gracias al bajo costo y calidad aceptable. Esta es una estrategia: barato, suficientemente bueno, volumen.
OpenAI es el más distribuido uniformemente en todas las categorías — esto significa que GPT-5.5 se usa en todas partes, desde aplicaciones móviles hasta sistemas empresariales.
xAI y modelos abiertos recopilan casos de uso en nichos especiales — por ejemplo, empresas que quieren trabajar sin la nube o necesitan personalización total para sí mismas.
Durante medio año, este panorama cambia rápidamente. El lanzamiento de una nueva versión de GPT en abril aumentó significativamente la participación de gastos de OpenAI. Gemini Flash en marzo era mucho más modesto, pero rápidamente capturó volúmenes. Esto muestra que el mercado responde agudamente a la calidad y el precio, no al impulso.
Qué significa esto
El mercado de IA en 2026 no es una búsqueda del mejor modelo. Los desarrolladores eligen modelos por tarea, no por prestigio. Los modelos caros van a escenarios de alto riesgo (cuando un error cuesta), los baratos — a bajo riesgo (cuando importan la velocidad y el volumen). Las nuevas versiones ganan rápidamente participación si resuelven problemas reales mejor y más barato que los competidores. Y todos los modelos ganan simultáneamente en su segmento.