Los modelos de AI chinos superaron a los estadounidenses en consumo de tokens — datos de OpenRouter

Q: ¿Cuál es la fuente?

Publicado originalmente en Habr AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

3 may 2026. Tiempo de lectura: 3 min.

Por segunda semana consecutiva, OpenRouter registra un cambio histórico: los modelos de AI chinos superan a los estadounidenses en el consumo real de tokens…

Redacción de Hamidun News

Monitoreo de AI · Habr AI

3 may 2026· 2 min

Procesado por IA desde Habr AI; editado por Hamidun News

Los modelos de AI chinos superaron a los estadounidenses en consumo de tokens — datos de OpenRouter — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Los modelos de IA chinos han superado a los modelos americanos por segundo semana consecutiva en consumo real de tokens, según datos de OpenRouter: 4,69 billones de tokens frente a 3,29 billones. Simultáneamente, un misterioso Hunter Alpha ha aparecido en los rankings superiores, cuyo creador sigue siendo desconocido para todos.

Números que no mienten

La semana pasada, los modelos chinos generaron 4,69 billones de tokens a través de OpenRouter, mientras que los modelos americanos generaron 3,29 billones. La brecha es aproximadamente del 43%. Es importante destacar que estos no son anuncios de marketing ni benchmarks sintéticos — esta es carga real de infraestructura del agregador de API más grande del mundo, a través del cual trabajan miles de equipos de desarrolladores globalmente. Una semana antes, el panorama era idéntico. Dos semanas seguidas no es más un pico aleatorio, sino una tendencia sostenida. Para una industria donde, hace apenas seis meses, GPT-4 era considerada la única opción viable para sistemas en producción, esta es una señal significativa.

Quién es Hunter Alpha

Un modelo llamado Hunter Alpha ha aparecido en los rankings de consumo. Ningún proveedor conocido ha anunciado públicamente su lanzamiento: simplemente apareció en OpenRouter y comenzó a generar tráfico significativo. Su origen es desconocido, su autoría no revelada. Este no es el primer caso de modelos "fantasma". En 2024, Mystery Model en el ranking de LMSYS resultó ser Claude 3 Opus. Pero Hunter Alpha es un escenario diferente: consume activamente tokens de usuarios reales. Este es un lanzamiento completo, no pruebas ocultas.

Por qué los agentes cambiaron la economía

El principal impulsor de este cambio no es la calidad del modelo per se, sino un cambio en los patrones de uso. En la era de los agentes, una única tarea puede requerir decenas o cientos de llamadas de LLM. Un pipeline de agentes genera 10–100 veces más tokens que una única consulta de chat. A esta escala, el precio por millón de tokens se convierte en el factor de selección principal. Los modelos chinos han reducido agresivamente los precios en los últimos seis meses. La brecha con los competidores americanos para cargas de alto volumen es enorme:

Qwen3-72B: $0,07–0,30 por 1M tokens (según el proveedor)
DeepSeek V3: $0,07–0,14 por 1M tokens
GPT-4o: $2,50–5,00 por 1M tokens
Claude Sonnet 4.5: $3,00–15,00 por 1M tokens

Para tareas de agentes con miles de llamadas por día, una diferencia de 10 veces en el precio impacta directamente en el margen del producto.

Qué verificar ahora

Si está construyendo características de IA para producción, revise esta lista de verificación:

Cuente tokens por tarea — no por prompt, sino para todo el ciclo de agentes. Multiplique por volumen mensual.
Compare costos — con una diferencia de precio de 10 veces, la economía del producto cambia drásticamente.
Verifique la ventana de contexto — Qwen3 y DeepSeek soportan hasta 128K tokens, suficiente para la mayoría de los pipelines.
Mida TTFT — para interfaces en tiempo real, la latencia importa más que el precio; pruebe considerando su región.
Evalúe riesgos de cumplimiento — enrutar datos a través de APIs chinas plantea preguntas de GDPR y seguridad corporativa.

"Ya no puede elegir un modelo basándose en cómo responde en chat —

necesita calcular el costo de la tarea en su totalidad."

Qué significa esto

Un cambio en el líder por consumo real de tokens no es causa de pánico, sino una señal clara. Los desarrolladores votan con tráfico: los modelos chinos son más baratos para cargas de agentes, y el mercado lo refleja. Para equipos de productos, esta es razón para auditar su stack — no porque "chino es mejor", sino porque "barato y suficientemente buena calidad" es ahora una economía de producto diferente.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita