Modelos de AI chineses superaram os dos EUA em consumo de tokens — dados da OpenRouter
Pela segunda semana consecutiva, a OpenRouter registra uma mudança histórica: modelos de AI chineses superam os dos EUA no consumo real de tokens — 4,69…
Processado por IA de Habr AI; editado por Hamidun News
Modelos de IA chineses superaram modelos americanos pela segunda semana consecutiva em consumo real de tokens, de acordo com dados do OpenRouter: 4,69 trilhões de tokens versus 3,29 trilhões. Simultaneamente, um misterioso Hunter Alpha apareceu no topo dos rankings, cujo criador permanece desconhecido para qualquer um.
Números que não mentem
Na semana passada, modelos chineses geraram 4,69 trilhões de tokens através do OpenRouter, enquanto modelos americanos geraram 3,29 trilhões. A diferença é aproximadamente 43%. Importante destacar que estes não são anúncios de marketing ou benchmarks sintéticos — esta é carga real de infraestrutura do maior agregador de API do mundo, através do qual milhares de equipes de desenvolvedores trabalham globalmente. Uma semana atrás, o quadro era idêntico. Duas semanas seguidas não é mais um pico aleatório, mas uma tendência sustentada. Para uma indústria onde, apenas seis meses atrás, GPT-4 era considerada a única escolha viável para sistemas em produção, este é um sinal significativo.
Quem é Hunter Alpha
Um modelo chamado Hunter Alpha apareceu nos rankings de consumo. Nenhum provedor conhecido anunciou publicamente seu lançamento: simplesmente apareceu no OpenRouter e começou a gerar tráfego significativo. Sua origem é desconhecida, sua autoria não revelada. Este não é o primeiro caso de modelos "fantasma". Em 2024, Mystery Model no ranking LMSYS se revelou ser Claude 3 Opus. Mas Hunter Alpha é um cenário diferente: consome ativamente tokens de usuários reais. Este é um lançamento completo, não testes ocultos.
Por que agentes mudaram a economia
O principal impulsionador desta mudança não é a qualidade do modelo em si, mas uma mudança nos padrões de uso. Na era dos agentes, uma única tarefa pode exigir dezenas ou centenas de chamadas de LLM. Um pipeline de agentes gera 10–100 vezes mais tokens que uma única consulta de chat. Nesta escala, o preço por milhão de tokens torna-se o fator de seleção primário. Modelos chineses cortaram agressivamente os preços nos últimos seis meses. A diferença com concorrentes americanos para cargas de alto volume é enorme:
- Qwen3-72B: $0,07–0,30 por 1M tokens (dependendo do provedor)
- DeepSeek V3: $0,07–0,14 por 1M tokens
- GPT-4o: $2,50–5,00 por 1M tokens
- Claude Sonnet 4.5: $3,00–15,00 por 1M tokens
Para tarefas de agentes com milhares de chamadas por dia, uma diferença de 10 vezes no preço impacta diretamente a margem do produto.
O que verificar agora
Se você está construindo features de IA para produção, percorra esta lista de verificação:
- Conte tokens por tarefa — não por prompt, mas para todo o ciclo de agentes. Multiplique pelo volume mensal.
- Compare custos — em uma diferença de preço de 10 vezes, a economia do produto muda drasticamente.
- Verifique a janela de contexto — Qwen3 e DeepSeek suportam até 128K tokens, suficiente para a maioria dos pipelines.
- Meça TTFT — para interfaces em tempo real, latência importa mais que preço; teste considerando sua região.
- Avalie riscos de conformidade — rotear dados através de APIs chinesas levanta questões de GDPR e segurança corporativa.
"Você não pode mais escolher um modelo baseado em como ele responde em
chat — você precisa calcular o custo da tarefa como um todo."
O que isso significa
Uma mudança de líder por consumo real de tokens não é causa de pânico, mas um sinal claro. Desenvolvedores votam com tráfego: modelos chineses são mais baratos para cargas de agentes, e o mercado reflete isso. Para equipes de produtos, isto é razão para auditar seu stack — não porque "chinês é melhor", mas porque "barato e suficientemente bom em qualidade" é agora uma economia de produto diferente.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.