Modelos de AI chineses superaram os dos EUA em consumo de tokens — dados da OpenRouter

Q: Qual é a fonte?

Publicado originalmente em Habr AI. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

3 de mai. de 2026. Tempo de leitura: 3 min.

Pela segunda semana consecutiva, a OpenRouter registra uma mudança histórica: modelos de AI chineses superam os dos EUA no consumo real de tokens — 4,69…

Redação da Hamidun News

Monitoramento de AI · Habr AI

3 de mai. de 2026· 2 min

Processado por IA de Habr AI; editado por Hamidun News

Modelos de AI chineses superaram os dos EUA em consumo de tokens — dados da OpenRouter — Fonte: Habr AI. Colagem: Hamidun News.

◐ Ouvir artigo

Modelos de IA chineses superaram modelos americanos pela segunda semana consecutiva em consumo real de tokens, de acordo com dados do OpenRouter: 4,69 trilhões de tokens versus 3,29 trilhões. Simultaneamente, um misterioso Hunter Alpha apareceu no topo dos rankings, cujo criador permanece desconhecido para qualquer um.

Números que não mentem

Na semana passada, modelos chineses geraram 4,69 trilhões de tokens através do OpenRouter, enquanto modelos americanos geraram 3,29 trilhões. A diferença é aproximadamente 43%. Importante destacar que estes não são anúncios de marketing ou benchmarks sintéticos — esta é carga real de infraestrutura do maior agregador de API do mundo, através do qual milhares de equipes de desenvolvedores trabalham globalmente. Uma semana atrás, o quadro era idêntico. Duas semanas seguidas não é mais um pico aleatório, mas uma tendência sustentada. Para uma indústria onde, apenas seis meses atrás, GPT-4 era considerada a única escolha viável para sistemas em produção, este é um sinal significativo.

Quem é Hunter Alpha

Um modelo chamado Hunter Alpha apareceu nos rankings de consumo. Nenhum provedor conhecido anunciou publicamente seu lançamento: simplesmente apareceu no OpenRouter e começou a gerar tráfego significativo. Sua origem é desconhecida, sua autoria não revelada. Este não é o primeiro caso de modelos "fantasma". Em 2024, Mystery Model no ranking LMSYS se revelou ser Claude 3 Opus. Mas Hunter Alpha é um cenário diferente: consome ativamente tokens de usuários reais. Este é um lançamento completo, não testes ocultos.

Por que agentes mudaram a economia

O principal impulsionador desta mudança não é a qualidade do modelo em si, mas uma mudança nos padrões de uso. Na era dos agentes, uma única tarefa pode exigir dezenas ou centenas de chamadas de LLM. Um pipeline de agentes gera 10–100 vezes mais tokens que uma única consulta de chat. Nesta escala, o preço por milhão de tokens torna-se o fator de seleção primário. Modelos chineses cortaram agressivamente os preços nos últimos seis meses. A diferença com concorrentes americanos para cargas de alto volume é enorme:

Qwen3-72B: $0,07–0,30 por 1M tokens (dependendo do provedor)
DeepSeek V3: $0,07–0,14 por 1M tokens
GPT-4o: $2,50–5,00 por 1M tokens
Claude Sonnet 4.5: $3,00–15,00 por 1M tokens

Para tarefas de agentes com milhares de chamadas por dia, uma diferença de 10 vezes no preço impacta diretamente a margem do produto.

O que verificar agora

Se você está construindo features de IA para produção, percorra esta lista de verificação:

Conte tokens por tarefa — não por prompt, mas para todo o ciclo de agentes. Multiplique pelo volume mensal.
Compare custos — em uma diferença de preço de 10 vezes, a economia do produto muda drasticamente.
Verifique a janela de contexto — Qwen3 e DeepSeek suportam até 128K tokens, suficiente para a maioria dos pipelines.
Meça TTFT — para interfaces em tempo real, latência importa mais que preço; teste considerando sua região.
Avalie riscos de conformidade — rotear dados através de APIs chinesas levanta questões de GDPR e segurança corporativa.

"Você não pode mais escolher um modelo baseado em como ele responde em

chat — você precisa calcular o custo da tarefa como um todo."

O que isso significa

Uma mudança de líder por consumo real de tokens não é causa de pânico, mas um sinal claro. Desenvolvedores votam com tráfego: modelos chineses são mais baratos para cargas de agentes, e o mercado reflete isso. Para equipes de produtos, isto é razão para auditar seu stack — não porque "chinês é melhor", mas porque "barato e suficientemente bom em qualidade" é agora uma economia de produto diferente.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis