Китайские ИИ-модели обогнали американские по токен-потреблению — данные OpenRouter
OpenRouter вторую неделю подряд фиксирует исторический сдвиг: китайские ИИ-модели обгоняют американские по реальному потреблению токенов — 4,69 трлн против 3,29

Данные OpenRouter фиксируют исторический сдвиг: китайские ИИ-модели вторую неделю подряд опережают американские по реальному потреблению — 4,69 трлн токенов против 3,29 трлн. Параллельно в топах появилась загадочная Hunter Alpha, чей создатель неизвестен никому.
Цифры, которые не врут
За прошедшую неделю китайские модели сгенерировали 4,69 триллиона токенов через OpenRouter, американские — 3,29 триллиона. Разрыв составляет около 43%. Важно, что это не маркетинговые заявления и не синтетические бенчмарки — это реальная нагрузка на инфраструктуру крупнейшего агрегатора API, через который работают тысячи команд разработчиков по всему миру. Неделей ранее картина была аналогичной. Два подряд — это уже не случайный выброс, а устойчивый тренд. Для индустрии, где ещё полгода назад GPT-4 считался безальтернативным выбором для production-систем, это значимый сигнал.
Кто такая Hunter Alpha В топе потребления появилась модель с именем Hunter Alpha.
Ни один известный провайдер публично не заявил о её выпуске: она просто появилась в OpenRouter и начала генерировать значительный трафик. Происхождение неизвестно, авторство никем не раскрыто. Это не первый случай «призрачных» моделей. В 2024 году Mystery Model в рейтинге LMSYS оказалась Claude 3 Opus. Но Hunter Alpha — другой сценарий: она активно потребляет токены реальных пользователей. Это полноценный запуск, а не скрытое тестирование.
Почему агенты изменили экономику
Главная причина сдвига — не качество моделей само по себе, а смена паттерна использования. В эпоху агентов одна задача может требовать десятков или сотен LLM-вызовов. Агентный пайплайн генерирует в 10–100 раз больше токенов, чем одиночный чат-запрос. При таком масштабе цена за миллион токенов становится главным фактором выбора. Китайские модели агрессивно снизили ценник за последние полгода. Разрыв с американскими конкурентами для high-volume нагрузок огромен: Qwen3-72B: $0.07–0.30 за 1M токенов (в зависимости от провайдера) DeepSeek V3: $0.07–0.14 за 1M токенов GPT-4o: $2.50–5.00 за 1M токенов Claude Sonnet 4.5: $3.00–15.00 за 1M токенов Для агентных задач с тысячами вызовов в день разница в десятки раз напрямую влияет на маржу продукта.
Что проверить прямо сейчас
Если вы строите ИИ-фичи для продакшена, пройдитесь по чек-листу: Посчитайте токены на задачу — не на промпт, а на весь агентный цикл. Умножьте на месячный объём. Сравните стоимость — при 10x разнице в цене экономика продукта меняется кардинально. Проверьте контекстное окно — Qwen3 и DeepSeek поддерживают до 128K токенов, достаточно для большинства пайплайнов. Замерьте TTFT — для real-time интерфейсов задержка важнее цены; протестируйте с учётом вашего региона. * Оцените compliance-риски — данные через китайские API поднимают вопросы GDPR и корпоративной безопасности.
«Больше нельзя выбирать модель по тому, как она отвечает в чате —
нужно считать стоимость задачи целиком».
Что это значит Смена лидера по реальному токен-потреблению — не повод для паники, но чёткий сигнал.
Разработчики голосуют трафиком: китайские модели дешевле для агентных нагрузок, и рынок это отражает. Для продуктовых команд это повод провести аудит стека — не потому что «китайские лучше», а потому что «дёшево и достаточно качественно» — это уже другая экономика продукта.