Токены по-китайски: как сэкономить 50% на API, когда mercado вырос в 300 раз
За последние 18 месяцев потребление токенов в Китае взлетело в 300 раз. Пока гиганты меряются параметрами моделей, бизнес считает убытки от счетов за API. Старт

Пока весь мир следит за очередным обновлением GPT, в Китае происходит тихая, но крайне дорогая революция. За последние полтора года объем потребляемых токенов в Поднебесной вырос в невероятные 300 раз. Это не просто статистика — это взрыв, который обнажил главную проблему индустрии: искусственный интеллект сегодня стоит неприлично дорого.
Если вы думали, что счета за облачные вычисления — это больно, представьте масштаб бедствия для компаний, которые пытаются встроить нейросети в каждый бизнес-процесс. Ситуация достигла точки, когда даже технологические гиганты начали задаваться вопросом, оправданы ли такие траты. Давайте вспомним, как мы здесь оказались.
Полтора года назад китайский рынок ИИ находился в стадии «войны ста моделей». Каждый уважающий себя техгигант считал своим долгом выпустить собственную LLM. В погоне за качеством ответов и точностью все забыли про экономику.
В итоге мы получили рынок, где спрос на вычисления растет экспоненциально, а маржинальность бизнеса стремится к нулю. Классическая модель «сжигания денег», которая работала в эпоху Uber и доставки еды, здесь дает сбой из-за колоссальной стоимости GPU-часов и обслуживания инфраструктуры. На помощь пришел десант из университета Цинхуа — главного кузницы кадров для китайского хайтека.
Новая волна стартапов, специализирующихся на AI-инфраструктуре (AI), решила подойти к проблеме не со стороны обучения моделей, а со стороны их эксплуатации. Они заявляют, что могут сократить расходы на API в два раза. Звучит как маркетинговый лозунг, но за этим стоит серьезная инженерная работа.
Речь идет о глубокой оптимизации планирования ресурсов, интеллектуальном кешировании и том, что в индустрии называют совместным проектированием софта и железа. Они не просто арендуют серверы, они пересобирают способ, которым модель общается с «железом». Почему это важно именно сейчас?
Потому что рынок переходит от стадии восторга к стадии прагматизма. Инвесторы больше не готовы подписывать чеки только за наличие букв AI в презентации. Им нужны цифры окупаемости.
Если стартап тратит 80% выручки на оплату API от OpenAI или местного Baidu, у него нет будущего. Решения по оптимизации инфраструктуры становятся тем самым «секретным соусом», который позволит ИИ выйти из лабораторий и дорогих игрушек для гиков в реальный сектор экономики — от производства до ритейла. Интересно, что этот тренд на «бережливый ИИ» зародился в Китае именно из-за дефицита чипов и санкционных ограничений.
Когда у тебя нет бесконечного доступа к новейшим H100, ты начинаешь думать, как выжать максимум из того, что есть. В этом смысле китайские инженеры сейчас находятся в авангарде оптимизации. Они учатся делать больше меньшими средствами, и этот опыт скоро станет востребован во всем мире.
Ведь в конечном итоге победит не тот, у кого модель на 1% умнее, а тот, кто сможет предоставлять этот интеллект по цене, которая не разорит клиента. Главное: эпоха избыточности в ИИ подходит к концу. Наступает время инженеров инфраструктуры, которые сделают нейросети по-настоящему дешевыми.
Смогут ли западные компании конкурировать по эффективности, если стоимость токена в Китае продолжит падать такими темпами?