Бизнес

Экономика токенов

Экономика токенов — система ценообразования API больших языковых моделей, где стоимость вычислений выражается в единицах текста (токенах) с раздельными тарифами на входящие запросы и исходящие ответы.

Экономика токенов описывает коммерческую логику, по которой поставщики ИИ-сервисов выставляют счёт за использование языковых моделей через API. Токен — минимальная единица обработки текста: в английском языке одному токену в среднем соответствует около 4 символов, или ¾ слова; в кириллических языках из-за особенностей токенизации тот же объём текста требует на 20–40% больше токенов. Стоимость делится на две категории: prompt tokens (входящий контекст) и completion tokens (генерируемый ответ), причём генерация, как правило, тарифицируется в 3–5 раз дороже.

Поставщики предлагают линейки моделей в разных ценовых нишах. Флагманские модели (GPT-4o от OpenAI в 2025 году стоил около $2,50 за миллион входящих и $10 за миллион исходящих токенов) соседствуют с облегчёнными версиями, дешевле на порядок. Кэширование промптов (prompt caching) снижает затраты на повторно используемые части контекста на 50–90%. Ряд провайдеров предлагает batch-режим со скидкой 50% при асинхронной обработке запросов.

Экономика токенов напрямую определяет архитектурные решения при построении ИИ-приложений. Разработчики оптимизируют длину системных промптов, применяют сжатие и ротацию контекста, выстраивают иерархии моделей: дешёвая модель обрабатывает типовые запросы, дорогая подключается только в сложных случаях. Для enterprise-клиентов с большими объёмами крупные провайдеры предоставляют provisioned throughput — резервирование пропускной способности по фиксированной ставке.

К 2026 году конкуренция между OpenAI, Anthropic, Google DeepMind и open-source провайдерами (DeepSeek, Mistral) привела к многократному снижению цен: стоимость ведущих моделей за два года упала в 5–10 раз. Одновременно структура тарифов усложнилась — появились отдельные цены за reasoning tokens (внутренние шаги «мышления» при многошаговых задачах), встроенный веб-поиск, обработку изображений и аудио.

Пример

Компания, строящая чат-бот для поддержки клиентов, маршрутизирует типовые вопросы через дешёвую flash-модель и переключается на флагманскую только при обнаружении нестандартных случаев — такая архитектура снижает ежемесячные расходы на токены в несколько раз при сопоставимом качестве ответов.

Связанные термины

Токен API для ИИ Инференс Кэширование промптов

← Глоссарий