OpenAI e Anthropic redefinem o cálculo de custos de modelos de linguagem: em 2026, o preço da tarefa é importante
A métrica fundamental do mercado de LLM está mudando. OpenAI está trasladando seus planos corporativos para um modelo de precificação mais flexível baseado em v

Рынок больших языковых моделей входит в новый этап: дешевеющий токен больше не означает предсказуемый бюджет. Почти одновременно OpenAI и Anthropic показали, что в 2026 году бизнесу придётся считать не только цену миллиона токенов, но и полную стоимость выполнения задачи. Для компаний, которые строят продукты на агентных сценариях, это меняет саму логику закупок, планирования и unit-экономики.
Первый сигнал пришёл от Anthropic. Компания перевела агентные фреймворки на usage-based billing, то есть на оплату по фактическому потреблению токенов вместо фиксированных подписок. На практике это означает, что часть внешних обёрток и сервисов, которые раньше могли жить на flat-rate модели, теряет прежнюю финансовую опору.
Пока нагрузка была относительно предсказуемой, подписка выглядела удобной и для провайдера, и для клиента. Но в агентных системах расход вычислений быстро растёт: модель не просто отвечает на один запрос, а планирует шаги, делает несколько вызовов, обращается к инструментам, перепроверяет результат и может запускать длинную цепочку действий. Параллельно OpenAI изменил подход для корпоративных клиентов.
В Enterprise, Business и EDU-планах компания ввела более гибкое ценообразование, где стоимость масштабируется вместе с объёмом использования, а не остаётся жёстко привязанной к числу мест или seat-лицензий. Для закупщиков это важный сдвиг. Ещё недавно можно было смотреть на подписку как на почти фиксированную статью расходов, а теперь модель становится ближе к облачным сервисам: платёж сильнее зависит от реальной интенсивности использования.
Чем активнее сотрудники подключают генерацию, поиск, анализ документов и агентные функции, тем заметнее меняется счёт. Это не отменяет другой тренд, который рынок наблюдал последние два года. С 2023 по 2025 год API действительно дешевели, и стоимость миллиона токенов для моделей GPT-4-класса снижалась.
Именно поэтому многие команды привыкли мыслить простым правилом: если цена токена падает, то внедрение LLM со временем автоматически становится выгоднее. В 2026 году это правило уже не работает без оговорок. Ключевой показатель теперь — не прайс за токен сам по себе, а стоимость решения конкретной задачи.
Если для одного полезного результата системе нужно несколько проходов, длинный контекст, вызовы инструментов, дополнительные проверки и повторные генерации, общий чек может расти даже на фоне формально более дешёвого API. Особенно заметно это в агентных продуктах, где один сценарий, выглядящий для пользователя как одно действие, внутри может распадаться на десятки операций модели. Из этого следует и практический вывод для команд.
Бюджетирование LLM теперь нужно строить вокруг стоимости завершённого действия: сколько стоит один отчёт, один анализ документа, одна сессия ассистента или один успешно выполненный агентный workflow. Отсюда вырастают и новые требования к продукту: ограничение лишних шагов, контроль глубины агентного рассуждения, сокращение контекста, кеширование, маршрутизация на более дешёвые модели там, где это допустимо, и жёсткое измерение того, какие вызовы действительно создают ценность. Для CTO, CPO и финансовых команд это означает переход от разговоров о «дешёвом AI» к нормальной операционной экономике, где важен не красивый прайс в таблице, а цена конкретного бизнес-результата.
Главный смысл этого сдвига в том, что рынок LLM не перестал дешеветь, а перестал быть наивно простым. Compute crunch в 2026 году — это не только вопрос доступных мощностей, но и вопрос управляемости расходов. Выиграют не те компании, которые смотрят на самый низкий прайс за токен, а те, кто умеет считать стоимость конечного результата и проектировать систему так, чтобы каждый дополнительный токен приносил измеримую пользу.