LangChain Deep Agents снижает стоимость LLM на 80% за счёт кеширования промптов
LangChain добавил автоматическое кеширование промптов в Deep Agents — и это снижает расходы на токены до 80%. Фреймворк сам определяет провайдера и включает…
AI-обработка оригинала LangChain Blog; редакция Hamidun News
LangChain добавил автоматическое кеширование промптов в Deep Agents. По данным компании, это снижает расходы на LLM-токены до 80% без дополнительных настроек и изменений в коде агента.
Что такое prompt caching и зачем он агентам
Кеширование промптов — техника, при которой модельный провайдер сохраняет «замороженную» копию часто повторяющихся частей контекста. Это может быть системный промпт, история разговора или большой массив загруженных документов. При следующем обращении к модели провайдер не обрабатывает эти токены заново — достаёт их из кеша и берёт за них существенно меньше.
Для обычного чат-приложения кеширование даёт умеренный выигрыш: системный промпт там обычно короткий. Для агентов — картина принципиально другая. Агент в ходе одной задачи делает десятки последовательных обращений к модели.
Каждый раз он передаёт одну и ту же длинную инструкцию, историю своих предыдущих действий, загруженные инструменты и документы. Без кеширования всё это обрабатывается и оплачивается заново при каждом шаге — даже если 90% контента не изменилось. Простой пример: исследовательский агент читает 50 страниц технической документации, а затем делает 30 шагов рассуждений и вызовов инструментов.
Каждый шаг тянет полный контекст обратно в модель. С кешированием первый вызов оплачивается полностью, все последующие — только за новые токены.
Как
Deep Agents включает кеш автоматически LangChain реализовал кеширование так, чтобы оно работало без участия разработчика. Не нужно разбираться в документации каждого провайдера, расставлять специальные флаги или перестраивать архитектуру агента. Фреймворк сам определяет используемого провайдера и активирует нужный механизм. Поддерживаются все крупные игроки: Anthropic (Claude) — кеш на уровне системного промпта и описаний инструментов OpenAI (GPT-4o, o3) — кеширование повторяющихся входных сегментов Google (Gemini) — контекстное кеширование для длинных документов Другие совместимые провайдеры Это означает, что разработчик пишет код один раз под LangChain Deep Agents, а кеш работает везде. При смене провайдера ничего дополнительно настраивать не нужно.
Реальная экономия: до 80% на токенах
Цифра «до 80%» достижима в конкретных сценариях — длинный повторяющийся контекст плюс много шагов агента. Чем больше обращений к модели в рамках одной задачи и чем длиннее неизменная часть промпта, тем выше экономия. Для команд, запускающих агентов в продакшене, это означает кратное снижение счёта за API. Особенно критично для enterprise-сценариев: Анализ больших корпусов документов Многошаговые исследовательские пайплайны Агенты с долгосрочной памятью и расширенным инструментальным контекстом Контент-генераторы, обрабатывающие сотни запросов в день LangChain подчёркивает, что кеширование промптов — одна из самых простых оптимизаций с максимальным ROI в агентной разработке. Провайдеры тоже заинтересованы в расширении этой поддержки: меньше вычислений — дешевле инфраструктура для них самих.
Что это значит
Агентные системы становятся дорогими при масштабировании, и кеширование промптов уже сейчас один из главных способов контролировать расходы. LangChain убирает инженерный барьер: разработчику больше не нужно реализовывать кеш самому под каждого провайдера. Это снижает порог входа в продакшн-агентную разработку и делает запуск агентов экономически обоснованным даже при ограниченном бюджете.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.