LangChain Blog→ оригинал

LangChain Deep Agents снижает стоимость LLM на 80% за счёт кеширования промптов

LangChain добавил автоматическое кеширование промптов в Deep Agents — и это снижает расходы на токены до 80%. Фреймворк сам определяет провайдера и включает…

AI-обработка оригинала LangChain Blog; редакция Hamidun News
LangChain Deep Agents снижает стоимость LLM на 80% за счёт кеширования промптов
Источник: LangChain Blog. Коллаж: Hamidun News.
◐ Слушать статью

LangChain добавил автоматическое кеширование промптов в Deep Agents. По данным компании, это снижает расходы на LLM-токены до 80% без дополнительных настроек и изменений в коде агента.

Что такое prompt caching и зачем он агентам

Кеширование промптов — техника, при которой модельный провайдер сохраняет «замороженную» копию часто повторяющихся частей контекста. Это может быть системный промпт, история разговора или большой массив загруженных документов. При следующем обращении к модели провайдер не обрабатывает эти токены заново — достаёт их из кеша и берёт за них существенно меньше.

Для обычного чат-приложения кеширование даёт умеренный выигрыш: системный промпт там обычно короткий. Для агентов — картина принципиально другая. Агент в ходе одной задачи делает десятки последовательных обращений к модели.

Каждый раз он передаёт одну и ту же длинную инструкцию, историю своих предыдущих действий, загруженные инструменты и документы. Без кеширования всё это обрабатывается и оплачивается заново при каждом шаге — даже если 90% контента не изменилось. Простой пример: исследовательский агент читает 50 страниц технической документации, а затем делает 30 шагов рассуждений и вызовов инструментов.

Каждый шаг тянет полный контекст обратно в модель. С кешированием первый вызов оплачивается полностью, все последующие — только за новые токены.

Как

Deep Agents включает кеш автоматически LangChain реализовал кеширование так, чтобы оно работало без участия разработчика. Не нужно разбираться в документации каждого провайдера, расставлять специальные флаги или перестраивать архитектуру агента. Фреймворк сам определяет используемого провайдера и активирует нужный механизм. Поддерживаются все крупные игроки: Anthropic (Claude) — кеш на уровне системного промпта и описаний инструментов OpenAI (GPT-4o, o3) — кеширование повторяющихся входных сегментов Google (Gemini) — контекстное кеширование для длинных документов Другие совместимые провайдеры Это означает, что разработчик пишет код один раз под LangChain Deep Agents, а кеш работает везде. При смене провайдера ничего дополнительно настраивать не нужно.

Реальная экономия: до 80% на токенах

Цифра «до 80%» достижима в конкретных сценариях — длинный повторяющийся контекст плюс много шагов агента. Чем больше обращений к модели в рамках одной задачи и чем длиннее неизменная часть промпта, тем выше экономия. Для команд, запускающих агентов в продакшене, это означает кратное снижение счёта за API. Особенно критично для enterprise-сценариев: Анализ больших корпусов документов Многошаговые исследовательские пайплайны Агенты с долгосрочной памятью и расширенным инструментальным контекстом Контент-генераторы, обрабатывающие сотни запросов в день LangChain подчёркивает, что кеширование промптов — одна из самых простых оптимизаций с максимальным ROI в агентной разработке. Провайдеры тоже заинтересованы в расширении этой поддержки: меньше вычислений — дешевле инфраструктура для них самих.

Что это значит

Агентные системы становятся дорогими при масштабировании, и кеширование промптов уже сейчас один из главных способов контролировать расходы. LangChain убирает инженерный барьер: разработчику больше не нужно реализовывать кеш самому под каждого провайдера. Это снижает порог входа в продакшн-агентную разработку и делает запуск агентов экономически обоснованным даже при ограниченном бюджете.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…