Machine Learning Mastery lanzó una guía sobre ingeniería de contexto para agentes de IA confiables

Q: Источник материала?

Оригинальная публикация на Machine Learning Mastery. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-28. Время чтения: 3 мин.

Machine Learning Mastery lanzó una guía práctica sobre ingeniería de contexto — una disciplina que determina qué datos ve un agente de IA en cada momento. Tesis

ЖХ

Редакция Hamidun News

AI‑мониторинг · Machine Learning Mastery

2026-04-28· 3 мин

Machine Learning Mastery lanzó una guía sobre ingeniería de contexto para agentes de IA confiables — Источник: Machine Learning Mastery. Коллаж: Hamidun News.

Machine Learning Mastery выпустила практический гид по context engineering для AI-агентов — дисциплине, которая определяет, какие данные модель видит в каждый момент работы. Главный тезис статьи: продакшен-проблемы у агентных систем чаще связаны не с качеством модели, а с тем, как разработчики управляют контекстом, историей и токенами.

Почему агенты ломаются

Автор предлагает смотреть на контекстное окно как на ограниченный вычислительный ресурс, а не как на техническую деталь, которую можно игнорировать. У токенов есть не только денежная цена, потому что каждый вызов модели оплачивается, но и когнитивная: длинный и плохо структурированный ввод снижает качество рассуждений. Модель уделяет больше внимания началу и концу контекста, а середина нередко теряет влияние, даже если формально всё помещается в лимит.

Контекстное окно — это не обходное ограничение, а главный параметр дизайна агентной системы.

Отсюда и типичный сбойный сценарий: агенту просто «доклеивают» всё подряд — старые ответы, сырые tool outputs, дублирующиеся фрагменты из retrieval и устаревшие решения. В итоге растут задержка и стоимость, а полезный сигнал тонет в шуме. В статье это сравнивают с RAM: быстрая память мощная, но конечная. Всё, что не нужно агенту прямо сейчас, должно храниться во внешней памяти и попадать в контекст только по запросу.

Как собирать контекст

Самая полезная архитектурная идея из гайда — жёстко разделять статический и динамический контекст. В статическую часть входят системные инструкции, роль агента, правила, описания инструментов и формат ответа. Эти данные почти не меняются, поэтому их можно кэшировать как префикс.

Динамическая часть — это текущий запрос пользователя, свежие результаты инструментов, последние шаги агента и документы, которые действительно нужны именно на этом этапе. Перед сборкой промпта автор советует сделать аудит всех слоёв, которые обычно заполняют context window: системные инструкции и few-shot-примеры; история диалога, ответы агента и результаты tool calls; внешние данные из базы знаний, файлов или поиска; рабочее состояние: промежуточные выводы, план, next steps. Практический вывод простой: не надо минимизировать каждый слой любой ценой, нужно убирать только то, что не помогает текущему шагу.

Полезной выглядит двухпроходная схема. Сначала система поднимает постоянный каркас: system prompt, кэшируемые правила, долгоживущие summary. Затем дозагружает переменную часть: актуальное состояние задачи, свежий retrieval и короткий релевантный хвост истории.

Такая сборка ещё и упрощает отладку, потому что сразу видно, проблема в конфигурации или в данных текущей сессии.

Как контролировать качество

Отдельный блок статьи посвящён двум зонам, где агенты деградируют быстрее всего: истории диалога и retrieval. Простое накопление всей переписки быстро раздувает контекст и закрепляет ошибки модели как будто это факты. Автор советует уходить от сырой истории к rolling summary или даже к структурированному session state, где отдельно фиксируются намерение пользователя, принятые решения, выполненные действия и следующий шаг.

Это даёт агенту память без бесконечного роста токенов. С retrieval логика похожая: каждая найденная пачка данных расходует бюджет, поэтому её нельзя считать бесплатной. В статье рекомендуют фильтровать результаты до вставки в промпт, использовать semantic chunking вместо нарезки фиксированными кусками и, где нужно, совмещать семантический поиск с keyword- или metadata-фильтрами.

Для зрелых систем более сильным вариантом считается agent-controlled retrieval, когда сам агент вызывает поиск только в тот момент, когда он реально нужен, а не автоматически на каждом ходе. Для продакшена автор предлагает измерять не только финальный ответ, но и качество самого контекста. Среди полезных метрик — заполнение бюджета токенов, степень сжатия после summary, точность retrieval и признаки context drift, когда агент начинает перечитывать уже обработанные файлы или уходит от исходной задачи.

Ещё один практический приём — probe-based evaluation: после сжатия или retrieval системе задают контрольные вопросы, чтобы проверить, сохранились ли нужные факты, артефакты и возможность продолжить многошаговую задачу с того же места.

Что это значит

Гайд Machine Learning Mastery хорошо фиксирует сдвиг в агентной разработке: качество AI-агента теперь зависит не только от выбора модели, но и от того, насколько дисциплинированно устроены память, retrieval и бюджет токенов. Для команд, которые выводят агентов в прод, это прямой сигнал проектировать контекст как отдельный слой архитектуры, а не как хвост промпта.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com