AWS раскрыла пятерку паттернов для оценки глубоких AI-агентов
AWS опубликовала руководство по оценке глубоких AI-агентов. В статье разобраны пять паттернов оценки, показано, как настроить офлайн-тесты с pytest и LangSmith,

AWS и LangSmith опубликовали развёрнутое руководство по оценке глубоких AI-агентов — автономных систем, которые решают многошаговые задачи самостоятельно, делая выводы и принимая решения по пути.
Пять критериев оценки Главный вывод AWS: оценивать агента по одному параметру неправильно.
Нужен комплексный подход. Компания предлагает пять направлений проверки, каждое раскрывает разные аспекты работы: Корректность результата — дал ли агент правильный финальный ответ на вопрос пользователя Траектория решения — какой путь выбрал агент, логичны ли шаги, нет ли явных ошибок в рассуждении Управление инструментами — какие API, сервисы и базы данных вызывал агент, эффективно ли их использовал Безопасность и соответствие — соблюдал ли агент политики доступа, не вышел ли за границы разрешённых действий * Прозрачность решений — может ли разработчик понять логику каждого решения агента На ранних прототипах фокус на правильность и логичность. В боевой системе, особенно если она критична, приоритет смещается на безопасность, мониторинг и способность объяснить каждое решение агента.
Офлайн-тестирование и живой мониторинг AWS описала двухуровневый
подход: контроль до запуска и контроль после. Первый уровень — офлайн-тестирование в режиме разработки. Пишешь тесты в pytest, где даёшь агенту предопределённые входные данные и проверяешь, дал ли он правильный ответ.
Это классическое unit-тестирование, но для AI систем: набор вопросов, ожидаемые результаты, проверка совпадения. LangSmith дополняет это отслеживанием трасс вызовов. Когда агент работает, инструмент записывает каждый шаг: какие подвопросы агент задал себе, какие сервисы вызвал, как переходил от одного шага к другому.
Если результат неправильный, видно точно где произошла ошибка и можно её исправить. Второй уровень активируется после развёртывания в продакшене. Когда агент работает с реальными пользователями, LangSmith продолжает наблюдение.
Система отслеживает метрики в реальном времени: время отклика на запрос, процент ошибок, успешность выполнения, время каждого промежуточного шага. Если метрики начали деградировать, алерт срабатывает автоматически.
Text-to-SQL агент как полный пример AWS построила демонстрационный
агент, который переводит обычный язык в SQL-запросы к базам данных. Пользователь пишет: «Покажи топ-10 клиентов по объёму продаж за этот квартал», агент разбирает запрос, формирует SQL-команду, выполняет её на базе данных и возвращает таблицу результатов. Этот пример охватывает все пять критериев оценки полностью: правильность финального результата, логика шагов, выбор нужных инструментов (какие таблицы запросить), безопасность (не выйти за границы доступных данных), и возможность понять, почему агент сформировал именно эту SQL-команду. Агент развёрнут на Amazon Bedrock — управляемом облачном сервисе для работы с большими языковыми моделями. Bedrock берёт на себя масштабирование инфраструктуры, отказоустойчивость и соответствие стандартам безопасности. Разработчик концентрируется на логике агента, Bedrock гарантирует надёжность и производительность.
Что это значит
До сих пор оценка сложных AI-систем была искусством: запустил агент, смотришь результат, гадаешь, почему случилось то или иное. AWS и LangSmith вносят инженерное мышление. Когда ты видишь полную трассу решений агента и можешь её проверить шаг за шагом, становится возможно не просто поймать ошибку, но и предотвратить её на этапе разработки. Для больших и критичных систем — где агент управляет платежами, доступом к конфиденциальным данным или принимает важные бизнес-решения — это переходит из категории «неплохо бы» в категорию «обязательно».