AWS открыла Agent-EvalKit: систематическая оценка AI-агентов в шесть фаз

AWS открыла Agent-EvalKit — фреймворк с открытым кодом (Apache 2.0) для систематической оценки AI-агентов. Инструмент интегрируется с Claude Code, Kiro CLI и…

ЖХ

Редакция Hamidun News

AI‑мониторинг · AWS Machine Learning Blog

30 июн. 2026 г.· 2 мин

AI-обработка оригинала AWS Machine Learning Blog; редакция Hamidun News

AWS открыла Agent-EvalKit: систематическая оценка AI-агентов в шесть фаз — Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

◐ Слушать статью

AWS выпустила Agent-EvalKit — открытый инструмент (Apache 2.0) для систематической оценки AI-агентов. Фреймворк интегрируется с Claude Code, Kiro CLI и Kilo Code и проводит агента через шесть последовательных фаз проверки.

Зачем нужна оценка агентов Разработать AI-агента — несложно.

Понять, насколько хорошо он работает, — совсем другое дело. Агент может возвращать правдоподобные ответы и при этом вызывать лишние инструменты, тратить в разы больше токенов, чем нужно, или пропускать критичные шаги в цепочке рассуждений. Стандартные метрики типа accuracy здесь не работают: агент — это динамическая система, где важна не только финальная точка, но и весь путь к ней. Лог инструментов, порядок вызовов, промежуточные решения — всё это влияет на надёжность агента в продакшне. Именно поэтому команда AWS создала специализированную инфраструктуру оценки.

Шесть фаз проверки

Фреймворк последовательно прогоняет агента через шесть этапов: Подготовка задачи — формирование набора тест-кейсов с входными данными, контекстом и эталонными ответами Запуск агента — выполнение задач в контролируемой среде с полной записью трассировки Оценка траектории — проверка, вызвал ли агент нужные инструменты в правильном порядке Оценка финального ответа — сравнение результата с эталоном по содержанию, структуре и точности Анализ безопасности — проверка на нежелательное поведение и выход за рамки поставленной задачи Генерация отчёта — агрегирование метрик и формирование итогового балла с разбивкой по категориям Каждую фазу можно настроить отдельно: запустить только оценку траектории, только финальный отчёт или полный цикл.

Пример: агент для путешествий В качестве демонстрации AWS показывает агента, написанного с помощью

Strands Agents SDK и работающего на Amazon Bedrock. Агент принимает запрос пользователя — например, «Спланируй поездку в Токио на семь дней с бюджетом $2000» — ищет рейсы и отели через внешние инструменты, анализирует достопримечательности и возвращает итоговый маршрут. Agent-EvalKit проверяет такого агента по всем шести фазам: убеждается, что инструмент поиска рейсов был вызван до поиска отелей, что финальный ответ содержит конкретные даты и цены, что агент не вышел за рамки бюджета и не придумал несуществующие рейсы. Такая проверка выявляет ошибки, которые невидны при обычном ручном тестировании.

Интеграция с AI-ассистентами

Принципиальное отличие Agent-EvalKit от аналогов — глубокая интеграция с AI coding assistants. Claude Code, Kiro CLI и Kilo Code могут запускать оценку прямо внутри рабочего окружения разработчика, без переключения на отдельную платформу или настройки отдельного пайплайна. Фреймворк распространяется под лицензией Apache 2.0. Исходный код открыт на GitHub, документация описывает готовые примеры для нескольких популярных AI-фреймворков.

«Мы хотели создать инфраструктуру оценки, которую разработчики смогут подключить за несколько минут, не строя её с нуля», — пишут авторы в блоге AWS

Machine Learning.

Что это значит

Появление стандартизированного инструмента оценки — важный шаг к промышленному использованию AI-агентов. Без возможности системно измерять качество работы агента на реальных задачах сложно обосновать его применение в ответственных бизнес-процессах. Agent-EvalKit предлагает конкретную методологию вместо ручного тестирования.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.