AWS Machine Learning Blog→ оригинал

AWS открыла Agent-EvalKit: систематическая оценка AI-агентов в шесть фаз

AWS открыла Agent-EvalKit — фреймворк с открытым кодом (Apache 2.0) для систематической оценки AI-агентов. Инструмент интегрируется с Claude Code, Kiro CLI и…

AI-обработка оригинала AWS Machine Learning Blog; редакция Hamidun News
AWS открыла Agent-EvalKit: систематическая оценка AI-агентов в шесть фаз
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

AWS выпустила Agent-EvalKit — открытый инструмент (Apache 2.0) для систематической оценки AI-агентов. Фреймворк интегрируется с Claude Code, Kiro CLI и Kilo Code и проводит агента через шесть последовательных фаз проверки.

Зачем нужна оценка агентов Разработать AI-агента — несложно.

Понять, насколько хорошо он работает, — совсем другое дело. Агент может возвращать правдоподобные ответы и при этом вызывать лишние инструменты, тратить в разы больше токенов, чем нужно, или пропускать критичные шаги в цепочке рассуждений. Стандартные метрики типа accuracy здесь не работают: агент — это динамическая система, где важна не только финальная точка, но и весь путь к ней. Лог инструментов, порядок вызовов, промежуточные решения — всё это влияет на надёжность агента в продакшне. Именно поэтому команда AWS создала специализированную инфраструктуру оценки.

Шесть фаз проверки

Фреймворк последовательно прогоняет агента через шесть этапов: Подготовка задачи — формирование набора тест-кейсов с входными данными, контекстом и эталонными ответами Запуск агента — выполнение задач в контролируемой среде с полной записью трассировки Оценка траектории — проверка, вызвал ли агент нужные инструменты в правильном порядке Оценка финального ответа — сравнение результата с эталоном по содержанию, структуре и точности Анализ безопасности — проверка на нежелательное поведение и выход за рамки поставленной задачи Генерация отчёта — агрегирование метрик и формирование итогового балла с разбивкой по категориям Каждую фазу можно настроить отдельно: запустить только оценку траектории, только финальный отчёт или полный цикл.

Пример: агент для путешествий В качестве демонстрации AWS показывает агента, написанного с помощью

Strands Agents SDK и работающего на Amazon Bedrock. Агент принимает запрос пользователя — например, «Спланируй поездку в Токио на семь дней с бюджетом $2000» — ищет рейсы и отели через внешние инструменты, анализирует достопримечательности и возвращает итоговый маршрут. Agent-EvalKit проверяет такого агента по всем шести фазам: убеждается, что инструмент поиска рейсов был вызван до поиска отелей, что финальный ответ содержит конкретные даты и цены, что агент не вышел за рамки бюджета и не придумал несуществующие рейсы. Такая проверка выявляет ошибки, которые невидны при обычном ручном тестировании.

Интеграция с AI-ассистентами

Принципиальное отличие Agent-EvalKit от аналогов — глубокая интеграция с AI coding assistants. Claude Code, Kiro CLI и Kilo Code могут запускать оценку прямо внутри рабочего окружения разработчика, без переключения на отдельную платформу или настройки отдельного пайплайна. Фреймворк распространяется под лицензией Apache 2.0. Исходный код открыт на GitHub, документация описывает готовые примеры для нескольких популярных AI-фреймворков.

«Мы хотели создать инфраструктуру оценки, которую разработчики смогут подключить за несколько минут, не строя её с нуля», — пишут авторы в блоге AWS

Machine Learning.

Что это значит

Появление стандартизированного инструмента оценки — важный шаг к промышленному использованию AI-агентов. Без возможности системно измерять качество работы агента на реальных задачах сложно обосновать его применение в ответственных бизнес-процессах. Agent-EvalKit предлагает конкретную методологию вместо ручного тестирования.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…