AWS Machine Learning Blog→ оригинал

AWS выпустила ToolSimulator для безопасного тестирования AI-агентов в Strands Evals

AWS выпустила ToolSimulator — фреймворк для тестирования AI-агентов, работающих с внешними инструментами. Вместо реальных API-вызовов, которые могут утечь персо

AWS выпустила ToolSimulator для безопасного тестирования AI-агентов в Strands Evals
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

AWS опубликовала ToolSimulator — фреймворк для тестирования AI-агентов, работающих с внешними инструментами. Вместо рискованных вызовов реальных API он использует LLM для динамической симуляции ответов — безопасно, масштабируемо и без утечки данных. Любой AI-агент, умеющий обращаться к API, читать базы данных или управлять внешними сервисами, сталкивается с одной и той же проблемой при тестировании: как проверить поведение агента, не задев продакшн?

Традиционные подходы не решают её полностью. Прямые вызовы реального API опасны — агент может случайно отправить письмо, создать запись в CRM или передать персональные данные во внешний сервис. Статические моки работают для простых сценариев, но разваливаются на многошаговых диалогах, где ответ инструмента влияет на следующий запрос агента.

AWS предложила третий путь: ToolSimulator в составе Strands Evals SDK. Фреймворк использует LLM для генерации реалистичных ответов инструментов — так, как если бы настоящий API отвечал на запрос агента. При этом никакие данные никуда не уходят: всё происходит внутри изолированной тестовой среды.

Как это работает на практике. Разработчик описывает инструменты, которые использует агент: их схему, возможные ответы, граничные случаи. ToolSimulator принимает эти описания и, когда агент в процессе теста обращается к инструменту, генерирует правдоподобный ответ.

Агент не знает, что работает с симулятором, а не с настоящим сервисом. Это позволяет тестировать многошаговые цепочки: агент получает ответ, принимает следующее решение, снова обращается к инструменту — и так по всему сценарию. Ключевые возможности фреймворка охватывают три направления.

Масштаб: ToolSimulator позволяет запускать сотни тестовых сценариев параллельно — то, что с реальными API потребовало бы огромных затрат и нагрузки на инфраструктуру. Покрытие граничных случаев: можно смоделировать недоступность API, медленный ответ, неожиданный формат данных, ошибку авторизации — и проверить, как агент ведёт себя в каждой ситуации. Безопасность: никаких реальных вызовов — никакого риска утечки персональных данных или непреднамеренных действий в продакшне.

ToolSimulator доступен сегодня как часть Strands Evals SDK — открытого инструментария AWS для оценки качества AI-агентов. Strands Agents — относительно новый агентный фреймворк от AWS; Strands Evals появился как сопутствующий компонент для тестирования. ToolSimulator расширяет этот инструментарий решением одной из самых болезненных задач — надёжного тестирования агентов с реальными зависимостями.

Проблема касается всей отрасли. По мере перехода AI-агентов из демо в продакшн требования к их надёжности резко возрастают. Агент, управляющий почтой, CRM или финансовыми транзакциями, должен вести себя предсказуемо в любых условиях — в том числе когда инструменты, на которые он опирается, ведут себя нестандартно.

До появления подходов вроде ToolSimulator разработчики были вынуждены выбирать между неполным покрытием и риском, который несут реальные API-вызовы в тестовой среде. Для разработчиков агентов ToolSimulator снижает барьер для написания комплексных тестов там, где раньше было слишком сложно или опасно. Команды смогут быстрее обнаруживать баги интеграций, систематически проверять граничные случаи и выпускать агентов с большей уверенностью в их поведении.

Инструмент вписывается в более широкую тенденцию: по мере взросления агентного рынка появляются специализированные решения не только для создания агентов, но и для их тестирования и оценки — и AWS делает ставку на то, чтобы занять эту нишу.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…