AWS Machine Learning Blog→ оригинал

AWS Shows How to Build AI Agents on SageMaker and Test Models via MLflow

AWS released a practical breakdown on building AI agents with Strands Agents SDK and models deployed in SageMaker. The setup includes JumpStart for launching fo

AWS Shows How to Build AI Agents on SageMaker and Test Models via MLflow
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

27 апреля 2026 года AWS опубликовала практический разбор того, как запускать AI-агентов на собственной управляемой инфраструктуре, а не только на полностью managed-сервисах. Компания показала связку Strands Agents SDK, SageMaker AI и Serverless MLflow, в которой агент можно быстро собрать, развернуть на endpoint’е, наблюдать его поведение в проде и сравнивать несколько вариантов модели без смены общей архитектуры. Для команд, которым важны контроль, предсказуемая стоимость и требования по безопасности, это выглядит как попытка превратить агентные системы из экспериментального слоя в нормальный MLOps-процесс.

В основе подхода — Strands Agents SDK, open source-фреймворк для сборки агентов из модели, промпта и набора инструментов. В примере AWS сначала показывает базовый сценарий с моделью в Bedrock, а затем переносит ту же идею на модели, поднятые в SageMaker AI. Ключевой момент в том, что Strands умеет работать с inference endpoint’ами SageMaker как с провайдером модели, если та поддерживает OpenAI-совместимый chat completions API.

В демонстрации используются две версии Qwen3 из SageMaker JumpStart — 4B и 8B. Первая разворачивается как основной endpoint, после чего агент получает доступ к инструментам вроде HTTP-запросов и калькулятора и может выполнять типовые задачи уже поверх собственной модельной инфраструктуры. Зачем вообще уводить агентную логику в SageMaker, если на рынке хватает готовых API?

AWS делает ставку на четыре аргумента. Первый — контроль над инфраструктурой: можно точно выбирать инстансы, сетевые настройки и правила масштабирования под нужную задержку и SLA. Второй — гибкость по моделям: помимо готовых foundation models можно использовать кастомные или дообученные варианты, а также open-source-модели.

Третий — более предсказуемая экономика для больших нагрузок за счет dedicated endpoint’ов и точной подгонки ресурсов. Четвертый — нормальный enterprise-контур вокруг агентов: трассировка, версионирование, A/B-тесты и аудит, которые нужны не на демо, а в продакшене. Отдельно AWS акцентирует внимание на наблюдаемости.

Для этого используется SageMaker AI Serverless MLflow: сервис автоматически пишет execution traces, шаги агента, вызовы инструментов и метрики, не заставляя команду вручную обвешивать код кастомной телеметрией. После включения autolog данные попадают в интерфейс MLflow, где можно посмотреть список прогонов, раскрыть конкретный trace, увидеть Agent Loop, дерево span’ов, входы и выходы каждого шага. Это важно не только для отладки.

Такой уровень прозрачности нужен, когда агент начинает принимать решения в чувствительных бизнес-процессах, а команде надо понимать, где именно он ошибся, почему выбрал конкретный инструмент и как меняется его поведение после обновления модели. Самая практичная часть материала — A/B-тестирование между вариантами моделей. AWS показывает, как повесить на один и тот же endpoint две production-вариации, в примере это Qwen3 4B и Qwen3 8B, и сначала делить трафик между ними 50 на 50.

После этого можно либо сравнивать ответы в живом потоке, либо создать два отдельных агента, каждый из которых смотрит в свой target variant. Дальше подключается MLflow GenAI evaluation: команда собирает единый набор тестовых кейсов, задает ожидания по фактам и использованным инструментам, а затем прогоняет оба варианта через одинаковые scorers. В примере используются как детерминированные проверки, так и LLM-as-a-judge метрики вроде correctness и relevance.

Такой сценарий превращает выбор модели из спора на ощущениях в воспроизводимую процедуру: новая версия не просто кажется умнее, а проходит одни и те же тесты, после чего ее можно постепенно сделать основной через изменение весов. Вывод простой: AWS продает не очередной агентный SDK, а инженерную схему, в которой агент становится управляемым продуктовым компонентом. Если компании нужны свои модели, свой периметр, аудит действий агента и аккуратный rollout новых версий, связка Strands, SageMaker и MLflow закрывает этот сценарий гораздо ближе к enterprise-реальности, чем многие быстрые demo-стеки.

Для рынка это еще один сигнал, что следующая конкуренция в AI идет уже не только за качество модели, а за качество инфраструктуры вокруг нее.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…