AWS Machine Learning Blog→ оригинал

AWS показала, как собирать AI-агентов на SageMaker и тестировать модели через MLflow

AWS выпустила практический разбор по сборке AI-агентов на Strands Agents SDK с моделями, развернутыми в SageMaker. В схему входят JumpStart для запуска foundati

AWS показала, как собирать AI-агентов на SageMaker и тестировать модели через MLflow
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

27 апреля 2026 года AWS опубликовала практический разбор того, как запускать AI-агентов на собственной управляемой инфраструктуре, а не только на полностью managed-сервисах. Компания показала связку Strands Agents SDK, SageMaker AI и Serverless MLflow, в которой агент можно быстро собрать, развернуть на endpoint’е, наблюдать его поведение в проде и сравнивать несколько вариантов модели без смены общей архитектуры. Для команд, которым важны контроль, предсказуемая стоимость и требования по безопасности, это выглядит как попытка превратить агентные системы из экспериментального слоя в нормальный MLOps-процесс.

В основе подхода — Strands Agents SDK, open source-фреймворк для сборки агентов из модели, промпта и набора инструментов. В примере AWS сначала показывает базовый сценарий с моделью в Bedrock, а затем переносит ту же идею на модели, поднятые в SageMaker AI. Ключевой момент в том, что Strands умеет работать с inference endpoint’ами SageMaker как с провайдером модели, если та поддерживает OpenAI-совместимый chat completions API.

В демонстрации используются две версии Qwen3 из SageMaker JumpStart — 4B и 8B. Первая разворачивается как основной endpoint, после чего агент получает доступ к инструментам вроде HTTP-запросов и калькулятора и может выполнять типовые задачи уже поверх собственной модельной инфраструктуры. Зачем вообще уводить агентную логику в SageMaker, если на рынке хватает готовых API?

AWS делает ставку на четыре аргумента. Первый — контроль над инфраструктурой: можно точно выбирать инстансы, сетевые настройки и правила масштабирования под нужную задержку и SLA. Второй — гибкость по моделям: помимо готовых foundation models можно использовать кастомные или дообученные варианты, а также open-source-модели.

Третий — более предсказуемая экономика для больших нагрузок за счет dedicated endpoint’ов и точной подгонки ресурсов. Четвертый — нормальный enterprise-контур вокруг агентов: трассировка, версионирование, A/B-тесты и аудит, которые нужны не на демо, а в продакшене. Отдельно AWS акцентирует внимание на наблюдаемости.

Для этого используется SageMaker AI Serverless MLflow: сервис автоматически пишет execution traces, шаги агента, вызовы инструментов и метрики, не заставляя команду вручную обвешивать код кастомной телеметрией. После включения autolog данные попадают в интерфейс MLflow, где можно посмотреть список прогонов, раскрыть конкретный trace, увидеть Agent Loop, дерево span’ов, входы и выходы каждого шага. Это важно не только для отладки.

Такой уровень прозрачности нужен, когда агент начинает принимать решения в чувствительных бизнес-процессах, а команде надо понимать, где именно он ошибся, почему выбрал конкретный инструмент и как меняется его поведение после обновления модели. Самая практичная часть материала — A/B-тестирование между вариантами моделей. AWS показывает, как повесить на один и тот же endpoint две production-вариации, в примере это Qwen3 4B и Qwen3 8B, и сначала делить трафик между ними 50 на 50.

После этого можно либо сравнивать ответы в живом потоке, либо создать два отдельных агента, каждый из которых смотрит в свой target variant. Дальше подключается MLflow GenAI evaluation: команда собирает единый набор тестовых кейсов, задает ожидания по фактам и использованным инструментам, а затем прогоняет оба варианта через одинаковые scorers. В примере используются как детерминированные проверки, так и LLM-as-a-judge метрики вроде correctness и relevance.

Такой сценарий превращает выбор модели из спора на ощущениях в воспроизводимую процедуру: новая версия не просто кажется умнее, а проходит одни и те же тесты, после чего ее можно постепенно сделать основной через изменение весов. Вывод простой: AWS продает не очередной агентный SDK, а инженерную схему, в которой агент становится управляемым продуктовым компонентом. Если компании нужны свои модели, свой периметр, аудит действий агента и аккуратный rollout новых версий, связка Strands, SageMaker и MLflow закрывает этот сценарий гораздо ближе к enterprise-реальности, чем многие быстрые demo-стеки.

Для рынка это еще один сигнал, что следующая конкуренция в AI идет уже не только за качество модели, а за качество инфраструктуры вокруг нее.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…