AWS mostra como construir agentes de IA no SageMaker e testar modelos via MLflow
AWS lançou um guia prático sobre construção de agentes de IA com Strands Agents SDK e modelos implantados em SageMaker. A configuração inclui JumpStart para…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
Em 27 de abril de 2026, AWS publicou um detalhamento prático de como executar agentes de IA em sua própria infraestrutura gerenciada, não apenas em serviços totalmente gerenciados. A empresa demonstrou uma combinação de Strands Agents SDK, SageMaker AI e Serverless MLflow, onde um agente pode ser rapidamente montado, implantado em um endpoint, observar seu comportamento em produção e comparar várias variantes de modelo sem alterar a arquitetura geral. Para equipes que priorizam controle, custos previsíveis e requisitos de segurança, isso parece uma tentativa de transformar sistemas de agentes de uma camada experimental em um processo normal de MLOps.
No núcleo da abordagem está o Strands Agents SDK, um framework de código aberto para construir agentes a partir de um modelo, prompt e conjunto de ferramentas. No exemplo de AWS, ele primeiro mostra um cenário básico com um modelo em Bedrock, depois transfere a mesma ideia para modelos em execução em SageMaker AI. O ponto-chave é que Strands pode trabalhar com endpoints de inferência SageMaker como um provedor de modelo se ele suportar uma API de conclusão de chat compatível com OpenAI.
A demonstração usa duas versões do Qwen3 do SageMaker JumpStart — 4B e 8B. A primeira é implantada como o endpoint principal, após o qual o agente ganha acesso a ferramentas como solicitações HTTP e uma calculadora, e pode executar tarefas típicas em sua própria infraestrutura de modelo.
Por que mover a lógica do agente para SageMaker se há APIs prontas no mercado? AWS está apostando em quatro argumentos. Primeiro — controle de infraestrutura: você pode escolher com precisão instâncias, configurações de rede e regras de escalonamento para a latência e SLA necessários. Segundo — flexibilidade com modelos: além de foundation models prontos, você pode usar variantes personalizadas ou ajustadas, bem como modelos de código aberto. Terceiro — economia mais previsível para grandes cargas de trabalho através de endpoints dedicados e ajuste preciso de recursos. Quarto — um framework enterprise apropriado em torno dos agentes: rastreamento, versionamento, testes A/B e auditoria, que são necessários não em demos, mas em produção.
AWS enfatiza separadamente a observabilidade. Para isso, MLflow sem servidor SageMaker AI é usado: o serviço grava automaticamente traces de execução, etapas do agente, chamadas de ferramentas e métricas, sem forçar a equipe a instrumentar manualmente o código com telemetria personalizada. Após habilitar autolog, os dados fluem para a interface MLflow, onde você pode visualizar a lista de execuções, expandir um trace específico, ver o Agent Loop, uma árvore de spans, entradas e saídas de cada etapa.
Isso é importante não apenas para depuração. Este nível de transparência é necessário quando um agente começa a tomar decisões em processos de negócios sensíveis, e a equipe precisa entender exatamente onde falhou, por que escolheu uma ferramenta específica e como seu comportamento muda após uma atualização do modelo.
A parte mais prática do material é o teste A/B entre variantes de modelos. AWS mostra como anexar duas variações de produção ao mesmo endpoint, no exemplo Qwen3 4B e Qwen3 8B, e inicialmente dividir o tráfego entre eles 50/50. Depois disso, você pode comparar respostas no fluxo ao vivo ou criar dois agentes separados, cada um observando sua própria variante alvo.
A seguir, a avaliação MLflow GenAI é conectada: a equipe coleta um conjunto único de casos de teste, define expectativas para fatos e ferramentas usadas, depois executa ambas as variantes através dos mesmos scorers. O exemplo usa tanto verificações determinísticas quanto métricas LLM-as-a-judge como correção e relevância. Esse cenário transforma a seleção do modelo de um debate sobre sentimentos em um procedimento reproduzível: a nova versão não apenas parece mais inteligente, mas passa nos mesmos testes, após o qual pode ser gradualmente tornada padrão alterando pesos.
A conclusão é simples: AWS não está vendendo outro SDK de agente, mas um esquema de engenharia no qual um agente se torna um componente de produto gerenciado. Se as empresas precisam de seus próprios modelos, seu próprio perímetro, auditoria de ações do agente e implantação cuidadosa de novas versões, a combinação de Strands, SageMaker e MLflow aborda esse cenário muito mais próximo à realidade empresarial do que muitas pilhas de demonstração rápidas. Para o mercado, este é outro sinal de que a próxima competição em IA não é mais apenas sobre a qualidade do modelo, mas sobre a qualidade da infraestrutura ao seu redor.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.