AWS acelerou pipelines de ML no SageMaker Feature Store com três novos recursos
A AWS apresentou três melhorias no SageMaker Feature Store: Lake Formation para controle de acesso aos dados, suporte a Iceberg para melhor escalabilidade e oti

A AWS anunciou três novas capacidades no SageMaker Feature Store, disponíveis no Python SDK v3.8.0. A atualização tem como objetivo acelerar e simplificar a criação de pipelines de ML, especialmente para equipes que gerenciam grandes volumes de features.
Por Que Isso Importa
SageMaker Feature Store é um serviço especializado para gerenciar features de ML. É um repositório de onde os modelos buscam dados para treinamento e inferência. À primeira vista, pode parecer que você pode simplesmente armazenar dados em S3, mas não é assim. Features precisam ser transformadas, versionadas e sincronizadas entre modelos. Por isso, engenheiros de ML gastam 60–80% de seu tempo em preparação de dados. Um feature store apropriado permite reutilização de dados, evita vazamentos de informações entre conjuntos de treino e teste, e possibilita rollback rápido se dados forem corrompidos.
O Feature Store da AWS foi utilizado por grandes empresas como Intuit e T-Mobile, mas a plataforma exigia gerenciamento manual de acesso e se tornava complexa em escala. As três novas capacidades resolvem esses problemas.
O Que Foi Adicionado na v3.8.0
A atualização inclui integração com AWS Lake Formation, suporte a Apache Iceberg e otimização de pipelines:
- Lake Formation governance — gerenciamento de acesso no nível do Feature Store. Agora é possível especificar quais membros da equipe veem quais features, sem cópia manual de dados ou particionamento
- Suporte a Apache Iceberg — formato de tabela aberto com versionamento integrado. Escala melhor para petabytes, mais fácil reverter dados errôneos, sem necessidade de reescrever a tabela inteira ao alterar o schema
- Otimizações de pipeline — carregamento mais rápido de features, paralelismo de operações, redução da latência de inferência
Na Prática
Um cenário típico: você tem 50 modelos em produção, cada um necessitando de features — idade do cliente, histórico de compras, valor da última transação. Antigamente, cada modelo preparava seus próprios dados, levando a bugs e duplicação. Com Feature Store, a equipe define features uma vez em um local centralizado. Depois todos os modelos buscam dados daí e têm a garantia de ver a mesma coisa. Se um engenheiro comete um erro e faz upload de dados ruins, você pode reverter em um comando. Lake Formation ajuda a aplicar automaticamente políticas corporativas. Por exemplo: equipes de finanças veem todas as features, marketing vê apenas as anonimizadas. Iceberg torna a reversão rápida — não é necessário baixar e reescrever gigabytes.
"Gerenciar dados em ML é gerenciar confiança.
Modelos que recebem dados ruins fazem previsões ruins", dizem os engenheiros da AWS.
O Que Isso Significa
Plataformas de ML em nuvem estão se tornando cada vez mais maduras. A AWS está migrando de "aqui tem compute e rede" para armazenamento de dados gerenciado com versionamento, acesso e políticas. Para as empresas, isso significa que investimentos em infraestrutura em nuvem se pagam não apenas através da redução de custos de servidores, mas através da velocidade de desenvolvimento. Engenheiros de ML gastam menos tempo escrevendo código de transformação de dados e mais tempo trabalhando em modelos.