AWS a accéléré les pipelines de ML dans SageMaker Feature Store avec trois nouvelles fonctionnalités
AWS a présenté trois améliorations de SageMaker Feature Store : Lake Formation pour le contrôle d’accès aux données, la prise en charge d’Iceberg pour une meill

AWS a annoncé trois nouvelles capacités dans SageMaker Feature Store, disponibles dans le SDK Python v3.8.0. La mise à jour vise à accélérer et simplifier la création de pipelines de ML, en particulier pour les équipes qui gèrent de grands volumes de features.
Pourquoi C'est Important
SageMaker Feature Store est un service spécialisé pour gérer les features de ML. C'est un référentiel d'où les modèles extraient les données pour l'entraînement et l'inférence. À première vue, il peut sembler que vous pouvez simplement stocker les données dans S3, mais ce n'est pas le cas. Les features doivent être transformées, versionnées et synchronisées entre les modèles. Pour cette raison, les ingénieurs ML consacrent 60–80% de leur temps à la préparation des données. Un feature store approprié permet la réutilisation des données, évite les fuites d'informations entre les ensembles d'entraînement et de test, et permet de revenir rapidement en arrière si les données sont corrompues.
AWS Feature Store a été utilisé par de grandes entreprises comme Intuit et T-Mobile, mais la plateforme nécessitait une gestion manuelle de l'accès et devenait complexe à l'échelle. Les trois nouvelles capacités résolvont ces problèmes.
Qu'a-t-on Ajouté dans v3.8.0
La mise à jour inclut l'intégration avec AWS Lake Formation, le support d'Apache Iceberg et l'optimisation des pipelines :
- Lake Formation governance — gestion de l'accès au niveau du Feature Store. Vous pouvez désormais spécifier quels membres de l'équipe voient quelles features, sans copie manuelle ni partitionnement des données
- Support d'Apache Iceberg — format de table ouvert avec versioning intégré. Meilleure scalabilité vers les pétaoctets, plus facile de revenir en arrière sur les données erronées, pas besoin de réécrire la table entière lors de la modification du schéma
- Optimisations de pipeline — chargement plus rapide des features, parallélisme des opérations, réduction de la latence d'inférence
En Pratique
Un scénario typique : vous avez 50 modèles en production, chacun ayant besoin de features — âge du client, historique d'achat, montant de la dernière transaction. Autrefois, chaque modèle préparait ses propres données, ce qui entraînait des bugs et de la duplication. Avec Feature Store, l'équipe définit les features une seule fois dans un endroit centralisé.
Ensuite, tous les modèles en extraient les données et sont garantis de voir la même chose. Si un ingénieur commet une erreur et charge de mauvaises données, vous pouvez revenir en arrière en une seule commande. Lake Formation aide à appliquer automatiquement les politiques d'entreprise.
Par exemple : les équipes financières voient toutes les features, le marketing ne voit que les anonimisées. Iceberg rend le retour en arrière rapide — pas besoin de télécharger et de réécrire des gigaoctets.
"Gérer les données en ML, c'est gérer la confiance.
Les modèles qui reçoivent de mauvaises données font de mauvaises prédictions", disent les ingénieurs d'AWS.
Ce Que Cela Signifie
Les plateformes ML en nuage deviennent de plus en plus matures. AWS passe de « voici du compute et du réseau » à un stockage de données géré avec versioning, accès et politiques. Pour les entreprises, cela signifie que les investissements dans l'infrastructure en nuage se rentabilisent non seulement par la réduction des coûts de serveurs, mais aussi par la vitesse de développement. Les ingénieurs ML consacrent moins de temps à écrire du code de transformation de données et plus de temps à travailler sur les modèles.