AWS Machine Learning Blog→ original

AWS aceleró los pipelines de ML en SageMaker Feature Store con tres nuevas capacidades

AWS presentó tres mejoras en SageMaker Feature Store: Lake Formation para el control de acceso a los datos, soporte para Iceberg para una mejor escalabilidad y

AWS aceleró los pipelines de ML en SageMaker Feature Store con tres nuevas capacidades
Fuente: AWS Machine Learning Blog. Collage: Hamidun News.
◐ Escuchar artículo

AWS anunció tres nuevas capacidades en SageMaker Feature Store, disponibles en Python SDK v3.8.0. La actualización tiene como objetivo acelerar y simplificar la creación de pipelines de ML, especialmente para equipos que gestionan grandes volúmenes de features.

Por Qué Importa Esto

SageMaker Feature Store es un servicio especializado para gestionar features de ML. Es un repositorio del que los modelos extraen datos para entrenamiento e inferencia. A primera vista, podría parecer que simplemente puede almacenar datos en S3, pero no es así. Las features necesitan ser transformadas, versionadas y sincronizadas entre modelos. Debido a esto, los ingenieros de ML dedican el 60–80% de su tiempo a la preparación de datos. Un feature store apropiado permite la reutilización de datos, evita fugas de información entre conjuntos de entrenamiento y prueba, y permite la reversión rápida si los datos se corrompen.

AWS Feature Store ha sido utilizado por grandes empresas como Intuit y T-Mobile, pero la plataforma requería gestión manual del acceso y se volvía compleja a escala. Las tres nuevas capacidades resuelven estos problemas.

Qué Se Añadió en v3.8.0

La actualización incluye integración con AWS Lake Formation, compatibilidad con Apache Iceberg y optimización de pipelines:

  • Lake Formation governance — gestión de acceso a nivel de Feature Store. Ahora puede especificar qué miembros del equipo ven qué features, sin copia manual de datos ni particionamiento
  • Compatibilidad con Apache Iceberg — formato de tabla abierto con versionamiento integrado. Se escala mejor a petabytes, más fácil revertir datos erróneos, sin necesidad de reescribir la tabla completa al cambiar el esquema
  • Optimizaciones de pipeline — carga más rápida de features, paralelismo de operaciones, reducción de latencia de inferencia

En la Práctica

Un escenario típico: tiene 50 modelos en producción, cada uno necesitando features — edad del cliente, historial de compras, importe de la última transacción. En tiempos antiguos, cada modelo preparaba sus propios datos, lo que llevaba a bugs y duplicación. Con Feature Store, el equipo define features una sola vez en un lugar central.

Luego todos los modelos extraen datos desde allí y se garantiza que ven lo mismo. Si un ingeniero comete un error y carga datos incorrectos, puede revertir en un comando. Lake Formation ayuda a aplicar automáticamente políticas corporativas.

Por ejemplo: los equipos de finanzas ven todas las features, marketing ve solo las anonimizadas. Iceberg hace la reversión rápida — no es necesario descargar y reescribir gigabytes.

"Gestionar datos en ML es gestionar confianza.

Los modelos que reciben datos malos hacen predicciones malas", dicen los ingenieros de AWS.

Qué Significa Esto

Las plataformas de ML en la nube se están volviendo cada vez más maduras. AWS se está moviendo de "aquí hay compute y red" a almacenamiento de datos gestionado con versionamiento, acceso y políticas. Para las empresas, esto significa que las inversiones en infraestructura en la nube se amortizan no solo mediante la reducción de costos de servidores, sino a través de la velocidad de desarrollo. Los ingenieros de ML dedican menos tiempo a escribir código de transformación de datos y más tiempo a trabajar en modelos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…