AWS Machine Learning Blog→ оригинал

AWS ускорил ML-пайплайны в SageMaker Feature Store тремя новыми возможностями

AWS представила три улучшения SageMaker Feature Store: Lake Formation для контроля доступа к данным, поддержку Iceberg для лучшей масштабируемости и оптимизацию

AWS ускорил ML-пайплайны в SageMaker Feature Store тремя новыми возможностями
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

AWS объявила о трёх новых возможностях в SageMaker Feature Store, доступных в Python SDK v3.8.0. Обновление нацелено на ускорение и упрощение создания ML-пайплайнов, особенно для команд, которые управляют большими объёмами признаков.

Почему это важно SageMaker Feature Store — специализированный сервис для управления ML-признаками.

Это хранилище, откуда модели берут данные для обучения и инференса. На первый взгляд может показаться, что можно просто хранить данные в S3, но это не так. Признаки нужно трансформировать, версионировать и синхронизировать между моделями. Из-за этого на подготовку данных тратится 60–80% времени ML-инженеров. Правильное хранилище признаков позволяет переиспользовать данные, избежать утечек информации между train и test наборами, и быстро откатиться, если данные испорчены. Feature Store AWS использовали крупные компании вроде Intuit и T-Mobile, но платформа требовала ручного управления доступом и усложнялась при масштабировании. Три новых возможности решают эти боли.

Что добавилось в v3.8.0

Обновление включает интеграцию с AWS Lake Formation, поддержку Apache Iceberg и оптимизацию пайплайнов: Lake Formation governance — управление доступом на уровне Feature Store. Теперь можно задать, кто из команды видит какие признаки, без ручного копирования или разделения данных Apache Iceberg support — открытый формат таблиц с встроенным версионированием. Лучше масштабируется на петабайты, проще откатывать ошибочные данные, нет нужды переписывать всю таблицу для изменения схемы * Pipeline optimizations — более быстрая загрузка признаков, параллелизм операций, снижение задержки инференса ## На практике Типичный сценарий: у вас 50 моделей в production, и каждой нужны признаки — возраст клиента, его история покупок, сумма последней транзакции.

В старые времена каждая модель готовила данные сама, что приводило к багам и дублированию. С Feature Store команда определяет признаки один раз в центральном месте. Потом все модели берут данные отсюда и гарантированно видят одно и то же.

Если инженер ошибся и загрузил плохие данные, можно откатиться на одну команду. Lake Formation помогает автоматически применять корпоративные политики. Например: финансовые группы видят все признаки, маркетинг видит только анонимизированные.

Iceberg делает откат быстрым — не нужно скачивать и переписывать гигабайты.

«Управление данными в ML — это управление доверием.

Модели, которым дают плохие данные, делают плохие предсказания», — говорят инженеры в AWS.

Что это значит Облачные ML-платформы становятся всё более взрослыми.

AWS движется от «вот вам compute и сеть» к управляемому хранилищу данных с версионированием, доступом и политиками. Для компаний это означает, что вложения в облачную инфраструктуру окупаются не только через снижение затрат на серверы, но и через скорость разработки. ML-инженеры меньше времени пишут код для трансформации данных, больше работают над моделями.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…