AWS Machine Learning Blog→ оригинал

Databricks и AWS SageMaker: конвейер для безопасного fine-tuning LLM

AWS и Databricks опубликовали подход к fine-tuning LLM через интеграцию Unity Catalog и SageMaker AI. Workflow включает безопасный доступ к governed данным, pre

Databricks и AWS SageMaker: конвейер для безопасного fine-tuning LLM
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

AWS и Databricks показали, как построить конвейер тонкой настройки LLM, который одновременно решает две проблемы: сохранить контроль над данными и моделями через централизованный каталог, не теряя при этом функциональность и скорость разработки.

Архитектура workflow Решение интегрирует три компонента.

Databricks Unity Catalog отвечает за governance и доступ — одна таблица определяет, кто и какие данные может использовать. Amazon EMR Serverless готовит данные к обучению, а SageMaker AI выполняет саму настройку модели. После обучения артефакты (веса модели, метрики) регистрируются обратно в Unity Catalog. Такой подход позволяет команде из data engineers, ML engineers и data scientists работать в едином пространстве без необходимости копировать данные между сервисами или настраивать отдельные слои доступа для каждого инструмента.

Ключевые этапы * **Gouvernance на входе**:

Unity Catalog определяет политики доступа к исходным данным — какие таблицы видны, какие поля замаскированы Preprocessing: EMR Serverless трансформирует сырые данные в формат, пригодный для обучения LLM Fine-tuning: SageMaker AI настраивает Ministral-3-3B-Instruct (модель Mistral), используя подготовленные данные Lineage tracking: Вся цепочка от исходных таблиц до финальной модели остаётся прослеживаемой — для аудита и compliance Регистрация артефактов: Обученная модель и метрики возвращаются в Unity Catalog как управляемые ассеты ## Зачем это нужно сейчас Много компаний сталкиваются с одним из двух сценариев. Либо данные и модели разбросаны по разным сервисам без видимости — что кто использует, откуда берутся данные, кто их менял. Либо компании пытаются навести порядок через собственные системы мониторинга и доступа, но это требует месяцев разработки и поддержки.

«Вместо того чтобы строить governance с нуля, мы даём вам готовую интеграцию, где все компоненты уже говорят на одном языке»

Решение AWS и Databricks снимает этот выбор. Governance и lineage встроены в архитектуру с самого начала, а не добавлены сверху.

Что это значит

Для крупных организаций и финансовых учреждений это означает, что теперь можно внедрять fine-tuning LLM без риска потерять контроль над данными. Для инженерных команд — что не нужно писать собственные системы отслеживания. Интеграция закрывает гап между требованиями безопасности и скоростью разработки ML-систем.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…