Databricks y AWS SageMaker: pipeline para fine-tuning seguro de LLM
AWS y Databricks publicaron un enfoque para el fine-tuning de LLM mediante la integración de Unity Catalog y SageMaker AI. El flujo de trabajo incluye acceso se

AWS y Databricks demostraron cómo construir un pipeline de fine-tuning LLM que aborda simultáneamente dos desafíos: mantener el control sobre datos y modelos a través de un catálogo centralizado sin perder funcionalidad y velocidad de desarrollo.
Arquitectura del workflow
La solución integra tres componentes. Databricks Unity Catalog se encarga de la gobernanza y el acceso — una única tabla define quién puede acceder a qué datos. Amazon EMR Serverless prepara los datos para el entrenamiento, mientras que SageMaker AI ejecuta el fine-tuning del modelo en sí. Después del entrenamiento, los artefactos (pesos del modelo, métricas) se registran nuevamente en Unity Catalog. Este enfoque permite que equipos de data engineers, ML engineers y data scientists trabajen en un espacio unificado sin necesidad de copiar datos entre servicios o configurar capas de acceso separadas para cada herramienta.
Etapas clave
- Gobernanza a la entrada: Unity Catalog define políticas de acceso para los datos de origen — qué tablas son visibles, qué campos están enmascarados
- Preprocesamiento: EMR Serverless transforma datos sin procesar en un formato adecuado para el entrenamiento de LLM
- Fine-tuning: SageMaker AI ajusta Ministral-3-3B-Instruct (modelo de Mistral) utilizando los datos preparados
- Rastreo de linaje: Toda la cadena desde las tablas de origen hasta el modelo final permanece rastreable — para auditoría y cumplimiento
- Registro de artefactos: El modelo entrenado y las métricas se devuelven a Unity Catalog como activos gestionados
Por qué es necesario ahora
Muchas organizaciones enfrentan uno de dos escenarios. O los datos y modelos están dispersos en diferentes servicios sin visibilidad — quién usa qué, de dónde provienen los datos, quién los cambió. O las empresas intentan imponer orden a través de sistemas personalizados de monitoreo y acceso, pero esto requiere meses de desarrollo y mantenimiento.
"En lugar de construir la gobernanza desde cero, le proporcionamos una
integración lista para usar, donde todos los componentes ya hablan el mismo idioma"
La solución de AWS y Databricks elimina esta opción. La gobernanza y el linaje se integran en la arquitectura desde el principio, no se añaden posteriormente.
Qué significa esto
Para grandes organizaciones e instituciones financieras, significa que ahora el fine-tuning de LLM se puede implementar sin riesgo de perder el control sobre los datos. Para equipos de ingeniería — no es necesario escribir sistemas de rastreo personalizados. La integración cierra la brecha entre requisitos de seguridad y velocidad de desarrollo de ML.