Databricks et AWS SageMaker : pipeline de fine-tuning sécurisé pour les LLM
AWS et Databricks ont publié une approche de fine-tuning des LLM via l'intégration de Unity Catalog et SageMaker AI. Le workflow comprend un accès sécurisé à de

AWS et Databricks ont démontré comment construire un pipeline de fine-tuning LLM qui aborde simultanément deux défis : maintenir le contrôle sur les données et les modèles via un catalogue centralisé sans perdre en fonctionnalité et en vitesse de développement.
Architecture du workflow
La solution intègre trois composants. Databricks Unity Catalog gère la gouvernance et l'accès — une seule table définit qui peut accéder à quelles données. Amazon EMR Serverless prépare les données pour l'entraînement, tandis que SageMaker AI exécute le fine-tuning du modèle lui-même. Après l'entraînement, les artefacts (poids du modèle, métriques) sont enregistrés à nouveau dans Unity Catalog. Cette approche permet aux équipes de data engineers, ML engineers et data scientists de travailler dans un espace unifié sans avoir besoin de copier les données entre les services ou de configurer des couches d'accès séparées pour chaque outil.
Étapes clés
- Gouvernance à l'entrée : Unity Catalog définit les politiques d'accès aux données source — quelles tables sont visibles, quels champs sont masqués
- Prétraitement : EMR Serverless transforme les données brutes en un format adapté à l'entraînement LLM
- Fine-tuning : SageMaker AI ajuste Ministral-3-3B-Instruct (modèle de Mistral) en utilisant les données préparées
- Suivi de lignage : Toute la chaîne allant des tables source au modèle final reste traçable — pour l'audit et la conformité
- Enregistrement des artefacts : Le modèle entraîné et les métriques sont renvoyés à Unity Catalog en tant qu'actifs gérés
Pourquoi c'est nécessaire maintenant
De nombreuses organisations font face à l'un de ces deux scénarios. Soit les données et les modèles sont dispersés dans différents services sans visibilité — qui utilise quoi, d'où viennent les données, qui les a modifiées. Soit les entreprises tentent d'imposer l'ordre par le biais de systèmes personnalisés de surveillance et d'accès, mais cela nécessite des mois de développement et de maintenance.
«
Au lieu de construire la gouvernance à partir de zéro, nous vous offrons une intégration prête à l'emploi, où tous les composants parlent déjà le même langage »
La solution AWS et Databricks élimine ce choix. La gouvernance et la lignée sont intégrées dans l'architecture dès le départ, et non ajoutées par-dessus.
Ce que cela signifie
Pour les grandes organisations et les institutions financières, cela signifie que le fine-tuning LLM peut désormais être déployé sans risque de perdre le contrôle sur les données. Pour les équipes d'ingénierie — il n'est pas nécessaire d'écrire des systèmes de suivi personnalisés. L'intégration comble le fossé entre les exigences de sécurité et la vitesse de développement ML.