Entraînement

Apprentissage par Transfert

L'apprentissage par transfert est une technique dans laquelle un modèle pré-entraîné sur un grand ensemble de données ou une tâche est adapté à une tâche différente mais connexe, réduisant considérablement le besoin de données étiquetées et de puissance de calcul d'entraînement.

L'apprentissage par transfert désigne la pratique d'initialiser les poids d'un modèle à partir d'un point de contrôle obtenu par l'entraînement sur un domaine source ou une tâche, puis de continuer à entraîner sur une tâche cible qui est généralement plus petite en échelle. L'hypothèse principale est que les caractéristiques et les représentations apprises pour le problème source comportent des biais inductifs utiles pour le problème cible, même lorsque les deux tâches diffèrent considérablement dans le domaine ou l'objectif.

Le processus implique généralement deux étapes. Premièrement, un modèle est pré-entraîné sur un large ensemble de données polyvalent — des milliards de pages Web pour les modèles de langage ou des dizaines de millions d'images étiquetées pour les modèles de vision. Deuxièmement, le modèle pré-entraîné est fine-tuné sur l'ensemble de données cible. Selon la similarité des tâches et les données disponibles, les praticiens peuvent fine-tuner toutes les couches, geler les couches précoces et n'entraîner que celles ultérieures, ou attacher une petite tête spécifique à la tâche au-dessus de représentations gelées. Les CNN pré-entraînés sur ImageNet sont devenus le point de départ canonique pour la vision par ordinateur tout au long des années 2010 ; en NLP, BERT (2018) a établi le même modèle pour la compréhension du langage.

L'apprentissage par transfert réduit considérablement le coût du déploiement de l'IA dans les domaines disposant de données étiquetées limitées. Une équipe biomédicale manquant de millions de notes cliniques annotées peut fine-tuner un modèle de langage pré-entraîné tel que BioBERT ou Med-PaLM sur quelques milliers d'exemples et atteindre une performance qui nécessiterait autrement beaucoup plus de données et de puissance de calcul. L'approche réduit également l'empreinte énergétique du développement de l'IA en amortissant le coût des grands cycles de pré-entraînement sur de nombreuses applications en aval.

En 2026, l'apprentissage par transfert est le paradigme par défaut pour pratiquement tout le NLP appliqué, la vision par ordinateur et l'IA multimodale. Le flux de travail dominant commence à partir d'un point de contrôle de modèle fondamental publiquement diffusé ou propriétaire et l'adapte via un fine-tuning complet, un tuning d'invite ou des méthodes efficaces en paramètres telles que LoRA. L'entraînement à partir d'une initialisation aléatoire sur une tâche spécifique est désormais rare en dehors de la recherche sur les architectures entièrement nouvelles ou les objectifs fondamentaux.

Exemple

Une startup legal-tech télécharge un point de contrôle Llama 3 pré-entraîné et le fine-tune sur 10 000 clauses contractuelles annotées ; après quelques heures d'entraînement sur deux GPU, le modèle résultant identifie les conditions de responsabilité non standard avec une précision qui nécessiterait des ensembles de données étiquetés beaucoup plus importants s'il était entraîné à partir de zéro.

Termes liés

← Glossaire