Entraînement

Instruction tuning

L'instruction tuning est une technique de fine-tuning supervisé qui adapte un modèle de langage pré-entraîné sur des paires instruction-réponse, lui apprenant à suivre des directives en langage naturel plutôt que simplement de prédire le prochain token.

L'instruction tuning est une technique de fine-tuning supervisé appliquée après le pré-entraînement pour adapter un modèle de langage afin qu'il suive de manière fiable les instructions en langage naturel et produise des réponses appropriées aux demandes de l'utilisateur, plutôt que de simplement étendre le texte d'entrée de manière statistiquement plausible.

Un jeu de données de paires (instruction, réponse) est assemblé — soit écrit à la main par des annotateurs, soit collecté à partir des interactions utilisateur réelles, soit généré synthétiquement par un autre modèle — et le modèle pré-entraîné est affiné sur ces données en utilisant la descente de gradient standard. Les jeux de données d'instructions varient largement en portée et en méthode : FLAN (Google, 2021) a reformulé les benchmarks NLP existants comme des instructions en langage naturel ; InstructGPT (OpenAI, 2022) a utilisé des démonstrations écrites par des humains suivies de RLHF ; les jeux de données ultérieurs comme Alpaca, ShareGPT et Open-Platypus ont tiré parti de conversations générées par modèle ou crowdsourcées couvrant des milliers de types de tâches. Le fine-tuning sur un mélange diversifié de formats d'instruction améliore considérablement la généralisation à des instructions non vues.

Sans instruction tuning, les modèles de langage pré-entraînés tendent à compléter les prompts plutôt que de répondre aux questions, produisent un formatage incohérent, ignorent les limites des tâches et échouent à maintenir le contexte conversationnel. L'instruction tuning transforme un modèle de langage brut en un assistant pratique capable de résumer des documents, de répondre à des questions, d'écrire du code et d'adapter le style de sortie — le rendant utilisable par des personnes qui ne sont pas des ingénieurs en apprentissage machine.

L'instruction tuning est désormais une étape universelle dans le déploiement des modèles fermés et open-weights. Les techniques ont mûri pour inclure des données de dialogue multi-tour, le conditionnement de prompts système et les démonstrations d'utilisation d'outils qui enseignent aux modèles d'appeler des API externes ou d'exécuter du code. Les méthodes efficaces en paramètres comme l'adaptation de rang faible (LoRA) permettent l'instruction tuning avec du matériel grand public en heures plutôt qu'en jours. En 2026, les variantes avec instruction tuning — LLaMA 3 Instruct, Qwen 2.5 Instruct, Mistral Instruct — sont les versions par défaut des familles open-weights majeures, les modèles de base servant principalement de points de départ pour la personnalisation ultérieure.

Exemple

Une équipe affine un modèle de base LLaMA 3 sur 50 000 paires instruction-réponse d'assistance client sur une seule journée en utilisant LoRA ; le modèle résultant répond de manière fiable aux questions sur les produits dans le ton et le format requis par la compagnie au lieu de générer des continuations de texte sans direction.

Termes liés

Fine-tuning Apprentissage par renforcement à partir de retours humains (RLHF)Alignement de l'IA

← Glossaire