Entraînement

Distillation de connaissance

La distillation de connaissance est une technique de compression dans laquelle un petit modèle étudiant est entraîné pour correspondre à la distribution de sortie d'un modèle enseignant plus grand, produisant un modèle compact qui conserve une grande partie de la précision du modèle enseignant.

La distillation de connaissance est une méthode de compression et d'entraînement de modèles dans laquelle un réseau étudiant plus petit et plus efficace est enseigné pour reproduire le comportement d'un réseau enseignant plus large et plus capable. Plutôt que d'entraîner l'étudiant uniquement sur des étiquettes binaires one-hot au niveau du sol, il apprend à correspondre à la distribution de sortie softmax complète de l'enseignant, qui encode des informations plus riches sur les relations inter-classes et l'incertitude apprise par l'enseignant.

La technique a été formalisée par Geoffrey Hinton, Oriol Vinyals et Jeff Dean dans un article de 2015 (NeurIPS 2015). Le mécanisme clé est la mise à l'échelle de la température : diviser les logits de sortie de l'enseignant par un paramètre de température T > 1 avant d'appliquer softmax produit des distributions de probabilité plus douces qui attribuent une masse de probabilité significative aux classes de quasi-miss. Ces cibles douces portent plus d'informations que les étiquettes one-hot—une image de chien recevant 2% de probabilité sous la classe chat transmet la similarité structurelle entre les deux catégories qu'une étiquette one-hot ne peut pas. La perte de l'étudiant est généralement une combinaison pondérée de l'entropie croisée par rapport aux cibles douces de l'enseignant et de l'entropie croisée standard par rapport aux étiquettes au niveau du sol. Les extensions telles que la distillation au niveau des caractéristiques et la distillation par transfert d'attention alignent également les activations des couches intermédiaires et les cartes d'attention entre l'enseignant et l'étudiant, améliorant davantage la qualité du transfert.

La distillation de connaissance est importante car les plus grands modèles ne sont pas pratiques pour les environnements sensibles à la latence ou les environnements aux ressources limitées—appareils mobiles, matériel embarqué et points finaux d'inférence cloud rentables. La distillation comble cet écart : un modèle étudiant d'une taille donnée surpasse systématiquement un modèle de même taille entraîné indépendamment, car les cibles douces fournissent un signal d'entraînement plus riche que les étiquettes seules. DistilBERT (Hugging Face, 2019) a démontré qu'un étudiant de 66M paramètres conserve environ 97% de la performance GLUE de BERT-base à 60% de la vitesse d'inférence avec 40% de paramètres en moins.

D'ici 2026, la distillation est appliquée à grande échelle en traitement du langage naturel, vision et parole. À l'époque des LLM, elle prend de nouvelles formes : DeepSeek a publié des variantes distillées de son modèle de raisonnement DeepSeek-R1 au début de 2025—allant de 1,5B à 70B paramètres et entraînées sur de longues traces de raisonnement générées par le modèle complet—atteignant des scores compétitifs sur les benchmarks mathématiques et de codage à une fraction du coût d'inférence. Les modèles Gemini Nano de Google, conçus pour l'inférence on-device sur les téléphones Pixel, ont été distillés à partir de points de contrôle Gemini plus grands. Les modèles on-device d'Apple déployés dans iOS 18 s'appuient de même sur la distillation pour comprimer les capacités du modèle de base dans les enveloppes d'énergie et de mémoire serrées du matériel mobile.

Exemple

Hugging Face a entraîné DistilBERT en distillant à partir du modèle BERT-base de 110M paramètres en utilisant des cibles douces avec une température de 4 ; l'étudiant résultant de 66M paramètres s'exécute 60% plus rapidement à l'inférence tout en obtenant environ 97% de la performance de BERT-base sur la suite de benchmarks GLUE.

Termes liés

← Glossaire