Entraînement

Apprentissage Auto-Supervisé

L'apprentissage auto-supervisé est un paradigme d'entraînement dans lequel un modèle génère son propre signal de supervision à partir de données non étiquetées en résolvant des tâches de prétexte, éliminant le besoin d'annotations humaines coûteuses.

L'apprentissage auto-supervisé (SSL) est une approche d'apprentissage automatique dans laquelle un modèle est entraîné à prédire des parties de sa propre entrée — ou des relations entre les entrées — sans nécessiter d'étiquettes fournies par l'humain. Le signal de supervision est dérivé automatiquement de la structure des données elles-mêmes, ce qui rend possible l'exploitation de vastes quantités de données brutes non annotées.

En pratique, le SSL fonctionne en définissant une tâche de prétexte : un objectif de substitution dont la réponse peut être dérivée des données brutes. Les variantes courantes incluent la modélisation du langage masqué (masquage de tokens et prédiction de ceux-ci, comme dans BERT), la prédiction du token suivant (comme dans les modèles de la série GPT) et l'apprentissage contrastif (rapprochement de représentations de vues augmentées du même échantillon tout en éloignant les représentations d'échantillons différents, comme dans SimCLR et CLIP). Les vision transformers comme DINO et les Autoencodeurs Masqués (MAE) appliquent des stratégies de masquage analogues aux patchs d'image.

L'approche est centrale à l'IA moderne car elle permet l'entraînement sur des corpus à l'échelle d'Internet de texte, d'images, d'audio et de vidéo — des données qui dépassent largement ce qui peut être annoté manuellement. Les représentations apprises par le SSL se généralisent à de nombreuses tâches en aval avec une supervision minimale, c'est pourquoi le SSL sert de fondation pour la plupart des grands modèles fondamentaux.

Depuis 2026, l'apprentissage auto-supervisé sous-tend pratiquement tous les grands modèles de langage et les modèles vision-langage majeurs. GPT-4 d'OpenAI, la série Llama de Meta, Gemini de Google DeepMind et Claude d'Anthropic s'appuient tous sur la prédiction du token suivant comme objectif SSL principal. Les modèles audio basés sur le SSL, tels que wav2vec 2.0 et HuBERT de Meta, sont devenus de même un standard pour l'apprentissage de représentations vocales, pré-entraînant sur des milliers d'heures d'audio non étiqueté.

Exemple

BERT, lancé par Google en 2018, a été pré-entraîné sur environ 3,3 milliards de mots en utilisant la modélisation du langage masqué — masquage aléatoire de 15 % des tokens d'entrée et prédiction de ceux-ci — puis fine-tuné sur des ensembles de données étiquetées pour la réponse aux questions et la classification de texte, réalisant des résultats de pointe avec beaucoup moins d'exemples étiquetés que les modèles précédents spécifiques aux tâches ne l'exigeaient.

Termes liés

Pré-entraînement Apprentissage non supervisé Large Language Model (LLM)

← Glossaire