Apprentissage non supervisé
L'apprentissage non supervisé est un paradigme d'apprentissage automatique dans lequel les modèles trouvent des motifs, des structures ou des représentations compactes dans les données sans exemples étiquetés, en utilisant des techniques telles que le clustering, la réduction de dimensionnalité et la modélisation générative.
L'apprentissage non supervisé est un paradigme d'apprentissage automatique dans lequel les modèles sont entraînés sur des données sans étiquettes avec pour objectif de découvrir une structure inhérente, des régularités statistiques ou des représentations utiles sans catégories de sortie prédéfinies. L'absence d'étiquettes supprime la contrainte de correspondance avec les classes définies par l'humain, permettant au modèle d'organiser l'information selon la géométrie et la densité des données elles-mêmes.
Les familles de techniques principales incluent : les algorithmes de clustering (k-means, DBSCAN, clustering hiérarchique agglomératif), qui partitionnent les points de données en groupes basés sur des métriques de similarité ; les méthodes de réduction de dimensionnalité (Analyse en Composantes Principales, t-SNE, UMAP), qui produisent des représentations de plus faible dimensionnalité préservant les relations géométriques pour la visualisation ou la modélisation en aval ; les modèles génératifs (Autoencodeurs Variationnels, Réseaux Antagonistes Génératifs, modèles de Diffusion), qui apprennent la distribution des données sous-jacentes et génèrent de nouveaux échantillons à partir de celle-ci ; et les autoencodeurs, qui apprennent des représentations latentes comprimées en entraînant un réseau à reconstruire son entrée à travers un goulot d'étranglement. L'apprentissage auto-supervisé — où les signaux de supervision sont dérivés directement de la structure des données, tels que la prédiction de tokens masqués ou la prédiction du token suivant — est un paradigme étroitement lié qui a dominé le pré-entraînement à grande échelle depuis 2018.
L'apprentissage non supervisé est le plus précieux lorsque les données étiquetées sont rares, coûteuses ou n'existent pas. Il est utilisé dans la segmentation des clients, la détection d'anomalies en sécurité réseau (où les exemples d'attaques étiquetés sont rares par définition), le clustering de séquences biologiques et l'apprentissage de représentations. Word2Vec (Mikolov et al., 2013) et les plongements de mots GloVe, entraînés en prédisant les contextes de mots environnants, sont des exemples canoniques de représentations non supervisées qui ont considérablement amélioré les performances des tâches NLP en aval. À mesure que le pré-entraînement des modèles fondamentaux s'est développé, l'apprentissage auto-supervisé sur des corpus non étiquetés est devenu le mécanisme principal pour encoder les connaissances du monde dans les modèles avant le fine-tuning spécifique à la tâche.
Depuis 2026, l'apprentissage non supervisé et auto-supervisé sous-tendent le pré-entraînement de pratiquement tous les grands modèles fondamentaux : GPT-4, Llama 3, Gemini 2.0 et la série Claude 3 sont tous pré-entraînés sur du texte massivement non étiqueté en utilisant la prédiction du token suivant. En vision, les méthodes d'apprentissage auto-supervisé contrastif telles que CLIP (OpenAI, 2021) et DINOv2 (Meta, 2023) produisent de puissants encodeurs d'images polyvalents sans images étiquetées par l'humain. Les directions de recherche incluent des protocoles d'évaluation meilleure pour les représentations non supervisées, l'extension de ces méthodes aux données multimodales et scientifiques, et la compréhension des connaissances structurelles que les modèles acquièrent en l'absence d'objectifs explicites.