Inférence

Perplexité

La perplexité est une métrique d'évaluation de modèle de langage définie comme la moyenne exponentielle de la log-vraisemblance négative par token sur un corpus de texte ; une perplexité plus faible signifie que le modèle assigne une probabilité plus élevée à la séquence de tokens observée et est considérée comme un meilleur ajustement.

La perplexité (PP) est la métrique intrinsèque standard pour évaluer la qualité avec laquelle un modèle de langage prédit un corpus de texte retenu. Elle est définie comme PP = exp(−(1/N) × Σ log P(wᵢ | w₁, …, wᵢ₋₁)), où N est le nombre de tokens dans l'ensemble d'évaluation et P est la probabilité que le modèle assigne à chaque token étant donné son contexte gauche. Intuitivement, la perplexité représente le facteur de branchement moyen du modèle à chaque étape : une perplexité de 20 signifie que le modèle est, en moyenne, aussi incertain que s'il devait choisir uniformément parmi 20 options également probables.

Une perplexité plus faible indique un meilleur ajustement du modèle : le modèle assigne de manière cohérente une probabilité élevée aux tokens qui apparaissent réellement dans le corpus. Comme la perplexité est l'exponentiation de la perte d'entropie croisée moyenne — l'objectif d'entraînement standard — elle sert de complément d'évaluation naturel au signal d'entraînement. Elle est généralement calculée sur des benchmarks d'évaluation normalisés et retenus tels que Penn Treebank, WikiText-103, ou des sous-ensembles de The Pile. Un caveat important est la sensibilité à la tokenization : les valeurs de perplexité ne sont directement comparables entre modèles que s'ils utilisent le même tokenizer ; les métriques bits-par-caractère ou bits-par-octet sont utilisées lors de la comparaison entre schémas de tokenization différents.

La perplexité est importante parce qu'elle fournit une mesure de la qualité du modèle rapide, reproductible et théoriquement fondée sans nécessiter une évaluation humaine coûteuse. Elle corrèle raisonnablement bien avec la performance sur les tâches aval sur de nombreux benchmarks de compréhension du langage, ce qui la rend utile pour les études d'ablation, les comparaisons d'architecture et la sélection de points de contrôle d'entraînement. Cependant, la perplexité a des limites connues : elle ne capture pas la précision factuelle, la capacité de raisonnement ou la cohérence sémantique. Un modèle peut atteindre une faible perplexité tout en générant des hallucinations factuelles ou produisant un texte grammaticalement fluide mais logiquement invalide. Elle est donc utilisée aux côtés de benchmarks spécifiques à la tâche tels que MMLU et HumanEval, et des évaluations de préférences humaines, plutôt que comme seul indicateur de qualité.

La trajectoire des scores de perplexité sur deux décennies de recherche est spectaculaire. Les modèles de langage n-gram de l'ère pré-apprentissage profond ont obtenu un score supérieur à 100 sur la perplexité au niveau des mots de Penn Treebank ; les modèles basés sur LSTM ont réduit cela à environ 60–80 au milieu des années 2010, avec l'AWD-LSTM atteignant environ 58 en 2017 ; les modèles basés sur transformers et leurs successeurs ont poussé la métrique vers la dizaine sur le même benchmark. La perplexité joue également des rôles pratiques dans les pipelines de données : filtrer les corpus d'entraînement par perplexité sous un modèle de référence supprime les textes de mauvaise qualité ou hors distribution, et la recherche sur le marquage basé sur la perplexité exploite les propriétés statistiques des distributions de probabilité de tokens pour distinguer les textes générés par l'IA des textes écrits par des humains.

Exemple

Une équipe de recherche entraîne trois architectures transformer sur des données identiques et sélectionne celle avec la perplexité la plus faible sur un ensemble de validation WikiText-103 retenu avant de s'engager dans une exécution d'entraînement à grande échelle, économisant ainsi des ressources de calcul significatives.

Termes liés

Fonction de Perte Benchmark Large Language Model (LLM)

Dernières actualités sur le sujet

BorisovAI a testé MoE sur une RTX 4090 et a montré pourquoi la perplexité fausse l’évaluation des LLM2026-04-30

← Glossaire