Comment fonctionne le choix des tokens dans les réseaux de neurones : logits, température et top-p
Le réseau de neurones sélectionne le mot suivant via des logits et une softmax. La température contrôle le caractère aléatoire : une valeur basse donne des…
Traité par IA depuis Machine Learning Mastery ; édité par Hamidun News
Lorsqu'un modèle de langage génère du texte, il fait face à une tâche fondamentale : sélectionner le mot suivant parmi des milliers de candidats. Ce choix n'est pas aléatoire, mais régi par des mécanismes probabilistes. Comprendre les logits, la température et le top-p est la clé pour contrôler le comportement des LLM.
Qu'est-ce que les logits et la softmax
Le réseau de neurones calcule pour chaque token possible une évaluation numérique — un logit. C'est le signal brut de la dernière couche du réseau. Le mot « créativité » peut obtenir un logit de 5,2, tandis que « téléphone » peut obtenir 2,1. La fonction softmax transforme ces nombres en probabilités (de 0 à 1) qui totalisent 1.
Imaginez : le modèle traite « apprentissage automatique c'est ». Il calcule les logits pour tous les mots du vocabulaire. Après softmax, nous obtenons une distribution : « science » = 35 %, « art » = 8 %, « pingouin » = 0,001 %. Le modèle sélectionne aléatoirement à partir de cette distribution — il choisit plus souvent les variantes probables et rarement les variantes improbables.
La température — un régulateur de comportement
La température est un multiplicateur pour les logits avant softmax. Les mathématiques sont simples, mais l'effet est puissant :
- T < 1 (par exemple, 0,3) — place le modèle du côté « glacial ». La distribution devient plus nette, les variantes improbables obtiennent des probabilités négligeables. Le modèle fait des choix presque déterministes, les réponses sont prévisibles et précises. Idéal pour le code, les faits, les instructions.
- T = 1 — comportement standard, les logits sont utilisés tels quels
- T > 1 (par exemple, 1,5–2,0) — place le modèle du côté « brûlant ». La distribution devient plus uniforme, les variantes improbables ont une chance. Le modèle fait des choix plus aléatoires. Idéal pour l'écriture créative, mais risque de générer des erreurs ou des hallucinations. Une température élevée rend le modèle aventurier, une température basse le rend conservateur.
Top-P — un échantillonnage intelligent
Le top-p (nucleus sampling) résout un problème : comment empêcher le modèle de dire des bêtises complètes tout en lui laissant de la liberté ? L'algorithme trie les tokens par probabilité et prend autant de tokens du top jusqu'à ce que leur probabilité cumulée atteigne p (généralement 0,9).
Exemple : si top-p = 0,9 et la distribution est comme suit :
- « science » = 40 %
- « chemin » = 30 %
- « connaissance » = 15 %
- « liberté » = 10 %
- « pingouin » = 5 %
Le modèle prendra les quatre premiers variants (40+30+15+10=95 %) et rejetera le « pingouin ». Le top-p est dynamique : dans un contexte, il peut sélectionner 5 variantes, dans un autre — 200.
Ce que cela signifie
Ces trois paramètres ne sont pas de la magie, mais des outils de contrôle. Le développeur choisit la température et le top-p en fonction de la tâche : la génération de code nécessite une température basse (la fiabilité est plus importante que la créativité), tandis que l'écriture d'une histoire nécessite une température élevée (pour la diversité). Comprendre ces mécanismes transforme le travail avec les LLM d'une boîte noire en une tâche d'ingénierie.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.