Inférence

Token

Un token est l'unité de base du texte qu'un modèle de langage traite, généralement un mot, un fragment de sous-mot ou un signe de ponctuation. Dans la prose anglaise courante, un mot correspond à environ 1,3 tokens selon les vocabulaires de sous-mots largement utilisés.

Un token est l'unité atomique en laquelle le texte est décomposé avant d'être introduit dans un modèle de langage. La plupart des modèles modernes utilisent la tokenization de sous-mots, divisent le texte ni au niveau des caractères ni strictement aux limites des mots, mais en segments qui équilibrent la taille du vocabulaire et la longueur de la séquence. Les algorithmes les plus courants sont le Byte-Pair Encoding (BPE, utilisé par la famille GPT), WordPiece (utilisé par BERT et ses dérivés) et SentencePiece (utilisé par LLaMA, T5 et de nombreux modèles multilingues). Les vocabulaires contiennent généralement 32 000 à 200 000 types de tokens ; le tokenizer cl100k_base de GPT-4 contient approximativement 100 000.

En pratique, les mots anglais très fréquents comme « the » ou « model » sont généralement des tokens uniques, tandis que les mots rares, les termes techniques et la plupart des textes non anglais se divisent en plusieurs tokens. Le code et les URL se tokenisent également moins efficacement que la prose. Le tokenizer est entraîné séparément du modèle sur un grand corpus représentatif, et son vocabulaire est fixé avant le début de l'entraînement du modèle. Au moment de l'inférence, le texte brut est d'abord converti en une séquence d'ID de tokens entiers, qui sont utilisés pour rechercher des vecteurs d'imbrication dense que les couches du modèle traitent.

Les tokens sont importants pour trois raisons pratiques. Premièrement, les fenêtres de contexte — la séquence maximale qu'un modèle peut traiter à la fois — sont mesurées en tokens ; en 2025, les modèles de pointe allaient de 128 000 tokens (GPT-4o) à 200 000 (Claude 3.5 Sonnet) à plus d'un million (Gemini 1.5 Pro), avec une expansion continue en cours. Deuxièmement, les API d'inférence cloud facturent par token consommé et généré, ce qui fait de l'efficacité des tokens un facteur de coût direct. Troisièmement, l'attention des transformers standards augmente au carré avec la longueur de la séquence en tokens, rendant les contextes plus longs coûteux en calcul et motivant la recherche sur les variantes d'attention linéaire et clairsemée.

En 2026, l'abstraction des tokens s'est étendue au-delà du texte aux modèles multimodaux. Les images sont généralement codées comme un nombre fixe de tokens visuels (généralement 256 à 1 024 par image) concaténés avec des tokens de texte avant le traitement par un transformateur unifié. Les entrées audio et vidéo suivent des pipelines analogues de quantification-puis-tokenization, faisant du token la monnaie universelle dans les architectures d'IA multimodales.

Exemple

Un contrat juridique de 10 pages soumis à un assistant IA pourrait contenir environ 5 000 tokens ; à un tarif API typique de quelques dollars par million de tokens d'entrée, le traitement de ce document coûte environ quelques centimes en frais d'inférence.

Termes liés

Dernières actualités sur le sujet

← Glossaire