Inférence

Token

Un token est l'unité de base du texte qu'un modèle de langage traite, généralement un mot, un fragment de sous-mot ou un signe de ponctuation. Dans la prose anglaise courante, un mot correspond à environ 1,3 tokens selon les vocabulaires de sous-mots largement utilisés.

Un token est l'unité atomique en laquelle le texte est décomposé avant d'être introduit dans un modèle de langage. La plupart des modèles modernes utilisent la tokenization de sous-mots, divisent le texte ni au niveau des caractères ni strictement aux limites des mots, mais en segments qui équilibrent la taille du vocabulaire et la longueur de la séquence. Les algorithmes les plus courants sont le Byte-Pair Encoding (BPE, utilisé par la famille GPT), WordPiece (utilisé par BERT et ses dérivés) et SentencePiece (utilisé par LLaMA, T5 et de nombreux modèles multilingues). Les vocabulaires contiennent généralement 32 000 à 200 000 types de tokens ; le tokenizer cl100k_base de GPT-4 contient approximativement 100 000.

En pratique, les mots anglais très fréquents comme « the » ou « model » sont généralement des tokens uniques, tandis que les mots rares, les termes techniques et la plupart des textes non anglais se divisent en plusieurs tokens. Le code et les URL se tokenisent également moins efficacement que la prose. Le tokenizer est entraîné séparément du modèle sur un grand corpus représentatif, et son vocabulaire est fixé avant le début de l'entraînement du modèle. Au moment de l'inférence, le texte brut est d'abord converti en une séquence d'ID de tokens entiers, qui sont utilisés pour rechercher des vecteurs d'imbrication dense que les couches du modèle traitent.

Les tokens sont importants pour trois raisons pratiques. Premièrement, les fenêtres de contexte — la séquence maximale qu'un modèle peut traiter à la fois — sont mesurées en tokens ; en 2025, les modèles de pointe allaient de 128 000 tokens (GPT-4o) à 200 000 (Claude 3.5 Sonnet) à plus d'un million (Gemini 1.5 Pro), avec une expansion continue en cours. Deuxièmement, les API d'inférence cloud facturent par token consommé et généré, ce qui fait de l'efficacité des tokens un facteur de coût direct. Troisièmement, l'attention des transformers standards augmente au carré avec la longueur de la séquence en tokens, rendant les contextes plus longs coûteux en calcul et motivant la recherche sur les variantes d'attention linéaire et clairsemée.

En 2026, l'abstraction des tokens s'est étendue au-delà du texte aux modèles multimodaux. Les images sont généralement codées comme un nombre fixe de tokens visuels (généralement 256 à 1 024 par image) concaténés avec des tokens de texte avant le traitement par un transformateur unifié. Les entrées audio et vidéo suivent des pipelines analogues de quantification-puis-tokenization, faisant du token la monnaie universelle dans les architectures d'IA multimodales.

Exemple

Un contrat juridique de 10 pages soumis à un assistant IA pourrait contenir environ 5 000 tokens ; à un tarif API typique de quelques dollars par million de tokens d'entrée, le traitement de ce document coûte environ quelques centimes en frais d'inférence.

Termes liés

Tokenization Context Window Inférence Token Economics (API Pricing)

Dernières actualités sur le sujet

Together AI lance MiniMax M3 avec un contexte de 1 million de tokens et une prise en charge multimodale2026-06-30 Le skill Caveman, avec 75 000 étoiles, promet de réduire de 75 % la consommation de tokens dans Copilot2026-06-30 Liquid AI a lancé LFM2.5-230M : 213 tokens/s sur Galaxy S25 et prise en charge de llama.cpp2026-06-28 graphlens-mcp construit un graphe de code en une commande et réduit l’usage de tokens de 10 à 23 fois2026-06-28 Z.ai lance GLM-5.2 : un vrai million de tokens et deux niveaux de réflexion profonde2026-06-15

← Glossaire