Pourquoi GPT se trompe en comptant les lettres : le secret de la tokenisation
Les LLM traitent le texte comme une séquence de tokens numériques, et non comme des lettres individuelles. Cela explique un paradoxe étrange : GPT peut facileme

Lorsque vous écrivez une invite dans ChatGPT, vous voyez du texte ordinaire composé de lettres. Mais le modèle voit quelque chose de complètement différent — une séquence de nombres appelés tokens. Cette discordance crée des effets étranges : GPT peut ne pas comprendre combien de lettres contient le mot strawberry, ou se tromper dans un simple décompte.
Comment les LLMs Voient le Texte
Pour les réseaux de neurones, le texte n'est pas un ensemble de lettres, mais une séquence de codes numériques. Chaque token correspond à un nombre, et le modèle ne fonctionne qu'avec des nombres, ne voyant jamais la lettre réelle. C'est comme si vous lisiez un livre à travers un système qui traduit d'abord les mots en codes, vous les traitez, puis les codes sont retraduits en texte.
Un mot fréquent peut être un seul token, tandis qu'un mot rare est divisé en plusieurs morceaux. Par exemple, « hello » est codifié en tant que nombre unique, tandis que « strawberry » pourrait être trois ou quatre nombres. En russe, la situation est encore plus complexe — en raison de la riche morphologie, les mots sont divisés de manière moins efficace.
Pourquoi Cela Crée des Problèmes
La discordance entre la façon dont les gens voient le texte et celle dont le modèle le voit entraîne toute une série de problèmes :
- Erreurs de comptage : GPT ne peut pas simplement compter les lettres car il fonctionne avec des nombres, pas des caractères
- Illisibilité des mots rares : les combinaisons rares de lettres sont divisées en plusieurs tokens, et le modèle les voit comme des morceaux séparés
- Asymétrie linguistique : l'anglais se divise en tokens de manière plus efficace que le russe, le chinois ou l'arabe
- Consommation de contexte : si un mot s'est divisé en 3 tokens au lieu de 1, votre invite occupe plus d'espace dans la fenêtre de contexte
- Comportement imprévisible : le modèle peut se comporter étrangement avec les nombres, les codes et les noms rares car ils sont divisés en fragments
L'Algorithme Derrière les Coulisses
Derrière la tokenisation se trouve l'algorithme Byte Pair Encoding (BPE). Voici comment il fonctionne : d'abord, le texte est divisé en chaque caractère en tant que token séparé. Ensuite, l'algorithme recherche quelles paires de caractères se produisent le plus fréquemment et les combine en un nouveau token. Après cela, il recherche les paires fréquentes des tokens résultants — et les combine à nouveau. Ceci se répète des milliers de fois. En résultat, le vocabulaire de GPT contient environ 50 000 tokens. Les mots fréquents et les parties de mots deviennent des tokens séparés, les combinaisons rares de lettres restent fragmentées. Ce n'est pas idéal, mais c'est plus efficace que de coder chaque lettre séparément.
Ce Que Cela Signifie
Comprendre la tokenisation change votre approche du travail avec les LLMs. Si vous savez que le modèle sera confus par le comptage des lettres, vous pouvez lui demander de fonctionner différemment — par exemple, d'abord imprimer les lettres séparément, puis les compter. Ce n'est pas une panacée, mais cela aide à écrire des prompts plus fiables. La connaissance de la tokenisation est utile lors de l'optimisation des prompts longs — vous pouvez prédire où le modèle « dépensera » des tokens inutilement. C'est important pour quiconque travaille avec les LLMs à un niveau profond, des ingénieurs de prompts aux développeurs qui créent des applications basées sur des réseaux de neurones.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.