Habr AI→ original

Le russe dans ChatGPT coûte 2 fois plus cher : la tokenisation en est la cause

Le texte en russe dans ChatGPT et d'autres LLM dans le cloud coûte deux fois plus cher que l'anglais. En cause, la façon dont les réseaux neuronaux découpent le

Le russe dans ChatGPT coûte 2 fois plus cher : la tokenisation en est la cause
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Lorsque vous envoyez une demande à ChatGPT ou à un autre réseau de neurones basé sur le cloud, il ne fonctionne pas directement avec des lettres et des mots. Le texte est d'abord divisé en tokens — petits fragments de sens que le modèle peut traiter. Cette division détermine le coût de la demande, la vitesse de la réponse et la quantité d'informations pouvant tenir dans la fenêtre de contexte à la fois.

Comment fonctionne la tokenisation

La tokenisation est le processus par lequel différents réseaux de neurones divisent le texte de différentes manières. Le texte en anglais est divisé très efficacement : un mot occupe généralement un ou deux tokens. Le mot « contract » est toujours un seul token. Un texte anglais de 1000 mots nécessitera environ 1200-1500 tokens.

Le russe n'a pas eu autant de chance : le même contenu nécessite 2-3 fois plus de fragments. Le mot russe « разработка » nécessite deux ou trois tokens. « Программирование » en nécessite trois ou quatre. Et un adjectif comme « искусственный » peut occuper quatre ou cinq tokens. Un texte russe de 1000 mots nécessitera 2500-3500 tokens.

Cela se produit parce que l'anglais a été utilisé beaucoup plus intensivement dans l'entraînement des grands modèles de langage modernes que le russe. Son vocabulaire est mieux représenté dans le dictionnaire de tokens que les créateurs du modèle ont assemblé à partir d'énormes quantités de contenu en anglais. L'alphabet cyrillique reste étranger aux réseaux de neurones.

Combien cela coûte en pratique

En raison de l'inégalité de la tokenisation, le texte en russe sur les services cloud comme OpenAI coûte environ 2 fois plus cher que l'anglais pour la même quantité d'informations réelles. Si vous payez 1 dollar pour traiter 1000 tokens de texte en anglais, alors le russe coûtera 2 dollars.

C'est plus facile à remarquer lorsque vous travaillez sur des projets importants : localiser une application en russe, traduire de la documentation ou gérer un chatbot en russe coûtera deux fois plus que les mêmes services pour un utilisateur anglophone.

Mais le coût élevé n'est que le début des problèmes. Le traitement du texte en russe est notablement plus lent car le modèle doit traiter plus de tokens. Lorsqu'il y a plus de tokens, la réponse prend plus de temps. Et la fenêtre de contexte — ce volume de mémoire où le modèle peut conserver les informations — devient moitié moins grande en termes de contenu réel. Si un modèle a une fenêtre de contexte de 128 000 tokens, alors en russe vous ne pouvez adapter que la moitié de cette quantité d'informations réelles en russe.

Qui cela affecte particulièrement

  • Les développeurs russophones utilisant l'IA pour travailler avec la documentation et le code
  • Les entreprises traitant de grandes quantités de texte en russe (traductions, chatbots, analyse)
  • Les startups russophones construisant des produits basés sur les LLMs et ne pouvant pas se permettre les frais d'OpenAI
  • Les chercheurs travaillant avec la langue russe et ayant besoin d'analyses approfondies via les réseaux de neurones
  • Les auteurs et éditeurs qui souhaitent utiliser l'IA pour l'édition et la réécriture de textes

Comment mesurer sur vos propres données

L'auteur de l'article recommande de vérifier le ratio réel de tokens pour vos textes spécifiques : prenez un exemple en anglais et en russe, comptez les tokens via l'API OpenAI et comparez. Cela prendra cinq minutes et vous montrera le coût exact de votre cas.

Ce que cela signifie

L'inégalité de la tokenisation est une taxe cachée sur la langue russe à l'ère des grands modèles de langage. Ce n'est pas une erreur des développeurs, mais une conséquence naturelle de la façon dont ces modèles ont été construits : sur le contenu en anglais de la première génération d'Internet. Pour la communauté russophone, cela signifie accepter la réalité : soit vous payez plus et obtenez des résultats plus lents, soit vous recherchez des alternatives qui ont été entraînées avec un meilleur support du cyrillique.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…