Perplexity AI Publie un Tokenizeur 5x Plus Rapide que le Standard Hugging Face

Perplexity a publié le code open-source de son tokenizeur Unigram réécrit. L'algorithme fonctionne 5 fois plus rapidement que les tokenizeurs standards de Hugging Face et réduit la charge CPU en production de 5-6x. Pour les services d'IA, c'est crucial : chaque milliseconde économisée sur la tokenization se traduit par des économies réelles sur les coûts serveur. Les entreprises peuvent dès maintenant télécharger le code et l'intégrer sans frais supplémentaires.

Rédaction de Hamidun News

Veille IA · MarkTechPost

29 mai 2026· 3 min

Traité par IA depuis MarkTechPost ; édité par Hamidun News

Perplexity AI Publie un Tokenizeur 5x Plus Rapide que le Standard Hugging Face — Source : MarkTechPost. Collage: Hamidun News.

◐ Écouter l'article

Perplexity AI a publié le code source ouvert pour un tokeniseur Unigram réécrit. En termes de performance, c'est une véritable avancée — le nouvel algorithme fonctionne 5x plus rapidement que l'approche traditionnelle et surcharge à peine le CPU.

Pourquoi la Tokenisation Est un Goulot d'Étranglement

Un tokeniseur est la première étape du traitement de texte pour les modèles de langage. Il divise le texte entrant en morceaux (tokens) que le modèle comprend. Pour un modèle comme GPT, cela semble un détail simple, mais en pratique, le tokeniseur est appelé des centaines de millions de fois par jour sur les serveurs de production.

La latence ici s'accumule en pertes financières graves. Si un tokeniseur traite une demande en 50 millisecondes au lieu de 10, ce ralentissement affecte des millions d'utilisateurs du service.

Pour une entreprise comme Perplexity Search, chaque milliseconde économisée sur la tokenisation est de l'argent sur les serveurs qui pourrait être dépensé pour des modèles plus puissants ou une infrastructure.

Le problème est aggravé par le fait que pendant longtemps, les tokeniseurs Hugging Face étaient la norme. Cette bibliothèque a été développée pour la flexibilité de la recherche, non pour la vitesse de production. Les chercheurs peuvent se permettre 10-50 millisecondes de latence car ils exécutent des modèles sur leurs propres machines. Mais quand un modèle sert des millions d'utilisateurs dans le cloud, chaque milliseconde compte.

Ce Que Perplexity a Réalisé

La version réécrite d'Unigram montre des résultats frappants :

Réduction de 5x de la latence p50 — la moitié de toutes les demandes sont traitées 80% plus rapidement que dans la version standard
Réduction de 5-6x de l'utilisation du CPU — un serveur peut traiter 5-6 fois plus de demandes en utilisant le même nombre de processeurs
Compatibilité de 100% — fonctionne avec les modèles existants sans réentraînement ni requalification
Code source ouvert — toute entreprise peut le prendre, l'installer et l'utiliser dès maintenant

Pour le contexte : les améliorations typiques de performance dans l'industrie varient de 10-30%. Ici, nous parlons de 5x. Cela signifie un changement fondamental vers un algorithme ou une approche d'ingénierie différente qui n'était pas auparavant disponible en open source. Ce n'est pas juste de l'optimisation — c'est une réflexion sur la façon d'écrire un tokeniseur pour la production.

Pourquoi Cela Change la Donne

Hugging Face reste la norme pour la recherche, mais pour les systèmes de production, il y a maintenant un meilleur choix. Perplexity est une entreprise qui a lancé son propre moteur de recherche basé sur les LLMs. Elle a une expérience réelle en optimisation de systèmes à grande échelle, avec des utilisateurs réels et des coûts de serveur réels. En open-sourcant ce code, Perplexity ne fait pas que aider les concurrents — elle établit un nouveau standard de qualité pour les systèmes LLM de production.

Dans la partie en rapide évolution de l'industrie de l'IA, les meilleures idées se propagent rapidement, et l'entreprise qui publie en premier une telle amélioration gagne en crédibilité et en réputation.

C'est un marqueur que la production d'IA devient de plus en plus

polie, sérieuse et optimisée.

Ce Que Cela Signifie pour l'Industrie

Si vous développez un service basé sur des LLMs, cette solution est directement applicable — installez le nouveau tokeniseur, traitez le texte plus rapidement et économisez sur les coûts des serveurs. Si vous êtes un investisseur ou un analyste, c'est un signal que l'ingénierie de production en IA devient une discipline, pas un passe-temps. Les goulots d'étranglement qui n'étaient discutés que lors de réunions fermées d'entreprise il y a un an sont maintenant résolus avec du code ouvert. Attendez-vous à ce que dans les prochains mois, cela devienne le nouveau standard de facto, et les performances des systèmes LLM de production s'amélioreront de manière significative.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?

Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).

Réserver une consultation gratuite →