Perplexity AI опубликовала токенайзер, в 5 раз быстрее стандарта Hugging Face
Perplexity выложила открытый код переписанного токенайзера Unigram. Алгоритм работает в 5 раз быстрее, чем стандартные tokenizers от Hugging Face, и снижает наг

Perplexity AI опубликовала открытый код переписанного токенайзера Unigram. По производительности это настоящий прорыв — новый алгоритм работает на 5x быстрее традиционного подхода и почти не нагружает процессор.
Почему токенизация узкое место Токенайзер — первый шаг обработки текста в языковых моделях.
Он разбивает входящий текст на куски (токены), которые модель понимает. Для модели вроде GPT это кажется простой деталью, но на практике токенайзер вызывается сотни миллионов раз в день на production-серверах. Задержка здесь складывается в серьёзные денежные потери.
Если токенайзер обрабатывает запрос 50 миллисекунд вместо 10, это медленнее сказывается на миллионах пользователей сервиса. Для компании вроде Perplexity Search каждая миллисекунда экономии на токенизации — это деньги на серверах, которые можно потратить на более мощные модели или инфраструктуру. Проблема усугубляется тем, что долгое время стандартом были tokenizers от Hugging Face.
Эта библиотека разработана для исследовательской гибкости, а не для production-скорости. Исследователи могут позволить себе 10-50 миллисекунд задержки, потому что запускают модели на своих машинах. Но когда модель обслуживает миллионы пользователей в облаке, каждая миллисекунда имеет значение.
Что достигла
Perplexity Переписанная версия Unigram показывает поразительные результаты: 5x снижение p50 latency — половина всех запросов обрабатывается на 80% быстрее, чем в стандартной версии 5-6x сокращение CPU utilization — один сервер может обрабатывать в 5-6 раз больше запросов, используя то же количество процессоров 100% совместимость — работает с существующими моделями без переучивания или переквалификации Открытый исходный код — любая компания может взять, установить и начать использовать прямо сейчас Для контекста: типичное улучшение производительности в индустрии находится в диапазоне 10-30%. Здесь говорим о 5x. Это означает фундаментальный переход на другой алгоритм или инженерный подход, которого раньше не было в открытом доступе. Это не просто оптимизация — это переосмысление того, как нужно писать токенайзер для production.
Почему это меняет игру
Hugging Face остаётся стандартом для исследований, но для production-систем теперь есть лучший выбор. Perplexity — компания, которая запустила свой собственный search engine на базе LLM. У неё есть боевой опыт оптимизации систем в реальном масштабе, с реальными пользователями, реальными затратами на серверы. Открыв этот код, Perplexity не просто помогает конкурентам — она устанавливает новый стандарт качества для production LLM-систем. В быстро меняющейся части AI-индустрии лучшие идеи распространяются быстро, и компания, которая первой опубликовала такое улучшение, получает кредит доверия и репутацию.
Это маркер того, что production AI становится всё более полированным,
серьёзным и оптимизированным.
Что это значит для индустрии
Если вы разрабатываете сервис на базе LLM, это решение прямо применимо — установите новый токенайзер, переваривайте текст быстрее, сэкономьте на серверах. Если вы инвестор или аналитик — это сигнал того, что production-инженерия в AI становится дисциплиной, а не хобби. Узкие места, о которых год назад говорили только внутри закрытых встреч компаний, теперь решаются открытым кодом. Ожидай, что в ближайших месяцах это станет новым стандартом де факто, и производительность production LLM-систем улучшится на весомую величину.