MarkTechPost→ original

Perplexity AI Lança Tokenizador 5x Mais Rápido que o Padrão Hugging Face

A Perplexity lançou código aberto de seu tokenizador Unigram reescrito. O algoritmo funciona 5 vezes mais rápido que os tokenizadores padrão do Hugging Face e r

Perplexity AI Lança Tokenizador 5x Mais Rápido que o Padrão Hugging Face
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A Perplexity AI publicou o código aberto para um tokenizador Unigram reescrito. Em termos de desempenho, este é um avanço real — o novo algoritmo funciona 5x mais rápido do que a abordagem tradicional e praticamente não sobrecarrega a CPU.

Por Que a Tokenização É um Gargalo

Um tokenizador é o primeiro passo no processamento de texto para modelos de linguagem. Ele divide o texto de entrada em pedaços (tokens) que o modelo compreende. Para um modelo como GPT, isso parece um detalhe simples, mas na prática, o tokenizador é chamado centenas de milhões de vezes por dia em servidores de produção.

A latência aqui se acumula em perdas financeiras sérias. Se um tokenizador processa uma solicitação em 50 milissegundos em vez de 10, essa desaceleração afeta milhões de usuários do serviço.

Para uma empresa como Perplexity Search, cada milissegundo economizado na tokenização é dinheiro em servidores que poderia ser gasto em modelos mais poderosos ou infraestrutura.

O problema é agravado pelo fato de que, por muito tempo, os tokenizadores do Hugging Face eram o padrão. Esta biblioteca foi desenvolvida para flexibilidade de pesquisa, não para velocidade de produção. Os pesquisadores podem permitir-se 10-50 milissegundos de latência porque executam modelos em suas próprias máquinas. Mas quando um modelo serve milhões de usuários na nuvem, cada milissegundo importa.

O Que Perplexity Alcançou

A versão reescrita do Unigram mostra resultados impressionantes:

  • Redução de 5x na latência p50 — metade de todas as solicitações são processadas 80% mais rápidas do que na versão padrão
  • Redução de 5-6x na utilização de CPU — um servidor pode processar 5-6 vezes mais solicitações usando o mesmo número de processadores
  • Compatibilidade de 100% — funciona com modelos existentes sem retreinamento ou requalificação
  • Código aberto — qualquer empresa pode pegá-lo, instalá-lo e começar a usá-lo agora mesmo

Para contexto: as melhorias típicas de desempenho na indústria variam de 10-30%. Aqui estamos falando de 5x. Isso significa uma mudança fundamental para um algoritmo ou abordagem de engenharia diferente que não estava previamente disponível como código aberto. Isso não é apenas otimização — é um repensar de como escrever um tokenizador para produção.

Por Que Isso Muda o Jogo

Hugging Face continua sendo o padrão para pesquisa, mas para sistemas de produção, agora há uma opção melhor. Perplexity é uma empresa que lançou seu próprio mecanismo de busca baseado em LLMs. Tem experiência real em otimizar sistemas em larga escala, com usuários reais e custos reais de servidor. Ao abrir o código-fonte, Perplexity não está apenas ajudando concorrentes — está estabelecendo um novo padrão de qualidade para sistemas LLM de produção.

Na parte que muda rapidamente da indústria de IA, as melhores ideias se espalham rapidamente, e a empresa que primeiro publica tal melhoria ganha credibilidade e reputação.

Este é um marcador de que a IA de produção está se tornando cada vez

mais polida, séria e otimizada.

O Que Isso Significa para a Indústria

Se você está desenvolvendo um serviço baseado em LLM, esta solução é diretamente aplicável — instale o novo tokenizador, processe texto mais rápido e economize em custos de servidor. Se você é um investidor ou analista, este é um sinal de que a engenharia de produção em IA está se tornando uma disciplina, não um hobby. Gargalos que eram discutidos apenas em reuniões fechadas da empresa um ano atrás agora estão sendo resolvidos com código aberto. Espere que nos próximos meses isso se torne o novo padrão de fato, e o desempenho dos sistemas LLM de produção melhorará significativamente.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…