MarkTechPost→ original

Perplexity AI Lanza Tokenizador 5x Más Rápido que el Estándar Hugging Face

Perplexity lanzó código abierto de su tokenizador Unigram reescrito. El algoritmo funciona 5 veces más rápido que los tokenizadores estándar de Hugging Face y r

Perplexity AI Lanza Tokenizador 5x Más Rápido que el Estándar Hugging Face
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Perplexity AI ha publicado el código abierto para un tokenizador Unigram reescrito. En términos de desempeño, este es un avance real — el nuevo algoritmo funciona 5x más rápido que el enfoque tradicional y apenas tensiona la CPU.

Por Qué la Tokenización Es un Cuello de Botella

Un tokenizador es el primer paso en el procesamiento de texto para modelos de lenguaje. Divide el texto de entrada en fragmentos (tokens) que el modelo entiende. Para un modelo como GPT, esto parece un detalle simple, pero en la práctica, el tokenizador se invoca cientos de millones de veces por día en servidores de producción.

La latencia aquí se acumula en pérdidas financieras graves. Si un tokenizador procesa una solicitud en 50 milisegundos en lugar de 10, esta ralentización afecta a millones de usuarios del servicio.

Para una empresa como Perplexity Search, cada milisegundo ahorrado en tokenización es dinero en servidores que podría gastarse en modelos más poderosos o infraestructura.

El problema se agrava por el hecho de que durante mucho tiempo, los tokenizadores de Hugging Face fueron el estándar. Esta biblioteca fue desarrollada para flexibilidad de investigación, no para velocidad de producción. Los investigadores pueden permitirse 10-50 milisegundos de latencia porque ejecutan modelos en sus propias máquinas. Pero cuando un modelo sirve a millones de usuarios en la nube, cada milissegundo importa.

Lo Que Perplexity Logró

La versión reescrita de Unigram muestra resultados sorprendentes:

  • Reducción de 5x en la latencia p50 — la mitad de todas las solicitudes se procesan 80% más rápido que en la versión estándar
  • Reducción de 5-6x en la utilización de CPU — un servidor puede manejar 5-6 veces más solicitudes usando el mismo número de procesadores
  • Compatibilidad del 100% — funciona con modelos existentes sin reentrenamiento o recalificación
  • Código abierto — cualquier empresa puede descargarlo, instalarlo y comenzar a usarlo ahora mismo

Para contexto: las mejoras típicas de rendimiento en la industria oscilan entre 10-30%. Aquí hablamos de 5x. Esto significa un cambio fundamental a un algoritmo o enfoque de ingeniería diferente que no estaba disponible previamente como código abierto. Esto no es solo optimización — es un repensar de cómo escribir un tokenizador para producción.

Por Qué Esto Cambia las Reglas del Juego

Hugging Face sigue siendo el estándar para investigación, pero para sistemas de producción, ahora hay una mejor opción. Perplexity es una empresa que lanzó su propio motor de búsqueda basado en LLMs. Tiene experiencia real optimizando sistemas a escala, con usuarios reales y costos reales de servidor. Al abrir el código fuente, Perplexity no solo está ayudando a los competidores — está estableciendo un nuevo estándar de calidad para sistemas LLM de producción.

En la parte que evoluciona rápidamente de la industria de IA, las mejores ideas se propagan rápidamente, y la empresa que primero publica tal mejora gana credibilidad y reputación.

Esto es un marcador de que la IA de producción se está volviendo cada

vez más pulida, seria y optimizada.

Lo Que Esto Significa para la Industria

Si está desarrollando un servicio basado en LLM, esta solución es directamente aplicable — instale el nuevo tokenizador, procese texto más rápido y ahorre en costos de servidor. Si es un inversor o analista, esta es una señal de que la ingeniería de producción en IA se está convirtiendo en una disciplina, no en un pasatiempo. Los cuellos de botella que se discutían solo en reuniones cerradas de la empresa hace un año ahora se están resolviendo con código abierto. Espere que en los próximos meses esto se convierta en el nuevo estándar de facto, y el rendimiento de los sistemas LLM de producción mejorará de manera significativa.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…