Inferencia

Tokenización

La tokenización es el proceso de dividir el texto sin procesar en unidades discretas llamadas tokens —típicamente fragmentos de subpalabras— que un modelo de lenguaje codifica numéricamente y procesa. Un token promedia aproximadamente 4 caracteres en inglés; la mayoría de los LLM modernos utilizan vocabularios de subpalabras de 32.000–200.000 entradas.

La tokenización es el paso de preprocesamiento que convierte una cadena de texto en una secuencia de ID enteros extraída de un vocabulario fijo. Cada ID corresponde a un token —que puede ser una palabra, un fragmento de subpalabra, un carácter único o espacio en blanco— dependiendo del diseño del tokenizador. Los tamaños de vocabulario de los tokenizadores modernos comunes varían de aproximadamente 32.000 (tokenizador SentencePiece de LLaMA 2) a aproximadamente 100.000–200.000 (vocabulario tiktoken cl100k de GPT-4o).

El enfoque dominante desde aproximadamente 2018 es Byte-Pair Encoding (BPE), en el cual pares de caracteres frecuentes se fusionan iterativamente en unidades de subpalabras durante una fase de entrenamiento en un corpus de texto grande, produciendo un vocabulario que equilibra la cobertura de palabras raras con la codificación eficiente de palabras comunes. Las alternativas incluyen WordPiece (utilizado en modelos de la familia BERT) y Unigram LM (utilizado en SentencePiece, que sustenta modelos LLaMA y Mistral). El vocabulario del tokenizador se fija antes de que el modelo de lenguaje se entrene. En tiempo de inferencia, el texto de entrada se codifica en una secuencia de ID de token, y los ID de salida del modelo se decodifican nuevamente en texto legible.

La tokenización determina directamente el costo del sistema y el comportamiento del modelo: los precios de API se denominan en tokens, los límites de ventana de contexto se expresan en tokens, y los modelos operan únicamente sobre ID enteros —nunca ven caracteres sin procesar—. Los idiomas con grandes conjuntos de caracteres (chino, japonés) o morfología altamente aglutinante (finlandés, turco) se codifican menos eficientemente que el inglés, lo que significa que contenido semántico equivalente puede consumir de dos a cuatro veces más tokens y, por lo tanto, proporcionalmente más computación y costo.

A partir de 2026, la mayoría de los modelos fronterizos —GPT-4o, Claude 3.5/4, Gemini 2.0— utilizan tokenizadores de estilo BPE con vocabularios en el rango 100k–200k. La investigación en arquitecturas sin tokenizador y a nivel de bytes (MegaByte, MEGALODON) continúa, con el objetivo de eliminar completamente el cuello de botella de la tokenización, pero la tokenización de subpalabras sigue siendo el enfoque de producción dominante en modelos de código abierto y propietarios.

Ejemplo

Cuando un usuario envía la oración «Tokenization is fundamental» a GPT-4o, el tokenizador la convierte en aproximadamente 4–5 ID enteros antes de que comience cualquier computación neuronal; los ID enteros de salida del modelo se decodifican luego nuevamente en texto legible un token a la vez.

Términos relacionados

Últimas noticias sobre el tema

← Glosario