Inferencia

Token

Un token es la unidad básica de texto que un modelo de lenguaje procesa, típicamente una palabra, fragmento de subpalabra o marca de puntuación. En la prosa inglesa común, una palabra corresponde aproximadamente a 1,3 tokens bajo vocabularios de subpalabras ampliamente utilizados.

Un token es la unidad atómica en la que se descompone el texto antes de ser procesado por un modelo de lenguaje. La mayoría de los modelos modernos utilizan tokenización de subpalabras, dividiendo el texto ni a nivel de caracteres ni estrictamente en límites de palabras, sino en segmentos que equilibran el tamaño del vocabulario con la longitud de la secuencia. Los algoritmos más comunes son Byte-Pair Encoding (BPE, utilizado por la familia GPT), WordPiece (utilizado por BERT y sus derivados) y SentencePiece (utilizado por LLaMA, T5 y muchos modelos multilingües). Los vocabularios típicamente contienen 32.000–200.000 tipos de tokens; el tokenizador cl100k_base de GPT-4 contiene aproximadamente 100.000.

En la práctica, palabras en inglés de alta frecuencia como «the» o «model» suelen ser tokens únicos, mientras que palabras raras, términos técnicos y la mayoría del texto no inglés se dividen en múltiples tokens. El código y las URL también se tokenizanmenos eficientemente que la prosa. El tokenizador se entrena por separado del modelo en un corpus representativo grande, y su vocabulario se fija antes de que comience el entrenamiento del modelo. En tiempo de inferencia, el texto sin procesar se convierte primero en una secuencia de ID de tokens enteros, que se utilizan para buscar vectores de incrustación densa que procesan las capas del modelo.

Los tokens importan por tres razones prácticas. Primero, las ventanas de contexto —la secuencia máxima que un modelo puede procesar de una sola vez— se miden en tokens; a partir de 2025, los modelos líderes variaban de 128.000 tokens (GPT-4o) a 200.000 (Claude 3.5 Sonnet) a más de un millón (Gemini 1.5 Pro), con expansión continua en marcha. En segundo lugar, las API de inferencia en la nube cobran por cada token consumido y generado, lo que hace que la eficiencia de tokens sea un factor de costo directo. En tercer lugar, la atención transformadora estándar se escala cuadráticamente con la longitud de la secuencia en tokens, lo que hace que los contextos más largos sean computacionalmente costosos y motiva la investigación en variantes de atención lineal y atención dispersa.

A partir de 2026, la abstracción de token se ha extendido más allá del texto a modelos multimodales. Las imágenes generalmente se codifican como un número fijo de tokens visuales (comúnmente 256–1.024 por imagen) concatenados con tokens de texto antes del procesamiento por un transformador unificado. Las entradas de audio y video siguen canalizaciones de cuantización-tokenización análogas, lo que convierte el token en la moneda universal entre arquitecturas de IA multimodales.

Ejemplo

Un contrato legal de 10 páginas presentado a un asistente de IA podría contener aproximadamente 5.000 tokens; a una tasa típica de API de unos pocos dólares por millón de tokens de entrada, procesar ese documento cuesta aproximadamente unos pocos centavos en honorarios de inferencia.

Términos relacionados

Tokenización Ventana de Contexto Inferencia Token Economics (API Pricing)

Últimas noticias sobre el tema

Together AI lanza MiniMax M3 con contexto de 1 millón de tokens y soporte multimodal2026-06-30 El skill Caveman, con 75.000 estrellas, promete recortar en 75% el uso de tokens en Copilot2026-06-30 Liquid AI lanzó LFM2.5-230M: 213 tokens/s en Galaxy S25 y soporte para llama.cpp2026-06-28 graphlens-mcp construye un grafo de código con un solo comando y reduce el uso de tokens entre 10 y 23 veces2026-06-28 Z.ai lanza GLM-5.2: millón real de tokens y dos niveles de razonamiento profundo2026-06-15

← Glosario