Token
Un token es la unidad básica de texto que un modelo de lenguaje procesa, típicamente una palabra, fragmento de subpalabra o marca de puntuación. En la prosa inglesa común, una palabra corresponde aproximadamente a 1,3 tokens bajo vocabularios de subpalabras ampliamente utilizados.
Un token es la unidad atómica en la que se descompone el texto antes de ser procesado por un modelo de lenguaje. La mayoría de los modelos modernos utilizan tokenización de subpalabras, dividiendo el texto ni a nivel de caracteres ni estrictamente en límites de palabras, sino en segmentos que equilibran el tamaño del vocabulario con la longitud de la secuencia. Los algoritmos más comunes son Byte-Pair Encoding (BPE, utilizado por la familia GPT), WordPiece (utilizado por BERT y sus derivados) y SentencePiece (utilizado por LLaMA, T5 y muchos modelos multilingües). Los vocabularios típicamente contienen 32.000–200.000 tipos de tokens; el tokenizador cl100k_base de GPT-4 contiene aproximadamente 100.000.
En la práctica, palabras en inglés de alta frecuencia como «the» o «model» suelen ser tokens únicos, mientras que palabras raras, términos técnicos y la mayoría del texto no inglés se dividen en múltiples tokens. El código y las URL también se tokenizanmenos eficientemente que la prosa. El tokenizador se entrena por separado del modelo en un corpus representativo grande, y su vocabulario se fija antes de que comience el entrenamiento del modelo. En tiempo de inferencia, el texto sin procesar se convierte primero en una secuencia de ID de tokens enteros, que se utilizan para buscar vectores de incrustación densa que procesan las capas del modelo.
Los tokens importan por tres razones prácticas. Primero, las ventanas de contexto —la secuencia máxima que un modelo puede procesar de una sola vez— se miden en tokens; a partir de 2025, los modelos líderes variaban de 128.000 tokens (GPT-4o) a 200.000 (Claude 3.5 Sonnet) a más de un millón (Gemini 1.5 Pro), con expansión continua en marcha. En segundo lugar, las API de inferencia en la nube cobran por cada token consumido y generado, lo que hace que la eficiencia de tokens sea un factor de costo directo. En tercer lugar, la atención transformadora estándar se escala cuadráticamente con la longitud de la secuencia en tokens, lo que hace que los contextos más largos sean computacionalmente costosos y motiva la investigación en variantes de atención lineal y atención dispersa.
A partir de 2026, la abstracción de token se ha extendido más allá del texto a modelos multimodales. Las imágenes generalmente se codifican como un número fijo de tokens visuales (comúnmente 256–1.024 por imagen) concatenados con tokens de texto antes del procesamiento por un transformador unificado. Las entradas de audio y video siguen canalizaciones de cuantización-tokenización análogas, lo que convierte el token en la moneda universal entre arquitecturas de IA multimodales.