Por qué GPT se equivoca al contar letras: el secreto de la tokenización
Los LLM procesan el texto como una secuencia de tokens numéricos, no como letras individuales. Esto explica una paradoja extraña: GPT puede confundirse fácilmen
Procesado por IA desde Habr AI; editado por Hamidun News
Cuando escribes un prompt en ChatGPT, ves texto ordinario hecho de letras. Pero el modelo ve algo completamente diferente — una secuencia de números llamados tokens. Esta discrepancia crea efectos extraños: GPT puede no entender cuántas letras tiene la palabra strawberry, o confundirse con un conteo simple.
Cómo los LLMs Ven Texto
Para las redes neuronales, el texto no es un conjunto de letras, sino una secuencia de códigos numéricos. Cada token corresponde a un número, y el modelo funciona solo con números, nunca viendo la letra real. Es como si leyeras un libro a través de un sistema que primero traduce palabras en códigos, los procesas, y luego los códigos se traducen de nuevo a texto.
Una palabra frecuente puede ser un único token, mientras que una palabra rara se divide en varios pedazos. Por ejemplo, "hello" se codifica como un único número, mientras que "strawberry" podría ser tres o cuatro números. En ruso, la situación es aún más compleja — debido a la rica morfología, las palabras se desglosan de forma menos eficiente.
Por Qué Esto Crea Problemas
La discrepancia entre cómo los humanos ven el texto y cómo lo ve el modelo genera toda una serie de problemas:
- Errores de conteo: GPT no puede simplemente contar letras porque funciona con números, no con caracteres
- Ilegibilidad de palabras raras: las combinaciones raras de letras se dividen en múltiples tokens, y el modelo las ve como piezas separadas
- Asimetría lingüística: el inglés se divide en tokens de forma más eficiente que el ruso, chino o árabe
- Consumo de contexto: si una palabra se dividió en 3 tokens en lugar de 1, tu prompt ocupa más espacio en la ventana de contexto
- Comportamiento impredecible: el modelo puede comportarse de forma extraña con números, códigos y nombres raros porque se dividen en fragmentos
El Algoritmo Detrás de Escenas
Detrás de la tokenización está el algoritmo Byte Pair Encoding (BPE). Aquí te mostramos cómo funciona: primero, el texto se divide en cada carácter como un token separado. Luego el algoritmo busca qué pares de caracteres ocurren con mayor frecuencia y los combina en un nuevo token. Después de eso, busca pares frecuentes de los tokens resultantes — y los combina de nuevo. Esto se repite miles de veces. Como resultado, el vocabulario de GPT contiene aproximadamente 50 mil tokens. Las palabras frecuentes y las partes de palabras se convierten en tokens separados, las combinaciones raras de letras permanecen fragmentadas. No es ideal, pero es más eficiente que codificar cada letra por separado.
Lo Que Esto Significa
Entender la tokenización cambia cómo abordas el trabajo con LLMs. Si sabes que el modelo se confundirá con el conteo de letras, puedes pedirle que trabaje de forma diferente — por ejemplo, primero imprimir las letras por separado, luego contarlas. No es una panacea, pero ayuda a escribir prompts más fiables. El conocimiento de la tokenización es útil cuando optimizas prompts largos — puedes predecir dónde el modelo "gastará" tokens innecesariamente. Esto es importante para cualquiera que trabaje con LLMs a un nivel profundo, desde ingenieros de prompts hasta desarrolladores que crean aplicaciones basadas en redes neuronales.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.