Por qué GPT se equivoca al contar letras: el secreto de la tokenización

Q: ¿Cuál es la fuente?

Publicado originalmente en Habr AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2026-05-17. Tiempo de lectura: 3 min.

Los LLM procesan el texto como una secuencia de tokens numéricos, no como letras individuales. Esto explica una paradoja extraña: GPT puede confundirse fácilmen

Redacción de Hamidun News

Monitoreo de AI · Habr AI

2026-05-17· 2 min

Procesado por IA desde Habr AI; editado por Hamidun News

Por qué GPT se equivoca al contar letras: el secreto de la tokenización — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Cuando escribes un prompt en ChatGPT, ves texto ordinario hecho de letras. Pero el modelo ve algo completamente diferente — una secuencia de números llamados tokens. Esta discrepancia crea efectos extraños: GPT puede no entender cuántas letras tiene la palabra strawberry, o confundirse con un conteo simple.

Cómo los LLMs Ven Texto

Para las redes neuronales, el texto no es un conjunto de letras, sino una secuencia de códigos numéricos. Cada token corresponde a un número, y el modelo funciona solo con números, nunca viendo la letra real. Es como si leyeras un libro a través de un sistema que primero traduce palabras en códigos, los procesas, y luego los códigos se traducen de nuevo a texto.

Una palabra frecuente puede ser un único token, mientras que una palabra rara se divide en varios pedazos. Por ejemplo, "hello" se codifica como un único número, mientras que "strawberry" podría ser tres o cuatro números. En ruso, la situación es aún más compleja — debido a la rica morfología, las palabras se desglosan de forma menos eficiente.

Por Qué Esto Crea Problemas

La discrepancia entre cómo los humanos ven el texto y cómo lo ve el modelo genera toda una serie de problemas:

Errores de conteo: GPT no puede simplemente contar letras porque funciona con números, no con caracteres
Ilegibilidad de palabras raras: las combinaciones raras de letras se dividen en múltiples tokens, y el modelo las ve como piezas separadas
Asimetría lingüística: el inglés se divide en tokens de forma más eficiente que el ruso, chino o árabe
Consumo de contexto: si una palabra se dividió en 3 tokens en lugar de 1, tu prompt ocupa más espacio en la ventana de contexto
Comportamiento impredecible: el modelo puede comportarse de forma extraña con números, códigos y nombres raros porque se dividen en fragmentos

El Algoritmo Detrás de Escenas

Detrás de la tokenización está el algoritmo Byte Pair Encoding (BPE). Aquí te mostramos cómo funciona: primero, el texto se divide en cada carácter como un token separado. Luego el algoritmo busca qué pares de caracteres ocurren con mayor frecuencia y los combina en un nuevo token. Después de eso, busca pares frecuentes de los tokens resultantes — y los combina de nuevo. Esto se repite miles de veces. Como resultado, el vocabulario de GPT contiene aproximadamente 50 mil tokens. Las palabras frecuentes y las partes de palabras se convierten en tokens separados, las combinaciones raras de letras permanecen fragmentadas. No es ideal, pero es más eficiente que codificar cada letra por separado.

Lo Que Esto Significa

Entender la tokenización cambia cómo abordas el trabajo con LLMs. Si sabes que el modelo se confundirá con el conteo de letras, puedes pedirle que trabaje de forma diferente — por ejemplo, primero imprimir las letras por separado, luego contarlas. No es una panacea, pero ayuda a escribir prompts más fiables. El conocimiento de la tokenización es útil cuando optimizas prompts largos — puedes predecir dónde el modelo "gastará" tokens innecesariamente. Esto es importante para cualquiera que trabaje con LLMs a un nivel profundo, desde ingenieros de prompts hasta desarrolladores que crean aplicaciones basadas en redes neuronales.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita