El ruso en ChatGPT cuesta 2 veces más: la tokenización es la culpable
El texto en ruso en ChatGPT y otros LLM en la nube cuesta el doble que el inglés. La razón es la forma en que las redes neuronales dividen el texto en tokens: u

Cuando envías una solicitud a ChatGPT u otra red neuronal en la nube, no funciona directamente con letras y palabras. El texto se divide primero en tokens — pequeños fragmentos de significado que el modelo puede procesar. Esta división determina el costo de la solicitud, la velocidad de la respuesta y cuánta información puede caber en la ventana de contexto a la vez.
Cómo funciona la tokenización
La tokenización es el proceso mediante el cual diferentes redes neurales dividen el texto de diferentes maneras. El texto en inglés se divide de manera muy eficiente: una palabra generalmente ocupa uno o dos tokens. La palabra "contract" es siempre un token. Un texto en inglés de 1000 palabras requerirá aproximadamente 1200-1500 tokens.
El ruso no tuvo tanta suerte: el mismo contenido requiere 2-3 veces más fragmentos. La palabra rusa "разработка" requiere dos o tres tokens. "Программирование" requiere tres o cuatro. Y un adjetivo como "искусственный" puede ocupar cuatro o cinco tokens. Un texto en ruso de 1000 palabras requerirá 2500-3500 tokens.
Esto sucede porque el inglés se utilizó mucho más intensivamente en el entrenamiento de grandes modelos de lenguaje modernos que el ruso. Su vocabulario está mejor representado en el diccionario de tokens que los creadores del modelo recopilaron de enormes cantidades de contenido en inglés. El alfabeto cirílico sigue siendo extranjero para las redes neurales.
Qué cuesta en la práctica
Debido a la desigualdad en la tokenización, el texto en ruso en servicios en la nube como OpenAI cuesta aproximadamente 2 veces más que el inglés por la misma cantidad de información real. Si pagas $1 por procesar 1000 tokens de texto en inglés, entonces el ruso costará $2.
Es más fácil notarlo cuando se trabaja en proyectos grandes: localizar una aplicación al ruso, traducir documentación o ejecutar un chatbot en ruso costará el doble que los mismos servicios para un usuario de habla inglesa.
Pero el alto costo es solo el comienzo de los problemas. El procesamiento de texto en ruso es notablemente más lento porque el modelo necesita procesar más tokens. Cuando hay más tokens, la respuesta tarda más. Y la ventana de contexto — ese volumen de memoria donde el modelo puede mantener información — se vuelve la mitad de tamaño en términos de contenido real. Si un modelo tiene una ventana de contexto de 128 mil tokens, entonces en ruso solo puedes encajar la mitad de esa cantidad de información rusa real.
A quién afecta especialmente
- Desarrolladores de habla rusa usando IA para trabajar con documentación y código
- Empresas que procesan grandes volúmenes de texto en ruso (traducciones, chatbots, análisis)
- Startups de habla rusa que construyen productos basados en LLMs y no pueden permitirse los gastos de OpenAI
- Investigadores que trabajan con la lengua rusa y necesitan análisis profundo a través de redes neurales
- Autores y editores que quieren usar IA para editar y reescribir textos
Cómo medir en tus propios datos
El autor del artículo recomienda verificar la proporción real de tokens para tus textos específicos: toma una muestra en inglés y en ruso, cuenta los tokens a través de la API de OpenAI y compara. Esto llevará cinco minutos y te mostrará el costo exacto de tu caso.
Qué significa
La desigualdad en la tokenización es un impuesto oculto sobre la lengua rusa en la era de los grandes modelos de lenguaje. Esto no es un error de los desarrolladores, sino una consecuencia natural de cómo se construyeron estos modelos: con contenido en inglés de la primera generación de Internet. Para la comunidad de habla rusa, esto significa aceptar la realidad: o pagas más y obtienes resultados más lentos, o buscas alternativas que fueron entrenadas con mejor soporte para el cirílico.