Russo no ChatGPT custa 2 vezes mais: a tokenização é a culpada
O texto em russo no ChatGPT e em outras LLMs em nuvem custa o dobro em relação ao inglês. A razão é a forma como as redes neurais dividem o texto em tokens: uma

Quando você envia um pedido para ChatGPT ou outra rede neural em nuvem, ela não funciona com letras e palavras diretamente. O texto é primeiro dividido em tokens — pequenos pedaços de significado que o modelo pode processar. Esta divisão determina o custo da solicitação, a velocidade da resposta e quanto informação pode caber na janela de contexto de uma vez.
Como funciona a tokenização
A tokenização é o processo pelo qual diferentes redes neurais fatiam o texto de maneiras diferentes. O texto em inglês é fatiado com muita eficiência: uma palavra geralmente ocupa um ou dois tokens. A palavra "contract" é sempre um token. Um texto em inglês de 1000 palavras exigirá aproximadamente 1200-1500 tokens.
O russo não teve tanta sorte: o mesmo conteúdo exige 2-3 vezes mais pedaços. A palavra russa "разработка" requer dois ou três tokens. "Программирование" requer três ou quatro. E um adjetivo como "искусственный" pode ocupar quatro ou cinco tokens. Um texto em russo de 1000 palavras exigirá 2500-3500 tokens.
Isso acontece porque o inglês foi usado muito mais intensivamente no treinamento de grandes modelos de linguagem modernos do que o russo. Seu vocabulário é melhor representado no dicionário de tokens que os criadores do modelo montaram a partir de grandes quantidades de conteúdo em inglês. O alfabeto Cirílico permanece estrangeiro para as redes neurais.
O que custa na prática
Devido à desigualdade na tokenização, o texto em russo em serviços em nuvem como OpenAI custa aproximadamente 2 vezes mais caro do que o inglês pela mesma quantidade de informação real. Se você pagar $1 pelo processamento de 1000 tokens de texto em inglês, então o russo custará $2.
É mais fácil perceber isso ao trabalhar em grandes projetos: localizar um aplicativo em russo, traduzir documentação ou executar um chatbot em russo custará o dobro do custo dos mesmos serviços para um usuário de língua inglesa.
Mas o alto custo é apenas o começo dos problemas. O processamento de texto em russo é notavelmente mais lento porque o modelo precisa processar mais tokens. Quando há mais tokens, a resposta demora mais. E a janela de contexto — aquele volume de memória onde o modelo pode manter informações — fica metade do tamanho em termos de conteúdo real. Se um modelo tem uma janela de contexto de 128 mil tokens, então em russo você só pode encaixar metade dessa quantidade de informação russa real.
Quem afeta especialmente
- Desenvolvedores de língua russa usando IA para trabalhar com documentação e código
- Empresas processando grandes volumes de texto em russo (traduções, chatbots, análise)
- Startups de língua russa construindo produtos baseados em LLMs que não podem arcar com despesas do OpenAI
- Pesquisadores trabalhando com a língua russa e necessitando análise profunda através de redes neurais
- Autores e editores que desejam usar IA para edição e reescrita de textos
Como medir em seus próprios dados
O autor do artigo recomenda verificar a proporção real de tokens para seus textos específicos: pegue uma amostra em inglês e em russo, conte tokens através da API OpenAI e compare. Isso levará cinco minutos e mostrará o custo exato do seu caso.
O que significa
A desigualdade na tokenização é um imposto oculto sobre a língua russa na era dos grandes modelos de linguagem. Isso não é um erro dos desenvolvedores, mas uma consequência natural de como esses modelos foram construídos: em conteúdo em inglês da primeira geração da internet. Para a comunidade de língua russa, isso significa aceitar a realidade: ou pague mais e obtenha resultados mais lentos, ou procure alternativas que foram treinadas com melhor suporte para o Cirílico.