Por que GPT erra ao contar letras: o segredo da tokenização

Q: Qual é a fonte?

Publicado originalmente em Habr AI. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

2026-05-17. Tempo de leitura: 3 min.

Os LLMs processam o texto como uma sequência de tokens numéricos, não como letras individuais. Isso explica um paradoxo estranho: GPT pode se confundir facilmen

Redação da Hamidun News

Monitoramento de AI · Habr AI

2026-05-17· 2 min

Processado por IA de Habr AI; editado por Hamidun News

Por que GPT erra ao contar letras: o segredo da tokenização — Fonte: Habr AI. Colagem: Hamidun News.

◐ Ouvir artigo

Quando você escreve um prompt no ChatGPT, você vê texto comum feito de letras. Mas o modelo vê algo completamente diferente — uma sequência de números chamados tokens. Essa discrepância cria efeitos estranhos: o GPT pode não entender quantas letras tem a palavra strawberry, ou se confundir com uma contagem simples.

Como os LLMs Veem Texto

Para redes neurais, texto não é um conjunto de letras, mas uma sequência de códigos numéricos. Cada token corresponde a um número, e o modelo trabalha apenas com números, nunca vendo a letra real. É como se você estivesse lendo um livro através de um sistema que primeiro traduz palavras em códigos, você as processa, e depois os códigos são traduzidos de volta para texto.

Uma palavra frequente pode ser um único token, enquanto uma palavra rara é dividida em vários pedaços. Por exemplo, "hello" é codificado como um único número, enquanto "strawberry" pode ser três ou quatro números. Em russo, a situação é ainda mais complexa — devido à rica morfologia, as palavras são quebradas de forma menos eficiente.

Por Que Isso Cria Problemas

A discrepância entre como as pessoas veem texto e como o modelo o vê leva a toda uma série de problemas:

Erros de contagem: o GPT não pode simplesmente contar letras porque funciona com números, não com caracteres
Ilegibilidade de palavras raras: combinações raras de letras são divididas em múltiplos tokens, e o modelo as vê como pedaços separados
Assimetria linguística: inglês se divide em tokens de forma mais eficiente do que russo, chinês ou árabe
Consumo de contexto: se uma palavra foi dividida em 3 tokens em vez de 1, seu prompt ocupa mais espaço na janela de contexto
Comportamento imprevisível: o modelo pode se comportar estranhamente com números, códigos e nomes raros porque são divididos em fragmentos

O Algoritmo Nos Bastidores

Atrás da tokenização está o algoritmo Byte Pair Encoding (BPE). Veja como funciona: primeiro, o texto é dividido em cada caractere como um token separado. Então o algoritmo procura quais pares de caracteres ocorrem com mais frequência e os combina em um novo token. Depois disso, procura pares frequentes dos tokens resultantes — e os combina novamente. Isso se repete milhares de vezes. Como resultado, o vocabulário do GPT contém cerca de 50 mil tokens. Palavras frequentes e partes de palavras se tornam tokens separados, combinações raras de letras permanecem fragmentadas. Não é ideal, mas é mais eficiente do que codificar cada letra separadamente.

O Que Isso Significa

Entender tokenização muda como você aborda o trabalho com LLMs. Se você sabe que o modelo será confundido com a contagem de letras, você pode pedir que ele trabalhe de forma diferente — por exemplo, primeiro imprimir as letras separadamente, depois contá-las. Não é uma panaceia, mas ajuda a escrever prompts mais confiáveis. O conhecimento de tokenização é útil ao otimizar prompts longos — você pode prever onde o modelo "gastará" tokens desnecessariamente. Isso é importante para qualquer pessoa que trabalhe com LLMs em um nível profundo, desde engenheiros de prompt até desenvolvedores que criam aplicações baseadas em redes neurais.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis