Habr AI→ original

Por que GPT erra ao contar letras: o segredo da tokenização

Os LLMs processam o texto como uma sequência de tokens numéricos, não como letras individuais. Isso explica um paradoxo estranho: GPT pode se confundir facilmen

Processado por IA de Habr AI; editado por Hamidun News
Por que GPT erra ao contar letras: o segredo da tokenização
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Quando você escreve um prompt no ChatGPT, você vê texto comum feito de letras. Mas o modelo vê algo completamente diferente — uma sequência de números chamados tokens. Essa discrepância cria efeitos estranhos: o GPT pode não entender quantas letras tem a palavra strawberry, ou se confundir com uma contagem simples.

Como os LLMs Veem Texto

Para redes neurais, texto não é um conjunto de letras, mas uma sequência de códigos numéricos. Cada token corresponde a um número, e o modelo trabalha apenas com números, nunca vendo a letra real. É como se você estivesse lendo um livro através de um sistema que primeiro traduz palavras em códigos, você as processa, e depois os códigos são traduzidos de volta para texto.

Uma palavra frequente pode ser um único token, enquanto uma palavra rara é dividida em vários pedaços. Por exemplo, "hello" é codificado como um único número, enquanto "strawberry" pode ser três ou quatro números. Em russo, a situação é ainda mais complexa — devido à rica morfologia, as palavras são quebradas de forma menos eficiente.

Por Que Isso Cria Problemas

A discrepância entre como as pessoas veem texto e como o modelo o vê leva a toda uma série de problemas:

  • Erros de contagem: o GPT não pode simplesmente contar letras porque funciona com números, não com caracteres
  • Ilegibilidade de palavras raras: combinações raras de letras são divididas em múltiplos tokens, e o modelo as vê como pedaços separados
  • Assimetria linguística: inglês se divide em tokens de forma mais eficiente do que russo, chinês ou árabe
  • Consumo de contexto: se uma palavra foi dividida em 3 tokens em vez de 1, seu prompt ocupa mais espaço na janela de contexto
  • Comportamento imprevisível: o modelo pode se comportar estranhamente com números, códigos e nomes raros porque são divididos em fragmentos

O Algoritmo Nos Bastidores

Atrás da tokenização está o algoritmo Byte Pair Encoding (BPE). Veja como funciona: primeiro, o texto é dividido em cada caractere como um token separado. Então o algoritmo procura quais pares de caracteres ocorrem com mais frequência e os combina em um novo token. Depois disso, procura pares frequentes dos tokens resultantes — e os combina novamente. Isso se repete milhares de vezes. Como resultado, o vocabulário do GPT contém cerca de 50 mil tokens. Palavras frequentes e partes de palavras se tornam tokens separados, combinações raras de letras permanecem fragmentadas. Não é ideal, mas é mais eficiente do que codificar cada letra separadamente.

O Que Isso Significa

Entender tokenização muda como você aborda o trabalho com LLMs. Se você sabe que o modelo será confundido com a contagem de letras, você pode pedir que ele trabalhe de forma diferente — por exemplo, primeiro imprimir as letras separadamente, depois contá-las. Não é uma panaceia, mas ajuda a escrever prompts mais confiáveis. O conhecimento de tokenização é útil ao otimizar prompts longos — você pode prever onde o modelo "gastará" tokens desnecessariamente. Isso é importante para qualquer pessoa que trabalhe com LLMs em um nível profundo, desde engenheiros de prompt até desenvolvedores que criam aplicações baseadas em redes neurais.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…