BPE contra morfemas: por que seu AI ainda não consegue ler
Imagine aprendendo um idioma estrangeiro, mas seu livro didático está cortado em pedaços aleatórios de papel. Em vez de aprender a raiz "ход" e entender…
Processado por IA de Habr AI; editado por Hamidun News
Imagine aprendendo um idioma estrangeiro, mas seu livro didático está cortado em pedaços aleatórios de papel. Em vez de aprender a raiz "ход" e entender dezenas de palavras de "выхода" a "перехода," você é forçado a memorizar cada combinação de letras como um hieróglifo único. Assim é como o mundo dos modelos de linguagem mais avançados vê as coisas hoje.
Enquanto nos maravilhamos com as capacidades do GPT-4 ou Claude 3, seu fundamento contém uma bomba-relógio arquitetônica chamada BPE ou Byte Pair Encoding. Este algoritmo se tornou o padrão da indústria em 2016, e desde então quase ninguém o questionou. O problema é que BPE é um matemático sociopata que não se importa com linguística.
Ele corta o texto em tokens baseado única e exclusivamente na frequência de caracteres. Como resultado, a palavra "paratrooper" se torna uma sequência sem sentido de "par," "atro" e "oper" para o modelo. O modelo desperdiça bilhões de ciclos computacionais e vastas porções de seus parâmetros simplesmente reconstruindo as conexões lógicas entre esses fragmentos que seu cérebro lê instantaneamente.
Por muito tempo, acreditava-se que se você alimentasse uma rede neural com dados suficientes, ela aprenderia as regras de gramática e morfologia por conta própria. E ela aprende, mas faz isso de forma extremamente ineficiente. Um grupo de pesquisadores decidiu testar o que aconteceria se reintroduzissem bom senso e estrutura linguística no processo de treinamento.
Eles testaram abordagens MorphBPE e MorphPiece, que forçam o tokenizador a respeitar os limites de morfemas: prefixos, raízes e sufixos. Os resultados foram alarmantes para os devotos da "matemática pura." Modelos usando tokenização morfológica mostram uma melhora de 25% na precisão no teste LAMBADA, que mede a capacidade de prever a última palavra de uma sentença.
Mas ainda mais importante é a velocidade de convergência: essas redes treinam duas vezes mais rápido. Em um experimento, um modelo que completou apenas 200 mil passos de treinamento com tokenização apropriada igualou a qualidade de respostas do GPT-2 Large, que é seis vezes maior em termos de parâmetros. Este é um sinal direto ao mercado: podemos obter os mesmos resultados em hardware muito mais barato se pararmos de alimentar algoritmos com "mistura de palavras."
Por que OpenAI, Google e Anthropic ainda não migraram para este método? A resposta está na inércia e na complexidade de implementação para sistemas multilíngues. BPE é universal — não importa se você o alimenta com texto em inglês, código Python ou caracteres chineses.
A análise morfológica requer personalização para cada idioma específico, o que complica o pipeline de preparação de dados. No entanto, a crise atual de custos de treinamento e a escassez de textos de qualidade estão forçando engenheiros a buscar novos caminhos de otimização. Quando o custo de treinar um modelo de ponta ultrapassa centenas de milhões de dólares, economizar 50% do tempo de convergência se torna uma questão de sobrevivência empresarial.
Além disso, a abordagem morfológica resolve o problema de palavras raras e neologismos. Se um modelo entende o significado dos morfemas, ele pode logicamente deduzir o significado de uma palavra que vê pela primeira vez, em vez de adivinhar baseado em combinações de tokens.
Estamos agora testemunhando um retorno silencioso da linguística clássica na era do hype de redes neurais. Está ficando claro que o dimensionamento sem limite "na raça" aumentando o número de GPUs é um caminho sem saída. O futuro está em soluções híbridas, onde uma compreensão profunda da estrutura da linguagem na entrada liberta o modelo de reinventar a roda dentro de suas camadas.
Muito provavelmente, na arquitetura do GPT-5 ou de seus sucessores, veremos um abandono do BPE primitivo em favor de sistemas mais inteligentes de divisão de texto. Isto não é apenas um detalhe técnico, mas uma mudança fundamental em como as máquinas percebem a cultura humana codificada em palavras. Enquanto pesquisadores refinam algoritmos MorphPiece e Unigram com aprimoramentos morfológicos, desenvolvedores devem se preparar para o fato de que métodos antigos de preparação de datasets em breve serão relegados à lixeira da história.
O essencial: Usar morfemas em vez de sílabas aleatórias torna os modelos mais inteligentes e duas vezes mais baratos de treinar. A indústria está pronta para admitir que os linguistas estavam certos desde o início, ou continuaremos queimando eletricidade tentando ensinar IA a ler sílaba por sílaba?
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.