Redes neurais ainda são fracas em multiplicação: por que a AI escreve código, mas erra na aritmética
Grandes modelos de linguagem impressionam em código e texto, mas ainda erram com frequência na multiplicação. O motivo é simples: um LLM normalmente prevê o…
Processado por IA de Habr AI; editado por Hamidun News
Grandes modelos de linguagem conseguem escrever código, traduzir textos e manter longas conversas, mas ainda têm uma fraqueza sistêmica com multiplicação. O problema é que a maioria das redes neurais não "calcula" números passo a passo, mas prevê a sequência mais provável de símbolos — e isso rapidamente se torna aparente na aritmética.
Por Que Isso Acontece
Para humanos, multiplicação é um algoritmo: dividir números em dígitos, multiplicar as partes, transportar as dezenas e somar os resultados intermediários. Para um modelo de linguagem, uma expressão como 37 × 48 é antes de tudo um modelo de texto, semelhante a milhões de outras sequências que viu durante o treinamento. Ele não executa uma "calculadora" incorporada por padrão, mas tenta continuar a sequência de forma estatisticamente plausível. Em exemplos curtos e frequentes, essa abordagem às vezes fornece a resposta correta, mas não é a mesma coisa que computação confiável.
"Eles não contam da forma como entendemos, mas sim lembram e aproximam
respostas."
Por causa disso, um modelo pode parecer muito inteligente em tarefas onde uma variação na formulação é aceitável, mas tropeça onde um resultado único e preciso é necessário. Texto, código e até resumos de artigos muitas vezes perdoam pequenos desvios: o significado pode ser transmitido de diferentes formas. Na aritmética, não há tal luxo. Um erro em um único dígito transforma uma resposta correta em incorreta, e uma explicação bonita não ajuda. É exatamente por isso que o contraste entre "escreve poesia" e "se confunde com tabuada" parece tão marcante.
Onde os Modelos Falham
Isso é melhor visto em tarefas que requerem adesão rigorosa passo a passo, em vez de reconhecimento de padrões. Se um exemplo apareceu muitas vezes, o modelo pode reproduzir a resposta quase impecavelmente. Mas quanto mais longos os números e mais transportes entre dígitos, maior a chance de que comece a improvisar. Adicione um pouco de texto extra ao problema, um formato incomum ou várias operações seguidas — e a probabilidade de falha aumenta notavelmente.
- Multiplicação de números com vários dígitos com múltiplos transportes
- Combinações raras que estavam quase ausentes dos dados de treinamento
- Tarefas onde números estão misturados com texto, unidades de medida ou condições
- Cadeias de cálculos onde um erro inicial quebra toda a resposta subsequente
- Verificar seu próprio resultado sem uma ferramenta externa
O paradoxo é que escrever código é frequentemente mais fácil para o modelo do que fazer aritmética. Em programação, ele se baseia em um vasto corpus de estruturas repetitivas: sintaxe, funções típicas, bibliotecas conhecidas, modelos de solução. Se pedido não para calcular, mas para escrever um programa curto para executar o cálculo, o resultado é frequentemente mais confiável. Em outras palavras, o modelo pode descrever com sucesso um procedimento ou gerar uma ferramenta que resolve o problema, mas nem sempre executa esse procedimento de forma confiável em sua própria "mente."
Como Isso é Contornado
É exatamente por isso que os sistemas de IA práticos são cada vez mais complementados com ferramentas externas. Se um produto precisa de matemática precisa, o modelo não deve adivinhar a resposta da memória: é melhor direcioná-lo para uma calculadora, interpretador Python, mecanismo SQL ou módulo de computação especializado. Essa abordagem já se tornou padrão em sistemas de agentes e cenários corporativos onde o custo do erro é muito alto.
Também existem tentativas mais profundas de resolver o problema no nível da arquitetura. Pesquisadores estão experimentando com modelos que funcionam melhor com regras simbólicas, retêm estados intermediários ou são treinados com mais precisão para executar operações passo a passo. Técnicas como chain-of-thought também ajudam, onde o modelo delineia a solução passo a passo, mas isso não é mágica: se o mecanismo subjacente ainda se baseia em predição de tokens, uma longa cadeia de raciocínio também pode levar cuidadosamente ao número errado. A confiabilidade não vem de uma explicação bonita, mas de um loop computacional verificável.
O Que Isso Significa
A conclusão principal é simples: linguagem impressionante não é igual a cálculo preciso. À medida que a IA transita cada vez mais do papel de parceiro conversacional para o papel de ferramenta de trabalho, torna-se cada vez mais importante separar tarefas de "gerar uma resposta plausível" e tarefas de "obter um resultado garantidamente correto" — e usar mecanismos separados de verificação e computação para a segunda classe.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.