Habr AI→ original

Habr Explicou Como Forçar LLMs a Calcular Sem Erros Através da Geração de Código Python

O Habr mostrou uma forma simples de eliminar erros aritméticos do LLM: em vez de pedir ao modelo para calcular diretamente, forçá-lo a gerar um script Python…

Processado por IA de Habr AI; editado por Hamidun News
Habr Explicou Como Forçar LLMs a Calcular Sem Erros Através da Geração de Código Python
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Habr publicou uma análise prática sobre por que LLMs cometem erros regularmente em aritmética e como contornar isso em um produto real. Em vez de pedir ao modelo para calcular sozinho, o autor sugere dar-lhe um papel diferente: escrever um script em Python e passar os cálculos para um programa comum.

Por Que LLMs Cometem Erros

O problema não é que um chatbot específico "se quebrou". Um transformer prevê o próximo token por probabilidade, em vez de chamar uma calculadora. Portanto, ao multiplicar, recalcular uma receita ou calcular contas de serviços, o modelo pode gerar uma resposta que parece convincente, mas difere da correta em vários por cento ou até dezenas de por cento. Para um usuário, parece uma degradação, embora seja na verdade uma limitação fundamental da arquitetura: LLMs reproduzem bem o padrão de cálculo, mas não realizam a operação em si.

"O modelo não calcula.

O modelo programa. E o programa calcula."

Por isso, são particularmente perigosas as tarefas onde o erro não salta aos olhos imediatamente. Se uma pessoa já consegue verificar o resultado na forma tradicional, ela não precisa de um LLM. Mas quando o modelo é usado justamente para evitar cálculos manuais, um número plausível passa facilmente sem verificação. O artigo traz um exemplo com contas de serviços: o modelo pode lembrar uma tarifa desatualizada, multiplicá-la "mentalmente" e formatar a resposta lindamente, embora o cálculo interno esteja errado.

Como Funciona o Esquema

O esquema funcional é construído em torno da divisão de papéis. Um usuário envia uma tarefa para um mensageiro, o LLM recebe um prompt do sistema com contexto e dados necessários, depois gera código em Python. Este código é executado em uma sandbox Docker isolada, e o serviço retorna não apenas texto formatado, mas também um arquivo Excel pronto. Neste cenário, o modelo cuida da compreensão da solicitação e da estrutura do programa, enquanto a precisão aritmética fica completamente a cargo do interpretador Python.

  • A entrada pode ser leituras de medidores, uma tabela ou um orçamento
  • Tarifas e livros de referência são fornecidos ao prompt a partir de um arquivo de configuração
  • O modelo deve retornar código Python, não uma resposta pronta
  • O script é executado em um contêiner isolado com tempo limite
  • O usuário recebe um cálculo em texto e um arquivo Excel

O autor escreve que para essas tarefas usa Qwen e DeepSeek em vez de modelos top caros. A lógica é pragmática: se você precisa gerar um script de 20–200 linhas, a diferença na qualidade do código entre modelos premium e mais acessíveis é pequena, mas a diferença no preço é notável. Uma ênfase separada: tarifas e livros de referência devem vir do prompt de um arquivo de configuração, não da "memória" do modelo. Se uma taxa mudar, é suficiente atualizar uma linha de dados sem tocar no modelo.

Onde Deu Problema

O erro mais comum no estágio inicial foi pedir ao modelo para encontrar as tarifas sozinho. Nesse modo, ele confiantemente substitui dados desatualizados ou alheios, e o erro parece plausível. Por isso o autor moveu todos os números sensíveis para um arquivo de configuração e os atualiza de fontes oficiais separadamente.

Um segundo problema: alguns modelos ainda tentam "calcular mentalmente" e fornecer uma resposta pronta mesmo após instruções. A solução é simples: validar a presença de código Python e, se necessário, enviar uma solicitação de acompanhamento com formulação rígida. Na prática, surgiram problemas mais técnicos: cirílico no Excel quebrava sem UTF-8 explícito, o modelo puxava bibliotecas desnecessárias como pandas, e sem stderr completo não conseguia corrigir seus próprios erros após falha do script.

Mas quando o serviço começou a retornar traceback para o modelo, o número de iterações inúteis, segundo o autor, caiu cinco vezes. A mesma abordagem foi aplicada a uma tarefa mais complexa—análise de orçamentos de reparo, onde um teste mostrou uma sobrecarga de 54.168 reais e oito itens mais caros que o mercado em mais de 50%.

O Que Isso Significa

A abordagem "LLM escreve código, não uma resposta" parece ser uma das formas mais práticas de usar modelos onde a precisão importa. Para contabilidade, orçamentos, impostos e qualquer cenário de cálculo, isso elimina o risco principal: texto, estrutura e automação ficam com o modelo, enquanto os números verificáveis ficam com software comum.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…