Google defende pensar mais profundamente, não por mais tempo — e reduz pela metade os custos de inferência
Um estudo conjunto do Google e da Universidade da Virgínia põe em dúvida o principal dogma dos últimos anos: quanto mais longa a cadeia de raciocínio…
Processado por IA de MarkTechPost; editado por Hamidun News
Nos últimos anos, a indústria de grandes modelos de linguagem viveu por uma regra não dita: se você quer uma resposta mais precisa de um modelo sobre uma pergunta complexa, faça-o pensar por mais tempo. A técnica Chain-of-Thought, onde um modelo constrói uma cadeia de raciocínio passo a passo antes da resposta final, tornou-se o padrão ouro. Desenvolvedores aumentaram o comprimento dessas cadeias, expandiram janelas de contexto, gastaram mais recursos computacionais em cada requisição. Mas uma nova pesquisa realizada conjuntamente pela Universidade da Virgínia e Google argumenta: estávamos confundindo verbosidade com inteligência o tempo todo.
A ideia subjacente ao trabalho é enganosamente simples. Os pesquisadores perguntaram: cada token adicional em uma cadeia de raciocínio realmente aproxima o modelo da resposta correta? Ou uma parcela significativa desses tokens é ruído informativo, repetição e marcação no mesmo lugar? Para responder a essa pergunta, a equipe introduziu uma nova métrica — Deep-Thinking Ratio, ou coeficiente de pensamento profundo. Em vez de medir o comprimento do raciocínio em tokens, essa métrica avalia qual fração do raciocínio realmente contém passos lógicos produtivos — aqueles que levam à solução do problema em vez de apenas preencher espaço.
Os resultados foram impressionantes. A análise mostrou que em cadeias de raciocínio longas típicas de LLMs modernos, uma enorme porção de passos intermediários não carrega carga semântica real. Um modelo pode reformular o mesmo pensamento dezenas de vezes, voltar a etapas já cobertas, gerar explicações redundantes — e tudo isso custa dinheiro real. Cada token extra no estágio de inferência — isso é tempo de GPU, eletricidade e latência para o usuário final. Na escala de grandes serviços processando bilhões de requisições, estamos falando de somas colossais.
A realização chave da pesquisa é que, ao otimizar o processo de raciocínio com a Deep-Thinking Ratio em mente, conseguiram alcançar duas coisas simultaneamente que geralmente são consideradas mutuamente exclusivas. A precisão das respostas do modelo melhorou — porque cortar etapas improdutivas reduz a probabilidade de o modelo "se perder" em seu próprio raciocínio e chegar a uma conclusão errônea. E os custos gerais de inferência foram reduzidos aproximadamente pela metade — porque o modelo gera significativamente menos tokens por requisição. Isso não é um compromisso entre qualidade e custo, mas um caso raro onde otimizar um parâmetro melhora ambos.
Para entender a escala dessa descoberta, vale lembrar o contexto. O custo de inferência é uma das principais dores de cabeça da indústria. OpenAI, Google, Anthropic e outras empresas gastam bilhões de dólares em infraestrutura computacional, e uma parcela significativa dessas despesas incide na geração de respostas para usuários. Modelos como o1 e o3 da OpenAI, bem como Gemini com pensamento estendido do Google, foram especialmente projetados para cadeias longas de raciocínio. Se resultar que metade desses raciocínios pode ser eliminada sem problemas — ou mais precisamente, ensinar o modelo a não gerá-los em primeiro lugar — o efeito econômico será medido em centenas de milhões de dólares anualmente.
Há também um aspecto teórico mais profundo. A pesquisa efetivamente questiona o próprio paradigma de escalagem de inferência que dominou em 2024-2025. Se "pensar por mais tempo" não equivale a "pensar melhor," então a corrida para expandir janelas de contexto e aumentar orçamentos computacionais para raciocínio é um caminho sem saída. Em vez disso, a indústria talvez devesse se concentrar na qualidade de cada passo de raciocínio em vez de sua quantidade. Isso ecoa como o pensamento humano funciona: um especialista resolve um problema não porque pensa por mais tempo que um iniciante, mas porque cada passo do seu pensamento é mais propositado.
As consequências práticas para desenvolvedores e usuários podem se manifestar bastante rapidamente. Deep-Thinking Ratio é uma métrica relativamente simples de integrar nos pipelines existentes de treinamento e avaliação de modelos. Podemos esperar que laboratórios importantes comecem a usar abordagens semelhantes durante fine-tuning, e provedores de nuvem as usem para otimizar os custos de chamadas de API. Para usuários finais, isso significa respostas mais rápidas e precisas pelo mesmo preço ou menor.
A pesquisa do Google e da Universidade da Virgínia lembra à indústria uma verdade importante que é fácil esquecer na corrida pela escala: eficiência não é sobre "mais," mas sobre "mais preciso." Os modelos do futuro provavelmente não serão aqueles que pensam por mais tempo, mas aqueles que sabem pensar substancialmente.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.