Por que o ChatGPT e outros LLMs se tornaram muito mais poderosos do que a simples "previsão de palavras"
Os LLMs ainda preveem o próximo token, mas os principais avanços dos últimos anos foram construídos sobre esse mecanismo. Os modelos aprenderam a dizer "não…
Processado por IA de Habr AI; editado por Hamidun News
Os grandes modelos de linguagem continuam construindo suas respostas como previsão do próximo token, mas este mecanismo aparentemente simples se mostrou muito mais produtivo do que muitos pesquisadores esperavam. O crescimento acentuado na qualidade dos LLMs é explicado não apenas pela escala, mas pela forma como autocrítica, ferramentas e raciocínio de múltiplas etapas foram adicionadas sobre o modelo base.
De Onde Veio o Ceticismo
Ainda em 2024, uma explicação popular soava assim: LLMs são autocomplementadores de texto gigantes que não entendem significado, mas apenas continuam sequências de tokens. Disso resultava uma conclusão direta: se a base é tão primitiva, então o teto de qualidade para tais sistemas deveria ser baixo. Alucinações, respostas genéricas e desempenho ruim em tarefas que requerem dados frescos apenas reforçavam essa visão.
Um exemplo típico—uma pergunta com detalhes específicos do mundo real, como se é mais barato voar de Londres a Barcelona ou pegar um trem na próxima sexta. Modelos iniciais respondiam em generalidades: aviões são geralmente mais rápidos e baratos, trens são mais confortáveis e ecológicos. Tal resposta poderia soar plausível, mas não ajudava a tomar uma decisão.
É por isso que parecia a muitos que apenas escalar não era suficiente: o que era necessário não era um autocomplementador maior, mas um nível diferente de comportamento.
O Que Foi Adicionado Por Cima
A primeira camada importante sobre o modelo base foi a capacidade de reconhecer sua própria incerteza. Em vez de afirmações confiantes, os LLMs modernos cada vez mais podem dizer que não têm acesso a dados em tempo real, carecem de contexto ou seria melhor consultar uma fonte externa. Isso parece uma melhoria cosmética, mas na realidade aumenta drasticamente a utilidade: o modelo para de mascarar lacunas de conhecimento e começa a marcar corretamente os limites de sua competência.
A segunda camada é a chamada de ferramentas. Do ponto de vista da arquitetura, o modelo ainda gera tokens, mas agora o ambiente interpreta certos tokens como comandos: fazer uma busca na web, chamar uma API, acessar um banco de dados ou executar um pequeno script. Como resultado, o LLM não precisa mais guardar tudo em seus pesos: pode obter fatos ausentes diretamente durante a geração da resposta e continuar o raciocínio com base neles.
- Verificar preços atuais, clima ou horários via busca na web
- Acessar bases de conhecimento corporativo ou APIs externas
- Executar scripts Python para cálculos e comparações
- Refazer consultas se os resultados iniciais parecerem desatualizados ou contraditórios
Por Que Funcionou
Mas o salto mais inesperado na qualidade não veio apenas das ferramentas, mas do treinamento em raciocínio. No início parecia um tipo de solicitação de pensamento passo a passo, que ajudava o modelo a analisar tarefas mais cuidadosamente. Depois aprendizado por reforço entrou em jogo, e posteriormente—abordagens com recompensa verificável, onde a correção de uma resposta de matemática ou código pode ser verificada automaticamente. O modelo começou não apenas a fornecer respostas, mas cada vez mais a escolher trajetórias que realmente levam a soluções corretas.
"Aprendizado por reforço é sempre orientado para um resultado.
Neste caso, esse resultado se tornou o raciocínio."
Disso surgiu outra ideia: se o modelo já sabe como pensar passo a passo, pode ter mais tempo para raciocinar. Tokens adicionais durante a geração de resposta se tornam não conversa vazia, mas exploração de alternativas, autoavaliação e retirada de hipóteses falhadas. Essencialmente, parte da inteligência agora é determinada não apenas pelo que foi memorizado durante o treinamento, mas por quanto tempo de computação o sistema gasta no momento da consulta.
É precisamente a combinação de raciocínio e ferramentas que torna os LLMs modernos muito mais fortes do que versões anteriores. Na tarefa do trem e do avião, um bom modelo primeiro entende quais dados lhe faltam, depois procura por preços, compara conexões e duração da rota, calcula resultados através de código se necessário, e depois verifica se os resultados não ficaram desatualizados. Isso não é mais apenas uma resposta de texto bonita, mas um loop de tomada de decisão funcional construído sobre o mesmo mecanismo de previsão do próximo token.
O Que Isso Significa
O sucesso dos LLMs agora é explicado não por magia e não apenas por escala, mas por engenharia sobreposta a um princípio básico. Modelos ainda podem cometer erros, ficar presos em loops e alucinar, mas a combinação de autocrítica, ferramentas e raciocínio por RL transformou "autocomplemento de texto" em um sistema que genuinamente ajuda a resolver problemas práticos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.