Google DeepMind Permite que LLM Reescreva Algoritmos da Teoria dos Jogos e Supere Especialistas
Google DeepMind aplicou AlphaEvolve a algoritmos para jogos com informação incompleta, como poker. O sistema baseado em LLM reescreveu código para duas…
Processado por IA de MarkTechPost; editado por Hamidun News
O Google DeepMind demonstrou que um modelo de linguagem pode não apenas ajudar pesquisadores a escrever código, mas buscar independentemente novas ideias algorítmicas na teoria dos jogos e superar soluções que humanos refinaram por anos. Isso diz respeito ao Multi-Agent Reinforcement Learning para jogos com informação incompleta — situações onde participantes jogam em turnos e não conseguem ver dados ocultos um do outro, como no pôquer. Em tais tarefas, a qualidade do algoritmo frequentemente depende não apenas de teoria básica, mas de inúmeros detalhes de engenharia: como acumular arrependimento, como descontar sinais antigos, quando começar a média de estratégia e qual método usar para encontrar equilíbrio.
Normalmente, tudo isso é selecionado manualmente através de intuição, uma série de hipóteses e longos experimentos. Em um preprint publicado no arXiv em 18 de fevereiro de 2026, o time do DeepMind propôs delegar esse trabalho ao AlphaEvolve — um agente evolutivo para reescrever código que usa LLM e verificação automática de qualidade para cada nova versão. Neste trabalho, AlphaEvolve foi aplicado a duas famílias clássicas de algoritmos: CFR, ou seja, Counterfactual Regret Minimization, e PSRO, Policy Space Response Oracles.
Para os experimentos, utilizaram o framework OpenSpiel, e a qualidade foi avaliada por exploitability — uma métrica que mostra quanto uma estratégia encontrada pode ser explorada pela melhor resposta do adversário. Um ponto importante: pesquisadores não se limitaram ao ajuste de hiperparâmetros. O sistema mudou a lógica do próprio código Python, que é responsável por acumular o sinal de arrependimento, construir a política atual e fazer a média de estratégias.
O trabalho indica diretamente o Gemini 2.5 Pro como o modelo no qual esse loop de busca foi construído. Para a família CFR, o sistema encontrou uma nova variante chamada VAD-CFR, Volatility-Adaptive Discounted CFR.
Sua ideia é que o algoritmo não usa regras fixas para esquecer informações antigas, mas observa a volatilidade do aprendizado e desconta mais fortemente o histórico em momentos instáveis. Além disso, AlphaEvolve adicionou reforço assimétrico de sinais positivos de arrependimento instantâneo com um coeficiente de 1,1 e uma regra inesperada para média: não começar a acumular política média até a 500ª iteração. Isso é particularmente interessante porque o horizonte de avaliação era de 1000 iterações, e o limiar de 500 foi derivado pelo sistema em si, sem instrução explícita no prompt.
Em um conjunto completo de 11 jogos, VAD-CFR mostrou resultados no nível ou acima das melhores soluções conhecidas em 10 dos 11 casos; a única exceção foi o Kuhn Poker de 4 jogadores. Para PSRO, AlphaEvolve já buscava não por regras de atualização de arrependimento, mas por um meta-solucionador que determina distribuição de probabilidade sobre uma população de estratégias. Isso resultou em SHOR-PSRO, Smoothed Hybrid Optimistic Regret PSRO.
Essa variante mistura correspondência de arrependimento otimista com distribuição suave sobre as melhores estratégias puras e gradualmente muda o equilíbrio entre exploração e convergência para equilíbrio durante o treinamento. Na prática, isso remove parte do ajuste manual que era previamente obrigatório: pesquisadores não precisam mais adivinhar antecipadamente quando o sistema deve encorajar diversidade de estratégia e quando deve aproximar-se mais estritamente do equilíbrio. Em um conjunto completo de 11 jogos, SHOR-PSRO estava no nível ou acima das melhores soluções de baseline manual em 8 casos.
Separadamente, é importante que o DeepMind verificou não apenas o ajuste aos exemplos de treinamento. Ambos os esquemas encontrados evoluíram primeiro em quatro jogos, incluindo Kuhn Poker de 3 jogadores, Leduc Poker de 2 jogadores, Goofspiel de 4 cartas e Liar's Dice de 5 lados, e então sem reajuste adicional foram testados em variantes maiores e previamente não vistas das mesmas classes de problemas. Isso é mais forte que demonstração típica em um ou dois ambientes de brinquedo: mostra pelo menos habilidade básica de algoritmos generalizarem além do conjunto específico no qual a busca foi conduzida.
A conclusão principal é simples: LLM está começando a automatizar não apenas escrita de código, mas design de algoritmos em si. Para pesquisadores, isso é uma mudança de papel — menos enumeração manual de heurísticas, mais configuração de métricas, restrições e sistemas de verificação. Ao mesmo tempo, o trabalho não prova que o modelo possa universalmente inventar qualquer coisa: o sucesso aqui depende de uma função de avaliação clara e de domínios onde a qualidade da solução possa ser rigorosamente verificada.
Mas mesmo com essa ressalva, o resultado parece sério: DeepMind mostrou que em domínios estreitos e formalizáveis, máquinas já conseguem encontrar movimentos que especialistas não descobriram manualmente.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.