Google DeepMind Permite que LLM Reescreva Algoritmos da Teoria dos Jogos e Supere Especialistas

Q: Qual é a fonte?

Publicado originalmente em MarkTechPost. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

28 de abr. de 2026. Tempo de leitura: 3 min.

Google DeepMind aplicou AlphaEvolve a algoritmos para jogos com informação incompleta, como poker. O sistema baseado em LLM reescreveu código para duas…

Redação da Hamidun News

Monitoramento de AI · MarkTechPost

28 de abr. de 2026· 3 min

Processado por IA de MarkTechPost; editado por Hamidun News

Google DeepMind Permite que LLM Reescreva Algoritmos da Teoria dos Jogos e Supere Especialistas — Fonte: MarkTechPost. Colagem: Hamidun News.

◐ Ouvir artigo

O Google DeepMind demonstrou que um modelo de linguagem pode não apenas ajudar pesquisadores a escrever código, mas buscar independentemente novas ideias algorítmicas na teoria dos jogos e superar soluções que humanos refinaram por anos. Isso diz respeito ao Multi-Agent Reinforcement Learning para jogos com informação incompleta — situações onde participantes jogam em turnos e não conseguem ver dados ocultos um do outro, como no pôquer. Em tais tarefas, a qualidade do algoritmo frequentemente depende não apenas de teoria básica, mas de inúmeros detalhes de engenharia: como acumular arrependimento, como descontar sinais antigos, quando começar a média de estratégia e qual método usar para encontrar equilíbrio.

Normalmente, tudo isso é selecionado manualmente através de intuição, uma série de hipóteses e longos experimentos. Em um preprint publicado no arXiv em 18 de fevereiro de 2026, o time do DeepMind propôs delegar esse trabalho ao AlphaEvolve — um agente evolutivo para reescrever código que usa LLM e verificação automática de qualidade para cada nova versão. Neste trabalho, AlphaEvolve foi aplicado a duas famílias clássicas de algoritmos: CFR, ou seja, Counterfactual Regret Minimization, e PSRO, Policy Space Response Oracles.

Para os experimentos, utilizaram o framework OpenSpiel, e a qualidade foi avaliada por exploitability — uma métrica que mostra quanto uma estratégia encontrada pode ser explorada pela melhor resposta do adversário. Um ponto importante: pesquisadores não se limitaram ao ajuste de hiperparâmetros. O sistema mudou a lógica do próprio código Python, que é responsável por acumular o sinal de arrependimento, construir a política atual e fazer a média de estratégias.

O trabalho indica diretamente o Gemini 2.5 Pro como o modelo no qual esse loop de busca foi construído. Para a família CFR, o sistema encontrou uma nova variante chamada VAD-CFR, Volatility-Adaptive Discounted CFR.

Sua ideia é que o algoritmo não usa regras fixas para esquecer informações antigas, mas observa a volatilidade do aprendizado e desconta mais fortemente o histórico em momentos instáveis. Além disso, AlphaEvolve adicionou reforço assimétrico de sinais positivos de arrependimento instantâneo com um coeficiente de 1,1 e uma regra inesperada para média: não começar a acumular política média até a 500ª iteração. Isso é particularmente interessante porque o horizonte de avaliação era de 1000 iterações, e o limiar de 500 foi derivado pelo sistema em si, sem instrução explícita no prompt.

Em um conjunto completo de 11 jogos, VAD-CFR mostrou resultados no nível ou acima das melhores soluções conhecidas em 10 dos 11 casos; a única exceção foi o Kuhn Poker de 4 jogadores. Para PSRO, AlphaEvolve já buscava não por regras de atualização de arrependimento, mas por um meta-solucionador que determina distribuição de probabilidade sobre uma população de estratégias. Isso resultou em SHOR-PSRO, Smoothed Hybrid Optimistic Regret PSRO.

Essa variante mistura correspondência de arrependimento otimista com distribuição suave sobre as melhores estratégias puras e gradualmente muda o equilíbrio entre exploração e convergência para equilíbrio durante o treinamento. Na prática, isso remove parte do ajuste manual que era previamente obrigatório: pesquisadores não precisam mais adivinhar antecipadamente quando o sistema deve encorajar diversidade de estratégia e quando deve aproximar-se mais estritamente do equilíbrio. Em um conjunto completo de 11 jogos, SHOR-PSRO estava no nível ou acima das melhores soluções de baseline manual em 8 casos.

Separadamente, é importante que o DeepMind verificou não apenas o ajuste aos exemplos de treinamento. Ambos os esquemas encontrados evoluíram primeiro em quatro jogos, incluindo Kuhn Poker de 3 jogadores, Leduc Poker de 2 jogadores, Goofspiel de 4 cartas e Liar's Dice de 5 lados, e então sem reajuste adicional foram testados em variantes maiores e previamente não vistas das mesmas classes de problemas. Isso é mais forte que demonstração típica em um ou dois ambientes de brinquedo: mostra pelo menos habilidade básica de algoritmos generalizarem além do conjunto específico no qual a busca foi conduzida.

A conclusão principal é simples: LLM está começando a automatizar não apenas escrita de código, mas design de algoritmos em si. Para pesquisadores, isso é uma mudança de papel — menos enumeração manual de heurísticas, mais configuração de métricas, restrições e sistemas de verificação. Ao mesmo tempo, o trabalho não prova que o modelo possa universalmente inventar qualquer coisa: o sucesso aqui depende de uma função de avaliação clara e de domínios onde a qualidade da solução possa ser rigorosamente verificada.

Mas mesmo com essa ressalva, o resultado parece sério: DeepMind mostrou que em domínios estreitos e formalizáveis, máquinas já conseguem encontrar movimentos que especialistas não descobriram manualmente.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis