Google DeepMind Permet aux LLM de Réécrire les Algorithmes de la Théorie des Jeux et de Surpasser les Experts
Google DeepMind a appliqué AlphaEvolve aux algorithmes pour les jeux avec information incomplète, comme le poker. Le système basé sur LLM a réécrit le code…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Google DeepMind a démontré qu'un modèle de langage peut non seulement aider les chercheurs à écrire du code, mais aussi rechercher indépendamment de nouvelles idées algorithmiques en théorie des jeux et surpasser des solutions que les humains ont affinées pendant des années. Cela concerne le Multi-Agent Reinforcement Learning pour les jeux à information imparfaite — des situations où les participants jouent à tour de rôle et ne peuvent pas voir les données cachées les uns des autres, comme au poker. Dans de telles tâches, la qualité de l'algorithme dépend souvent non seulement de la théorie de base, mais de nombreux détails d'ingénierie : comment accumuler le regret, comment actualiser les anciens signaux, quand commencer à moyenner la stratégie et quelle méthode utiliser pour trouver l'équilibre.
Normalement, tout cela est sélectionné manuellement par l'intuition, une série d'hypothèses et de longs expériences. Dans une prépublication publiée sur arXiv le 18 février 2026, l'équipe de DeepMind a proposé de déléguer ce travail à AlphaEvolve — un agent évolutionnaire pour réécrire du code qui utilise LLM et une vérification automatique de qualité pour chaque nouvelle version. Dans ce travail, AlphaEvolve a été appliqué à deux familles d'algorithmes classiques : CFR, c'est-à-dire Counterfactual Regret Minimization, et PSRO, Policy Space Response Oracles.
Pour les expériences, ils ont utilisé le framework OpenSpiel, et la qualité a été évaluée par exploitability — une métrique qui montre combien une stratégie trouvée peut être exploitée par la meilleure réponse de l'adversaire. Un point important : les chercheurs ne se sont pas limités à l'ajustement des hyperparamètres. Le système a modifié la logique du code Python lui-même, qui est responsable de l'accumulation du signal de regret, de la construction de la politique actuelle et de la moyenne des stratégies.
Le travail indique directement Gemini 2.5 Pro comme le modèle sur lequel cette boucle de recherche a été construite. Pour la famille CFR, le système a trouvé une nouvelle variante appelée VAD-CFR, Volatility-Adaptive Discounted CFR.
Son idée est que l'algorithme n'utilise pas des règles fixes pour oublier les anciennes informations, mais examine la volatilité de l'apprentissage et actualise plus fortement l'historique pendant les moments instables. De plus, AlphaEvolve a ajouté un renforcement asymétrique des signaux positifs de regret instantané avec un coefficient de 1,1 et une règle inattendue pour la moyenne : ne pas commencer à accumuler la politique moyenne jusqu'à la 500ème itération. C'est particulièrement intéressant car l'horizon d'évaluation était de 1000 itérations, et le seuil de 500 a été dérivé par le système lui-même, sans instruction explicite dans le prompt.
Sur un ensemble complet de 11 jeux, VAD-CFR a montré des résultats au niveau ou supérieurs aux meilleures solutions connues dans 10 cas sur 11 ; la seule exception était Kuhn Poker à 4 joueurs. Pour PSRO, AlphaEvolve cherchait déjà non pas des règles de mise à jour du regret, mais un méta-solveur qui détermine la distribution de probabilité sur une population de stratégies. Cela a donné naissance à SHOR-PSRO, Smoothed Hybrid Optimistic Regret PSRO.
Cette variante mélange la correspondance de regret optimiste avec une distribution douce sur les meilleures stratégies pures et change progressivement l'équilibre entre l'exploration et la convergence vers l'équilibre pendant l'entraînement. En pratique, cela élimine une partie de l'ajustement manuel qui était auparavant obligatoire : les chercheurs n'ont plus besoin de deviner à l'avance quand le système doit encourager la diversité des stratégies et quand il doit s'approcher plus strictement de l'équilibre. Sur un ensemble complet de 11 jeux, SHOR-PSRO a été au niveau ou supérieur aux meilleures solutions de référence manuelles dans 8 cas.
Séparément, il est important que DeepMind ait vérifié non seulement l'ajustement aux exemples d'entraînement. Les deux schémas trouvés ont d'abord évolué sur quatre jeux, dont Kuhn Poker à 3 joueurs, Leduc Poker à 2 joueurs, Goofspiel à 4 cartes et Liar's Dice à 5 côtés, puis sans réajustement supplémentaire ont été testés sur des variantes plus grandes et auparavant non vues des mêmes classes de problèmes. C'est plus fort qu'une démonstration typique sur un ou deux environnements jouets : cela montre au moins la capacité basique des algorithmes à généraliser au-delà de l'ensemble spécifique sur lequel la recherche a été menée.
La conclusion principale est simple : LLM commence à automatiser non seulement l'écriture de code, mais la conception d'algorithmes elle-même. Pour les chercheurs, c'est un changement de rôle — moins d'énumération manuelle d'heuristiques, plus de définition de métriques, de contraintes et de systèmes de vérification. En même temps, le travail ne prouve pas que le modèle puisse inventer universellement n'importe quoi : le succès ici repose sur une fonction d'évaluation claire et sur des domaines où la qualité de la solution peut être vérifiée rigoureusement.
Mais même avec cette réserve, le résultat semble sérieux : DeepMind a montré que dans des domaines étroits et formalisables, les machines peuvent déjà trouver des mouvements que les experts n'ont pas découverts manuellement.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.