Google DeepMind Permite que LLM Reescriba Algoritmos de Teoría de Juegos y Supere Expertos
Google DeepMind aplicó AlphaEvolve a algoritmos para juegos con información incompleta, como el póker. El sistema basado en LLM reescribió código para dos enfoq

Google DeepMind показала, что языковая модель может не просто помогать исследователям писать код, а самостоятельно искать новые алгоритмические идеи в игровой теории и выигрывать у решений, которые годами шлифовали люди. Речь идёт о Multi-Agent Reinforcement Learning для игр с неполной информацией — ситуаций, где участники ходят по очереди и не видят скрытые данные друг друга, как в покере. В таких задачах качество алгоритма часто зависит не только от базовой теории, но и от множества инженерных деталей: как накапливать сожаление, как дисконтировать старые сигналы, когда начинать усреднение стратегии и каким способом искать равновесие.
Обычно всё это подбирают вручную через интуицию, серию гипотез и долгие эксперименты. В препринте, опубликованном на arXiv 18 февраля 2026 года, команда DeepMind предложила переложить эту работу на AlphaEvolve — эволюционного агента для переписывания кода, который использует LLM и автоматическую проверку качества каждой новой версии. В этой работе AlphaEvolve применили к двум классическим семействам алгоритмов: CFR, то есть Counterfactual Regret Minimization, и PSRO, Policy Space Response Oracles.
Для экспериментов использовали фреймворк OpenSpiel, а качество оценивали по exploitability — метрике, которая показывает, насколько найденную стратегию можно эксплуатировать лучшим ответом соперника. Важный момент: исследователи не ограничились подбором гиперпараметров. Система меняла саму логику Python-кода, который отвечает за накопление regret-сигнала, построение текущей политики и усреднение стратегий.
В самой работе прямо указан Gemini 2.5 Pro как модель, на которой был построен этот контур поиска. Для семейства CFR система нашла новый вариант под названием VAD-CFR, Volatility-Adaptive Discounted CFR.
Его идея в том, что алгоритм не использует фиксированные правила забывания старой информации, а смотрит на волатильность обучения и сильнее дисконтирует историю в нестабильные моменты. Кроме того, AlphaEvolve добавила асимметричное усиление положительных мгновенных regret-сигналов с коэффициентом 1,1 и неожиданное правило для усреднения: вообще не начинать накопление средней политики до 500-й итерации. Это особенно интересно, потому что горизонт оценки составлял 1000 итераций, а порог в 500 система вывела сама, без явной подсказки в промпте.
На полном наборе из 11 игр VAD-CFR показал результат на уровне или выше лучших известных решений в 10 случаях из 11; исключением стала только версия Kuhn Poker на четырёх игроков. Для PSRO AlphaEvolve искала уже не правила обновления regret, а мета-решатель, который определяет распределение вероятностей по популяции стратегий. Так появился SHOR-PSRO, Smoothed Hybrid Optimistic Regret PSRO.
Этот вариант смешивает optimistic regret matching с мягким распределением по лучшим чистым стратегиям и по ходу обучения плавно меняет баланс между исследованием и выходом к равновесию. На практике это убирает часть ручной настройки, которая раньше была обязательной: исследователю больше не нужно заранее угадывать, когда системе надо поощрять разнообразие стратегий, а когда — жёстче приближаться к равновесию. На полном срезе из 11 игр SHOR-PSRO оказался на уровне или выше лучших ручных базовых решений в 8 случаях.
Отдельно важно, что DeepMind проверяла не только подгонку под тренировочные примеры. Обе найденные схемы сначала эволюционировали на четырёх играх, включая 3-player Kuhn Poker, 2-player Leduc Poker, 4-card Goofspiel и 5-sided Liar’s Dice, а потом без дополнительной перенастройки тестировались на более крупных и ранее не виденных вариантах тех же классов задач. Это сильнее обычной демонстрации на одной-двух игрушечных средах: здесь показана хотя бы базовая способность алгоритмов обобщаться за пределы конкретного набора, на котором шёл поиск.
Главный вывод простой: LLM начинает автоматизировать не только написание кода, но и дизайн самих алгоритмов. Для исследователей это сдвиг роли — меньше ручного перебора эвристик, больше постановки метрики, ограничений и системы верификации. При этом работа не доказывает, что модель умеет универсально изобретать всё подряд: успех здесь опирается на чёткую функцию оценки и на домены, где можно строго проверить качество решения.
Но даже с этой оговоркой результат выглядит серьёзно: DeepMind показала, что в узких, формализуемых областях машина уже может находить ходы, до которых эксперты не дошли вручную.