MarkTechPost→ оригинал

Google DeepMind позволила LLM переписать алгоритмы игровой теории и обойти экспертов

Google DeepMind применила AlphaEvolve к алгоритмам для игр с неполной информацией вроде покера. Система на базе LLM переписала код двух ключевых подходов, CFR и

Google DeepMind позволила LLM переписать алгоритмы игровой теории и обойти экспертов
Источник: MarkTechPost. Коллаж: Hamidun News.

Google DeepMind показала, что языковая модель может не просто помогать исследователям писать код, а самостоятельно искать новые алгоритмические идеи в игровой теории и выигрывать у решений, которые годами шлифовали люди. Речь идёт о Multi-Agent Reinforcement Learning для игр с неполной информацией — ситуаций, где участники ходят по очереди и не видят скрытые данные друг друга, как в покере. В таких задачах качество алгоритма часто зависит не только от базовой теории, но и от множества инженерных деталей: как накапливать сожаление, как дисконтировать старые сигналы, когда начинать усреднение стратегии и каким способом искать равновесие.

Обычно всё это подбирают вручную через интуицию, серию гипотез и долгие эксперименты. В препринте, опубликованном на arXiv 18 февраля 2026 года, команда DeepMind предложила переложить эту работу на AlphaEvolve — эволюционного агента для переписывания кода, который использует LLM и автоматическую проверку качества каждой новой версии. В этой работе AlphaEvolve применили к двум классическим семействам алгоритмов: CFR, то есть Counterfactual Regret Minimization, и PSRO, Policy Space Response Oracles.

Для экспериментов использовали фреймворк OpenSpiel, а качество оценивали по exploitability — метрике, которая показывает, насколько найденную стратегию можно эксплуатировать лучшим ответом соперника. Важный момент: исследователи не ограничились подбором гиперпараметров. Система меняла саму логику Python-кода, который отвечает за накопление regret-сигнала, построение текущей политики и усреднение стратегий.

В самой работе прямо указан Gemini 2.5 Pro как модель, на которой был построен этот контур поиска. Для семейства CFR система нашла новый вариант под названием VAD-CFR, Volatility-Adaptive Discounted CFR.

Его идея в том, что алгоритм не использует фиксированные правила забывания старой информации, а смотрит на волатильность обучения и сильнее дисконтирует историю в нестабильные моменты. Кроме того, AlphaEvolve добавила асимметричное усиление положительных мгновенных regret-сигналов с коэффициентом 1,1 и неожиданное правило для усреднения: вообще не начинать накопление средней политики до 500-й итерации. Это особенно интересно, потому что горизонт оценки составлял 1000 итераций, а порог в 500 система вывела сама, без явной подсказки в промпте.

На полном наборе из 11 игр VAD-CFR показал результат на уровне или выше лучших известных решений в 10 случаях из 11; исключением стала только версия Kuhn Poker на четырёх игроков. Для PSRO AlphaEvolve искала уже не правила обновления regret, а мета-решатель, который определяет распределение вероятностей по популяции стратегий. Так появился SHOR-PSRO, Smoothed Hybrid Optimistic Regret PSRO.

Этот вариант смешивает optimistic regret matching с мягким распределением по лучшим чистым стратегиям и по ходу обучения плавно меняет баланс между исследованием и выходом к равновесию. На практике это убирает часть ручной настройки, которая раньше была обязательной: исследователю больше не нужно заранее угадывать, когда системе надо поощрять разнообразие стратегий, а когда — жёстче приближаться к равновесию. На полном срезе из 11 игр SHOR-PSRO оказался на уровне или выше лучших ручных базовых решений в 8 случаях.

Отдельно важно, что DeepMind проверяла не только подгонку под тренировочные примеры. Обе найденные схемы сначала эволюционировали на четырёх играх, включая 3-player Kuhn Poker, 2-player Leduc Poker, 4-card Goofspiel и 5-sided Liar’s Dice, а потом без дополнительной перенастройки тестировались на более крупных и ранее не виденных вариантах тех же классов задач. Это сильнее обычной демонстрации на одной-двух игрушечных средах: здесь показана хотя бы базовая способность алгоритмов обобщаться за пределы конкретного набора, на котором шёл поиск.

Главный вывод простой: LLM начинает автоматизировать не только написание кода, но и дизайн самих алгоритмов. Для исследователей это сдвиг роли — меньше ручного перебора эвристик, больше постановки метрики, ограничений и системы верификации. При этом работа не доказывает, что модель умеет универсально изобретать всё подряд: успех здесь опирается на чёткую функцию оценки и на домены, где можно строго проверить качество решения.

Но даже с этой оговоркой результат выглядит серьёзно: DeepMind показала, что в узких, формализуемых областях машина уже может находить ходы, до которых эксперты не дошли вручную.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…