MarkTechPost→ original

Google DeepMind Permite que LLM Reescriba Algoritmos de Teoría de Juegos y Supere Expertos

Google DeepMind aplicó AlphaEvolve a algoritmos para juegos con información incompleta, como el póker. El sistema basado en LLM reescribió código para dos…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Google DeepMind Permite que LLM Reescriba Algoritmos de Teoría de Juegos y Supere Expertos
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Google DeepMind demostró que un modelo de lenguaje no solo puede ayudar a investigadores a escribir código, sino buscar independientemente nuevas ideas algorítmicas en teoría de juegos y superar soluciones que los humanos han refinado durante años. Se trata de Multi-Agent Reinforcement Learning para juegos con información incompleta — situaciones donde los participantes juegan por turnos y no pueden ver datos ocultos entre sí, como en el póquer. En tales tareas, la calidad del algoritmo frecuentemente depende no solo de teoría básica, sino de numerosos detalles de ingeniería: cómo acumular arrepentimiento, cómo descontar señales antiguas, cuándo comenzar a promediar la estrategia y qué método usar para encontrar equilibrio.

Normalmente, todo esto se selecciona manualmente a través de intuición, una serie de hipótesis y largos experimentos. En un preprint publicado en arXiv el 18 de febrero de 2026, el equipo de DeepMind propuso delegar este trabajo a AlphaEvolve — un agente evolutivo para reescribir código que usa LLM y verificación automática de calidad para cada nueva versión. En este trabajo, AlphaEvolve se aplicó a dos familias clásicas de algoritmos: CFR, es decir, Counterfactual Regret Minimization, y PSRO, Policy Space Response Oracles.

Para los experimentos utilizaron el framework OpenSpiel, y la calidad se evaluó mediante exploitability — una métrica que muestra cuánto una estrategia encontrada puede ser explotada por la mejor respuesta del oponente. Un punto importante: los investigadores no se limitaron al ajuste de hiperparámetros. El sistema cambió la lógica del código Python en sí mismo, que es responsable de acumular la señal de arrepentimiento, construir la política actual y promediar estrategias.

El trabajo indica directamente a Gemini 2.5 Pro como el modelo en el que se construyó este bucle de búsqueda. Para la familia CFR, el sistema encontró una nueva variante llamada VAD-CFR, Volatility-Adaptive Discounted CFR.

Su idea es que el algoritmo no usa reglas fijas para olvidar información antigua, sino que observa la volatilidad del aprendizaje y descuenta más fuertemente el historial durante momentos inestables. Además, AlphaEvolve agregó refuerzo asimétrico de señales positivas de arrepentimiento instantáneo con un coeficiente de 1,1 y una regla inesperada para el promedio: no comenzar a acumular política promediada hasta la iteración 500. Esto es particularmente interesante porque el horizonte de evaluación era de 1000 iteraciones, y el umbral de 500 fue derivado por el sistema en sí, sin instrucción explícita en el prompt.

En un conjunto completo de 11 juegos, VAD-CFR mostró resultados al nivel o por encima de las mejores soluciones conocidas en 10 de 11 casos; la única excepción fue Kuhn Poker de 4 jugadores. Para PSRO, AlphaEvolve ya buscaba no reglas de actualización de arrepentimiento, sino un meta-solucionador que determina distribución de probabilidad sobre una población de estrategias. Esto resultó en SHOR-PSRO, Smoothed Hybrid Optimistic Regret PSRO.

Esta variante mezcla coincidencia de arrepentimiento optimista con distribución suave sobre las mejores estrategias puras y gradualmente cambia el balance entre exploración y convergencia al equilibrio durante el entrenamiento. En la práctica, esto elimina parte del ajuste manual que era previamente obligatorio: los investigadores ya no necesitan adivinar de antemano cuándo el sistema debe alentar diversidad de estrategia y cuándo debe aproximarse más estrictamente al equilibrio. En un conjunto completo de 11 juegos, SHOR-PSRO estuvo al nivel o por encima de las mejores soluciones de línea base manual en 8 casos.

Por separado, es importante que DeepMind verificó no solo el ajuste a ejemplos de entrenamiento. Ambos esquemas encontrados evolucionaron primero en cuatro juegos, incluyendo Kuhn Poker de 3 jugadores, Leduc Poker de 2 jugadores, Goofspiel de 4 cartas y Liar's Dice de 5 lados, y luego sin reajuste adicional fueron probados en variantes mayores y previamente no vistas de las mismas clases de problemas. Esto es más fuerte que una demostración típica en uno o dos entornos de juguete: muestra al menos capacidad básica de los algoritmos para generalizar más allá del conjunto específico en el que se condujo la búsqueda.

La conclusión principal es simple: LLM está comenzando a automatizar no solo escritura de código, sino diseño de algoritmos en sí. Para investigadores, esto es un cambio de rol — menos enumeración manual de heurísticas, más establecimiento de métricas, restricciones y sistemas de verificación. Al mismo tiempo, el trabajo no prueba que el modelo pueda inventar universalmente cualquier cosa: el éxito aquí depende de una función de evaluación clara y de dominios donde la calidad de la solución pueda verificarse rigurosamente.

Pero incluso con esta salvedad, el resultado se ve serio: DeepMind demostró que en dominios estrechos y formalizables, las máquinas ya pueden encontrar movimientos que los expertos no han descubierto manualmente.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…