En el ámbito competitivo del aprendizaje por refuerzo de múltiples agentes (MARL), el progreso se ha visto obstaculizado durante mucho tiempo por la intuición humana. Durante años, los investigadores han refinado manualmente algoritmos como Counterfactual Regret Minimization (CFR) y Policy Space Response Oracles (PSRO), navegando por un vasto espacio combinatorio de reglas de actualización mediante prueba y error.
El equipo de investigación de Google DeepMind ahora ha cambiado este paradigma con AlphaEvolve, un agente de codificación evolutivo impulsado por modelos de lenguaje grandes (LLM) que descubre automáticamente nuevos algoritmos de aprendizaje de múltiples agentes. Al tratar el código fuente como un genoma, AlphaEvolve no sólo ajusta los parámetros, sino que inventa una lógica simbólica completamente nueva.
Evolución semántica: más allá del ajuste de hiperparámetros
A diferencia del AutoML tradicional, que a menudo optimiza constantes numéricas, AlphaEvolve realiza una evolución semántica. Utiliza Gemini 2.5 pro como operador genético inteligente para reescribir la lógica, introducir flujos de control novedosos e inyectar operaciones simbólicas en el código fuente del algoritmo.
El marco sigue un riguroso ciclo evolutivo:
Inicialización: la población comienza con implementaciones de referencia estándar, como el CFR estándar. Mutación impulsada por LLM: se selecciona un algoritmo principal en función de la aptitud y se solicita al LLM que modifique el código para reducir la explotabilidad. Evaluación automatizada: los candidatos se ejecutan en juegos proxy (por ejemplo, Kuhn Poker) para calcular puntuaciones negativas de explotabilidad. Selección: los candidatos válidos y de alto rendimiento se agregan nuevamente a la población, lo que permite que la búsqueda descubra optimizaciones no intuitivas.
VAD-CFR: Dominar la volatilidad del juego
El primer descubrimiento importante es el CFR con descuento adaptativo de volatilidad (VAD-). En los Juegos de Forma Extensiva (EFG) con información imperfecta, los agentes deben minimizar el arrepentimiento a lo largo de una secuencia de historias. Mientras que las variantes tradicionales utilizan descuentos estáticos, VAD-CFR introduce tres mecanismos que a menudo eluden a los diseñadores humanos:
Descuento adaptable a la volatilidad: utilizando una media móvil ponderada exponencial (EWMA) de la magnitud del arrepentimiento instantáneo, el algoritmo rastrea la “sacudida” del proceso de aprendizaje. Cuando la volatilidad es alta, aumentan los descuentos para olvidar más rápidamente la historia inestable; cuando cae, conserva más historial para realizar ajustes. Impulso instantáneo asimétrico: VAD-CFR aumenta los arrepentimientos instantáneos positivos en un factor de 1,1. Esto permite al agente explotar inmediatamente las desviaciones beneficiosas sin el retraso asociado con la acumulación de estándares. Ponderación de magnitud de arrepentimiento y arranque en caliente duro: el algoritmo impone un “arranque en caliente duro”, posponiendo el promedio de políticas hasta la iteración 500. Curiosamente, el LLM generó este umbral sin conocer el horizonte de evaluación de 1000 iteraciones. Una vez que comienza la acumulación, las políticas se ponderan según la magnitud del arrepentimiento instantáneo para filtrar el ruido.
En pruebas empíricas, VAD-CFR igualó o superó el rendimiento de última generación en 10 de 11 juegos, incluidos Leduc Poker y Liar’s Dice, siendo Kuhn Poker para 4 jugadores la única excepción.
SHOR-PSRO: el meta-solucionador híbrido
El segundo avance es el PSRO de arrepentimiento optimista híbrido suavizado (SHOR-). PSRO opera en una abstracción superior llamada Metajuego, donde se expande iterativamente una población de políticas. SHOR-PSRO evoluciona el Meta-Strategy Solver (MSS), el componente que determina cómo se enfrentan los oponentes entre sí.
El núcleo de SHOR-PSRO es un mecanismo de combinación híbrido que construye una metaestrategia σ combinando linealmente dos componentes distintos:
σ híbrido = (1 -𝛌) . σ ORM + 𝛌 . σSoftmax
σ ORM: Proporciona la estabilidad de Optimistic Regret Matching. σSoftmax: una distribución de Boltzmann sobre estrategias puras que sesga agresivamente al solucionador hacia modos de alta recompensa.
SHOR-PSRO emplea un programa de recocido dinámico. El factor de combinación 𝛌 se recoce de 0,3 a 0,05, cambiando gradualmente el enfoque de la exploración codiciosa a la búsqueda de un equilibrio sólido. Además, descubrió una asimetría entre entrenamiento y evaluación: el solucionador de entrenamiento usa el programa de recocido para la estabilidad, mientras que el solucionador de evaluación usa un factor de combinación bajo y fijo (𝛌=0,01) para estimaciones de explotabilidad reactiva.
Conclusiones clave
Marco AlphaEvolve: Los investigadores de DeepMind presentaron AlphaEvolve, un sistema evolutivo que utiliza modelos de lenguaje grandes (LLM) para realizar una “evolución semántica” al tratar el código fuente de un algoritmo como su genoma. Esto permite que el sistema descubra una lógica simbólica y flujos de control completamente nuevos en lugar de simplemente ajustar hiperparámetros. Descubrimiento de VAD-CFR: el sistema desarrolló un nuevo algoritmo de minimización de arrepentimiento llamado CFR con descuento adaptativo de volatilidad (VAD-). Supera las líneas de base de última generación, como el CFR+ predictivo con descuento, mediante el uso de mecanismos no intuitivos para gestionar la acumulación de arrepentimiento y la derivación de políticas. Mecanismos adaptativos de VAD-CFR: VAD-CFR utiliza un programa de descuento sensible a la volatilidad que rastrea la inestabilidad del aprendizaje a través de un promedio móvil ponderado exponencial (EWMA). También presenta un factor de ‘Impulso instantáneo asimétrico’ de 1,1 para arrepentimientos positivos y un duro arranque en caliente que retrasa el promedio de políticas hasta la iteración 500 para filtrar el ruido de las primeras etapas. Descubrimiento de SHOR-PSRO: para el entrenamiento basado en la población, AlphaEvolve descubrió el PSRO Smoothed Hybrid Optimistic Regret (SHOR-). Esta variante utiliza un meta-solucionador híbrido que combina Optimistic Regret Matching con una distribución suave y controlada por temperatura sobre las mejores estrategias puras para mejorar la velocidad de convergencia y la estabilidad. Recocido dinámico y asimetría: SHOR-PSRO automatiza la transición de la exploración a la explotación recociendo su factor de combinación y bonificaciones de diversidad durante el entrenamiento. La búsqueda también descubrió una asimetría que mejora el rendimiento en la que el solucionador de tiempo de entrenamiento utiliza un promedio de tiempo para la estabilidad, mientras que el solucionador de tiempo de evaluación utiliza una estrategia reactiva de última iteración.
Consulte el documento. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.