Google DeepMind logra que el aprendizaje de refuerzo eficiente de datos de última generación RL con modelos mundiales de transformadores mejorados

El aprendizaje de refuerzo RL entrena a los agentes para maximizar las recompensas interactuando con un entorno. RL en línea alterna entre tomar acciones, recopilar observaciones y recompensas, y actualizar políticas utilizando esta experiencia. RL-sin modelo RL (MFRL) mapea las observaciones a las acciones, pero requiere una amplia recopilación de datos. RL (MBRL) basado en modelos mitiga esto aprendiendo un modelo mundial (WM) para planificar en un entorno imaginado. Los puntos de referencia estándar como ATARI-100K prueban la eficiencia de la muestra, pero su naturaleza determinista permite la memorización en lugar de la generalización. Para fomentar habilidades más amplias, los investigadores usan Crafter, un entorno 2D similar a Minecraft. Craftax-Classic, una versión basada en Jax, introduce entornos de procedimiento, observabilidad parcial y un sistema de recompensas dispersas, que requiere una exploración profunda.

Los métodos MBRL varían según cómo se utilizan WMS, para la planificación de antecedentes (políticas de capacitación con datos imaginados) o la planificación del tiempo de decisión (realizando búsquedas de LookAhead durante la inferencia). Como se ve en MuZero y EficeTicZero, la planificación del tiempo de decisión es efectiva pero computacionalmente costosa para grandes WM como los transformadores. La planificación de antecedentes, originaria del aprendizaje Dyna-Q, se ha refinado en modelos RL profundos como Dreamer, Iris y Dart. Los WM también difieren en la capacidad generativa; Mientras que los WM no generativos se destacan en la eficiencia, los WM generativos integran mejor datos reales e imaginados. Muchas arquitecturas modernas usan transformadores, aunque los modelos recurrentes de espacio de estado como Dreamerv2/3 siguen siendo relevantes.

Los investigadores de Google Deepmind introducen un método MBRL avanzado que establece un nuevo punto de referencia en el entorno Craftax-Classic, un complejo juego de supervivencia 2D que requiere generalización, exploración profunda y razonamiento a largo plazo. Su enfoque logra una recompensa del 67.42%después de 1 millones de pasos, superando Dreamerv3 (53.2%) y el rendimiento humano (65.0%). Mejoran MBRL con una línea de base robusta sin modelo, “Dyna con calentamiento” para despliegues reales e imaginados, un tokenizador de vecino más cercano para el procesamiento de imágenes basado en parches y el forzamiento de maestros de bloque para una predicción de token eficiente. Estos refinamientos mejoran colectivamente la eficiencia de la muestra, logrando el rendimiento de última generación en RL de eficiencia de datos.

El estudio mejora la línea de base MFRL al expandir el tamaño del modelo e incorporar una unidad recurrente cerrada (GRU), aumentando las recompensas de 46.91% a 55.49%. Además, el estudio introduce un enfoque MBRL utilizando un modelo de Transformer World (TWM) con cuantización de VQ-VAE, logrando recompensas del 31.93%. Para optimizar aún más el rendimiento, un método basado en DYNA integra despliegos reales e imaginados, mejorando la eficiencia del aprendizaje. Reemplazar VQ-VAE con un tokenizador de vecino más cercano al parche aumenta el rendimiento del 43.36% a 58.92%. Estos avances demuestran la efectividad de combinar mecanismos de memoria, modelos basados ​​en transformadores y una mejor codificación de observación en el aprendizaje de refuerzo.

El estudio presenta los resultados de los experimentos en el punto de referencia Craftax-clásico, realizado en 8 GPU H100 en pasos de 1 m. Cada método recolectó trayectorias de 96 longitudes en 48 entornos paralelos. Para los métodos MBRL, los despliegue imaginarios se generaron en pasos de entorno de 200k y se actualizaron 500 veces. La progresión de la “escalera MBRL” mostró mejoras significativas, con el mejor agente (M5) logrando una recompensa del 67.42%. Los estudios de ablación confirmaron la importancia de cada componente, como Dyna, NNT, Patches y BTF. En comparación con los métodos existentes, el mejor agente MBRL logró un rendimiento de última generación. Además, los experimentos completos de Craftax demostraron una generalización a entornos más duros.

En conclusión, el estudio introduce tres mejoras clave en los agentes MBRL basados ​​en la visión que utilizan TWM para la planificación de antecedentes. Estas mejoras incluyen DYNA con calentamiento, tokenización de vecino más cercano al parche y el forzamiento de maestros de bloque. El agente de MBRL propuesto se desempeña mejor en el punto de referencia Craftax-clásico, superando los modelos anteriores de vanguardia y las recompensas de expertos humanos. El trabajo futuro incluye explorar la generalización más allá de Craftax, priorizar la repetición de la experiencia, integrar los algoritmos RL fuera de la política y refinar el tokenizador para grandes modelos previamente capacitados como SAM y Dino-V2. Además, la política se modificará para aceptar tokens latentes de modelos mundiales no reconstructivos.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de agente múltiple de código abierto para evaluar el complejo sistema de IA conversacional’ (promovido)


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.