Este artículo de IA presenta el modelo mundial de difusión (DWM): un marco general para aprovechar los modelos de difusión como modelos mundiales en el contexto del aprendizaje por refuerzo fuera de línea

El aprendizaje por refuerzo (RL) comprende una amplia gama de algoritmos, generalmente divididos en dos grupos principales: métodos basados ​​en modelos (MB) y sin modelos (MF). Los algoritmos MB se basan en modelos predictivos de retroalimentación ambiental, denominados modelos mundiales, que simulan la dinámica del mundo real. Estos modelos facilitan la derivación de políticas mediante la exploración de acciones o la optimización de políticas. A pesar de su potencial, los métodos MB a menudo necesitan ayuda para modelar imprecisiones, lo que podría conducir a un rendimiento subóptimo en comparación con las técnicas MF.

Un desafío importante en MB RL radica en minimizar las imprecisiones del modelado mundial. Los modelos mundiales tradicionales a menudo sufren limitaciones en su dinámica de un solo paso, prediciendo el estado posterior y la recompensa basándose únicamente en el estado y la acción actuales. Los investigadores proponen un enfoque novedoso llamado Modelo Mundial de Difusión (DWM) para abordar esta limitación.

A diferencia de los modelos convencionales, DWM es un modelo probabilístico de difusión diseñado específicamente para predecir resultados a largo plazo. Al indicar simultáneamente estados futuros de varios pasos y recompensas sin consultas recursivas, DWM elimina la fuente de acumulación de errores.

DWM se entrena utilizando el conjunto de datos disponible y, posteriormente, las políticas se entrenan utilizando datos sintetizados generados por DWM a través de un enfoque de actor crítico. Para mejorar aún más el rendimiento, los investigadores introdujeron la expansión del valor del modelo de difusión (Diffusion-MVE) para simular retornos basados ​​en trayectorias futuras generadas por DWM. Este método utiliza eficazmente el modelado generativo para facilitar el Q-learning fuera de línea con datos sintéticos.

La eficacia del marco propuesto se demuestra a través de una evaluación empírica, específicamente en tareas de locomoción del punto de referencia D4RL. La comparación de los modelos mundiales basados ​​en difusión con los modelos tradicionales de un solo paso revela mejoras notables en el rendimiento.

El modelo de mundo de difusión logra una notable mejora del 44% con respecto a los modelos de un solo paso en tareas en espacios de observación y acción continua. Además, se subraya la capacidad del marco para cerrar la brecha entre los algoritmos MB y MF, y el método logra un rendimiento de vanguardia en RL fuera de línea, lo que destaca su potencial para avanzar en el campo del aprendizaje por refuerzo.

Además, los avances recientes en las metodologías de RL fuera de línea se han concentrado principalmente en los algoritmos de MF, prestándose atención limitada a conciliar las disparidades entre los enfoques de MB y MF. Sin embargo, su marco aborda esta brecha aprovechando las fortalezas de los paradigmas MB y MF.

Al integrar el modelo mundial de difusión en el marco de RL fuera de línea, se puede lograr un rendimiento de vanguardia, superando las limitaciones de los modelos mundiales tradicionales de un solo paso. Esto subraya la importancia de las técnicas de modelado de secuencias en los problemas de toma de decisiones y el potencial de enfoques híbridos que fusionen las ventajas de los métodos MB y MF.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 37k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.