Difusión del árbol de Monte Carlo: un marco de IA escalable para la planificación del horizonte largo

Los modelos de difusión son prometedores en la planificación de horizonte largo mediante la generación de trayectorias complejas a través de la renovación iterativa. Sin embargo, su capacidad para mejorar el rendimiento a través de más cálculo en el tiempo de prueba es mínima. En comparación con la búsqueda de árboles de Monte Carlo, cuya fuerza radica en aprovechar los recursos computacionales adicionales, los planificadores típicos basados ​​en la difusión probablemente sufrirán rendimientos decrecientes en el número de pasos de desanejo o en la producción de trayectorias adicionales. Además, estos modelos tienen dificultades con compensaciones eficientes de exploración-explotación, lo que lleva al rendimiento subóptimo en entornos complejos. Los métodos tradicionales de búsqueda de árboles de Monte Carlo, al tiempo que dan una buena mejora iterativa, sufren una alta complejidad computacional en espacios de acción grandes y continuos. El mayor desafío es construir un paradigma de planificación que aprovecha la flexibilidad generativa de los modelos de difusión al tiempo que combina el beneficio de búsqueda estructurado de la búsqueda de árboles de Monte Carlo, lo que permite una toma de decisiones eficiente y escalable en problemas de horizonte largo.

Los planificadores basados ​​en la difusión de última generación, como el difusor, generan trayectorias completas de una manera holística, a partir de las cuales se evitan los modelos de dinámica hacia adelante. Aunque este enfoque aumenta la consistencia de las trayectorias, carece de métodos de búsqueda estructurados, por lo que no es adecuado para mejorar los planes subóptimos. Otros métodos, como la búsqueda difusor-aleatoria y la guía de Monte Carlo, intentan utilizar el muestreo iterativo; Sin embargo, no logran descartar sistemáticamente trayectorias poco prometedoras. La búsqueda de árboles de Monte Carlo, por el contrario, aprovecha más recursos computacionales, pero su dependencia de un modelo avanzado lo hace inadecuado para espacios de acción extensos y continuos. Estas limitaciones crean una amplia brecha en la planificación escalable y flexible, especialmente en dominios con optimización de trayectoria de horizontes largos.

Para compensar estas deficiencias, la difusión del árbol de Monte Carlo combina la búsqueda de árboles con una planificación basada en difusión, básicamente combinando la búsqueda sistemática de la búsqueda de árbol de Monte Carlo con la potencia generativa de los modelos de difusión. En lugar de tratar el proceso de renovación como un procedimiento independiente, el enfoque lo reinventa en un marco de despliegue estructurado con árboles, lo que permite una evaluación iterativa, poda y refinamiento de planes parcialmente denocados. El marco presenta tres innovaciones clave. Primero, el proceso de renovación se reinventa como un mecanismo de expansión basado en árboles que permite la búsqueda estructurada mientras se mantiene la coherencia de la trayectoria. En segundo lugar, aplica compensaciones de exploración-explotación adaptativa a través de los horarios de orientación, que ajustan adaptativamente el refinamiento de las trayectorias. En tercer lugar, en lugar de usar despliegue completo, se utiliza un método de renoización rápido y aproximado para evaluar rápidamente la calidad de la trayectoria, reduciendo así la sobrecarga computacional. Estas mejoras proporcionan un mecanismo de planificación escalable y flexible que promete mejorar el rendimiento del tiempo de prueba a medida que aumentan los recursos computacionales.

La difusión del árbol de Monte Carlo sigue las cuatro fases de la búsqueda de árboles de Monte Carlo: selección, expansión, simulación y backpropagation) dentro del marco de difusión. La fase de selección elige las subplans óptimas de acuerdo con el criterio de la confianza superior. La fase de expansión genera nuevas subplans con el modelo de difusión, con cada paso equilibrando dinámicamente la exploración a través del muestreo aleatorio y la explotación a través del refinamiento guiado por objetivos. La simulación se realiza con algoritmos eficientes de Denoising Jumpy para evaluar la calidad de las trayectorias a poco costo computacional. La backpropagation luego retrocede la señal de recompensa de las trayectorias evaluadas a través del árbol, actualizando así los valores de nodos y ajustando dinámicamente el programa de orientación. La eficiencia de este marco se evalúa utilizando el Ogbench, un punto de referencia de aprendizaje de refuerzo de objetivos fuera de línea con el objetivo que involucra tareas como navegación de laberinto, manipulación de cubos robóticos y planificación basada en imágenes. Los horizontes de planificación se eligen entre 500 y 1000 pasos, lo que permite una comparación integral de su eficiencia con modelos de referencia como difusor, refutación de difusores y forzamiento de difusión.

La difusión de Monte Carlo Tree demuestra un rendimiento de vanguardia en una variedad de tareas de planificación, superando las líneas de base basadas en la difusión y basadas en la búsqueda. En la navegación de laberinto de oraciones largas, muestra tasas de éxito casi perfectas, superando mucho los enfoques de difusores y basados ​​en la búsqueda aleatoria, que no se escala. En la manipulación de cubos robóticos, administra bien las interacciones de objetos múltiples, evitando enredos de trayectoria que hacen que los planificadores de un solo paso sufran. Para la navegación basada en imágenes bajo observabilidad parcial, preserva las altas tasas de éxito, que muestra su capacidad para equilibrar la exploración y la explotación incluso sin conocimiento del estado directo. En particular, este enfoque escala bien con el cálculo adicional del tiempo de prueba, refinando constantemente planes como la meseta de técnicas de difusión estándar, que ilustra su potencia en la búsqueda estructurada en modelos generativos.

La combinación de búsqueda estructurada y planificación de trayectoria generativa habilitada por la difusión de Monte Carlo Tree permite la toma de decisiones escalables y de alta calidad en problemas de mayor tiempo. Los cronogramas de guía adaptativa basados ​​en árboles y la simulación acelerada son significativamente mejores que los planificadores basados ​​en la difusión. Su capacidad para escalar fácilmente con más recursos computacionales lo convierte en un candidato viable para su uso en robótica, toma de decisiones autónoma y planificación estratégica. Las mejoras en la asignación de cómputo adaptativo, el meta-aprendizaje para una mejor búsqueda y la conformación de recompensas auto-supervisadas pueden hacerlo más escalable y aplicable a entornos más complejos.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Aswin AK es un pasante de consultoría en MarktechPost. Está persiguiendo su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.