Poe-World + Planner supera a Reflor Learning RL Basilines en la venganza de Montezuma con datos de demostración mínimos

La importancia del razonamiento simbólico en el modelado mundial

Comprender cómo funciona el mundo es clave para crear agentes de IA que puedan adaptarse a situaciones complejas. Si bien los modelos neurales basados en redes, como Dreamer, ofrecen flexibilidad, requieren cantidades masivas de datos para aprender de manera efectiva, mucho más de lo que los humanos suelen hacerlo. Por otro lado, los métodos más nuevos utilizan la síntesis del programa con modelos de lenguaje grandes para generar modelos mundiales basados en código. Estos son más eficientes en datos y pueden generalizar bien a partir de una entrada limitada. Sin embargo, su uso se ha limitado principalmente a dominios simples, como mundos de texto o cuadrícula, ya que la escala de entornos complejos y dinámicos sigue siendo un desafío debido a la dificultad de generar grandes programas completos.

Limitaciones de los modelos mundiales programáticos existentes

Investigaciones recientes han investigado el uso de programas para representar modelos mundiales, a menudo aprovechando grandes modelos de idiomas para sintetizar las funciones de transición de Python. Enfoques como WorldCoder y CodeworldModels generan un solo programa grande, que limita su escalabilidad en entornos complejos y su capacidad para manejar la incertidumbre y la observabilidad parcial. Algunos estudios se centran en modelos simbólicos de alto nivel para la planificación robótica al integrar la entrada visual con razonamiento abstracto. Los esfuerzos anteriores emplearon lenguajes específicos de dominio restringidos adaptados a puntos de referencia específicos o utilizadas estructuras conceptualmente relacionadas, como gráficos de factores en redes de esquemas. Los modelos teóricos, como Aixi, también exploran el modelado mundial utilizando máquinas Turing y representaciones basadas en la historia.

Introducción de Poe-World: modelos mundiales modulares y probabilísticos

Los investigadores de Cornell, Cambridge, el Instituto Alan Turing y la Universidad de Dalhousie presentan a Poe-World, un enfoque para aprender modelos simbólicos del mundo al combinar muchos pequeños programas sintetizados por LLM, cada uno capturando una regla específica del medio ambiente. En lugar de crear un programa grande, Poe-World construye una estructura probabilística modular que puede aprender de breves manifestaciones. Esta configuración apoya la generalización en nuevas situaciones, lo que permite a los agentes planificar de manera efectiva, incluso en juegos complejos como Pong y la venganza de Montezuma. Si bien no modela datos de píxeles sin procesar, aprende de las observaciones de objetos simbólicos y enfatiza el modelado preciso sobre la exploración para la toma de decisiones eficientes.

Mecanismo de arquitectura y aprendizaje de Poe-World

Poe-World modela el entorno como una combinación de pequeños programas de Python interpretables llamados expertos programáticos, cada uno responsable de una regla o comportamiento específico. Estos expertos están ponderados y combinados para predecir estados futuros basados en observaciones y acciones pasadas. Al tratar las características como condicionalmente independientes y aprender de la historia completa, el modelo sigue siendo modular y escalable. Las restricciones duras refinan las predicciones, y los expertos se actualizan o se podan a medida que se recopilan nuevos datos. El modelo respalda la planificación y el aprendizaje de refuerzo al simular posibles resultados futuros, permitiendo una toma de decisiones eficiente. Los programas se sintetizan utilizando LLM y se interpretan probabilísticamente, con pesos de expertos optimizados a través del descenso de gradiente.

Evaluación empírica en juegos de Atari

El estudio evalúa a su agente, Poe-World + Planner, sobre el pong de Atari y la venganza de Montezuma, incluidas versiones modificadas más duras de estos juegos. Utilizando datos de demostración mínimos, su método supera a las líneas de base, como PPO, React y WorldCoder, particularmente en entornos de bajos datos. Poe-World demuestra una fuerte generalización al modelar con precisión la dinámica del juego, incluso en entornos alterados sin nuevas demostraciones. También es el único método para anotar constantemente positivamente en la venganza de Montezuma. Las políticas previas a la capacitación en el entorno simulado de Poe-World aceleran el aprendizaje del mundo real. A diferencia de los modelos limitados y a veces inexactos de WorldCoder, Poe-World produce representaciones más detalladas y conscientes de las restricciones, lo que lleva a una mejor planificación y un comportamiento más realista en el juego.

Conclusión: programas simbólicos y modulares para la planificación de IA escalable

En conclusión, comprender cómo funciona el mundo es crucial para construir agentes adaptativos de IA; Sin embargo, los modelos tradicionales de aprendizaje profundo requieren grandes conjuntos de datos y lucha para actualizar de manera flexible con una entrada limitada. Inspirado en cómo los humanos y los sistemas simbólicos recombinan el conocimiento, el estudio propone Poe-World. Este método utiliza grandes modelos de lenguaje para sintetizar “expertos” programáticos modulares que representan diferentes partes del mundo. Estos expertos combinan composición para formar un modelo mundial simbólico e interpretable que respalda una fuerte generalización de datos mínimos. Probado en juegos de Atari como la venganza de Pong y Montezuma, este enfoque demuestra una planificación y rendimiento eficientes, incluso en escenarios desconocidos. El código y las demostraciones están disponibles públicamente.

Mira el Papel, Página del proyecto y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Poe-World + Planner supera a Reflor Learning RL Basilines en la venganza de Montezuma con datos de demostración mínimos

ByEquipo de 7 minutos

La importancia del razonamiento simbólico en el modelado mundial

Limitaciones de los modelos mundiales programáticos existentes

Introducción de Poe-World: modelos mundiales modulares y probabilísticos

Mecanismo de arquitectura y aprendizaje de Poe-World

Evaluación empírica en juegos de Atari

Conclusión: programas simbólicos y modulares para la planificación de IA escalable

By Equipo de 7 minutos

Related Post

Conozca AntAngelMed: un modelo de lenguaje médico de código abierto con parámetros 103B construido sobre una arquitectura MoE con relación de activación de 1/32

Cree un agente autónomo de memoria híbrida con arquitectura modular y distribución de herramientas mediante OpenAI

Preguntas y respuestas: Ampliar el alcance global del MIT a través del aprendizaje universal | Noticias del MIT

You missed

Se amplió la investigación sobre Trump exigiendo control editorial sobre CNN

Asesor de deuda nórdico del año 2026

El hígado y el alcohol – Noticias Gaceta Costa Tropical

Blog de chismes deportivos n.° 1 en el mundo