Este artículo sobre IA presenta Neural MMO 2.0: revolucionando el aprendizaje por refuerzo con sistemas de tareas flexibles y generación de procedimientos

Investigadores del MIT, CarperAI y Parametrix.AI presentaron Neural MMO 2.0, un entorno masivo de múltiples agentes para la investigación del aprendizaje por refuerzo, que enfatiza un sistema de tareas versátil que permite a los usuarios definir diversos objetivos y señales de recompensa. La mejora clave implica desafiar a los investigadores a entrenar agentes capaces de generalizar a tareas, mapas y oponentes invisibles. La versión 2.0 es una reescritura completa, que garantiza la compatibilidad con CleanRL y ofrece capacidades mejoradas para capacitar agentes adaptables.

Entre 2017 y 2021, el desarrollo de Neural MMO generó entornos influyentes como Griddly, NetHack y MineRL, que se compararon con gran detalle en una publicación anterior. Después de 2021, surgieron entornos más nuevos como Melting Pot y XLand y ampliaron el alcance de los escenarios de evaluación de inteligencia y aprendizaje multiagente. Neural MMO 2.0 cuenta con un rendimiento mejorado y presenta un sistema de tareas versátil que permite la definición de diversos objetivos.

Neural MMO 2.0 es un entorno multiagente avanzado que permite a los usuarios definir una amplia gama de objetivos y señales de recompensa a través de un sistema de tareas flexible. La plataforma ha sido reescrita por completo y ahora proporciona un espacio dinámico para estudiar interacciones complejas de múltiples agentes y dinámicas de aprendizaje por refuerzo. El sistema de tareas consta de tres módulos principales (GameState, Predicados y Tareas) que proporcionan acceso estructurado al estado del juego. Neural MMO 2.0 es una poderosa herramienta para explorar interacciones entre múltiples agentes y dinámicas de aprendizaje por refuerzo.

Neural MMO 2.0 implementa la API PettingZoo ParallelEnv y aprovecha la optimización de políticas próximas de CleanRL. La plataforma presenta tres módulos de sistema de tareas interconectados: GameState, Predicados y Tareas. El módulo GameState acelera la velocidad de simulación al alojar todo el estado del juego en un formato tensorial aplanado. Con 25 predicados integrados, los investigadores pueden articular objetivos complejos y de alto nivel, y los almacenes de datos auxiliares capturan datos de eventos para expandir las capacidades del sistema de tareas de manera eficiente. Con una mejora de rendimiento tres veces superior a su predecesora, la plataforma es un espacio dinámico para estudiar interacciones complejas de múltiples agentes, gestión de recursos y dinámica competitiva en el aprendizaje por refuerzo.

Neural MMO 2.0 representa un avance significativo, presentando un rendimiento mejorado y compatibilidad con marcos de aprendizaje por refuerzo populares, incluido CleanRL. El sistema de tareas flexible de la plataforma la convierte en una herramienta valiosa para estudiar interacciones complejas entre múltiples agentes, gestión de recursos y dinámicas competitivas en el aprendizaje por refuerzo. Neural MMO 2.0 fomenta nuevas investigaciones, exploración científica y progreso en el aprendizaje por refuerzo de múltiples agentes. Diseñado para lograr eficiencia computacional, permite velocidades de simulación más rápidas y una selección de datos eficiente para la definición de objetivos.

Las investigaciones futuras en Neural MMO 2.0 pueden centrarse en explorar la generalización a través de tareas, mapas y adversarios invisibles, desafiando a los investigadores a entrenar agentes adaptables para nuevos entornos. El potencial de la plataforma se extiende al soporte de entornos más complejos, lo que permite estudiar diversos aspectos del aprendizaje y la inteligencia. Se recomiendan mejoras y adaptaciones continuas para garantizar el soporte y el desarrollo continuos, fomentando una comunidad de usuarios activa. La integración con marcos de aprendizaje por refuerzo adicionales puede mejorar la accesibilidad, y mayores avances en la eficiencia computacional pueden mejorar las velocidades de simulación y la generación de datos para estudios de aprendizaje por refuerzo.


Revisar la Papel, Proyectoy Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.