El desafío de escalar entornos 3D en IA encarnada
Crear entornos 3D realistas y con precisión es esencial para capacitar y evaluar la IA incorporada. Sin embargo, los métodos actuales aún dependen de gráficos 3D diseñados manualmente, que son costosos y carecen de realismo, lo que limita la escalabilidad y la generalización. A diferencia de los datos a escala de Internet utilizados en modelos como GPT y Clip, los datos de IA incorporados son costosos, específicos del contexto y difícil de reutilizar. Llegar a la inteligencia de uso general en entornos físicos requiere simulaciones realistas, aprendizaje de refuerzo y diversos activos 3D. Si bien los modelos de difusión recientes y las técnicas de generación 3D son prometedoras, muchos aún carecen de características clave como precisión física, geometría estancada y escala correcta, haciéndolas inadecuadas para entornos de entrenamiento robótico.
Limitaciones de las técnicas de generación 3D existentes
La generación de objetos 3D generalmente sigue tres enfoques principales: generación de avance para resultados rápidos, métodos basados en la optimización para alta calidad y ver la reconstrucción de múltiples imágenes. Si bien las técnicas recientes han mejorado el realismo al separar la geometría y la creación de texturas, muchos modelos aún priorizan la apariencia visual sobre la física del mundo real. Esto los hace menos adecuados para simulaciones que requieren una escala precisa y una geometría estancada. Para las escenas 3D, las técnicas panorámicas han permitido la representación de visión completa, pero aún carecen de interactividad. Aunque algunas herramientas intentan mejorar los entornos de simulación con activos generados, la calidad y la diversidad siguen siendo limitadas, no alcanzando las complejas necesidades de investigación de inteligencia incorporadas.
Introducción de EmbodiedGen: de código abierto, modular y listo para la simulación
Embodiedgen es un marco de código abierto desarrollado en colaboración por investigadores de Horizon Robotics, la Universidad China de Hong Kong, el Instituto Shanghai Qi Zhi y la Universidad de Tsinghua. Está diseñado para generar activos 3D realistas y escalables adaptados para tareas de IA incorporadas. La plataforma genera objetos 3D herméticamente precisos y herméticos en formato URDF, completos con metadatos para la compatibilidad de la simulación. Con seis componentes modulares, que incluyen imagen a 3D, texto a 3D, generación de diseño y reorganización de objetos, permite la creación de escenas controlable y eficiente. Al cerrar la brecha entre los gráficos 3D tradicionales y los activos listos para la robótica, EngodiedGen facilita el desarrollo escalable y rentable de entornos interactivos para la investigación de inteligencia incorporada.
Características clave: generación multimodal para contenido 3D rico
EmbodiedGen es un kit de herramientas versátil diseñado para generar entornos 3D realistas e interactivos adaptados para tareas de IA incorporadas. Combina módulos de generación múltiple: transformar imágenes o texto en objetos 3D detallados, crear elementos articulados con piezas móviles y generar diversas texturas para mejorar la calidad visual. También admite la construcción completa de la escena organizando estos activos de una manera que respeta las propiedades y la escala física del mundo real. La salida es directamente compatible con las plataformas de simulación, lo que hace que sea más fácil y más asequible construir mundos virtuales realistas. Este sistema ayuda a los investigadores a simular eficientemente escenarios del mundo real sin depender de un modelado manual costoso.
Integración de simulación y precisión física del mundo real
EmbodiedGen es una plataforma poderosa y accesible que permite la generación de activos 3D diversos y de alta calidad adaptados para la investigación en inteligencia encarnada. Cuenta con varios módulos clave que permiten a los usuarios crear activos a partir de imágenes o texto, generar objetos articulados y texturizados, y construir escenas realistas. Estos activos son herméticos, fotorrealistas y físicamente precisos, lo que los convierte en ideales para la capacitación y evaluación basadas en simulación en robótica. La plataforma admite la integración con entornos de simulación populares, incluidos OpenAi Gym, Mujoco, Isaac Lab y Sapien, lo que permite a los investigadores simular eficientemente tareas como la navegación, la manipulación de objetos y la evitación de obstáculos a un bajo costo.
Robosplatter: renderizado 3DGS de alta fidelidad para la simulación
Una característica notable es Robosplatter, que trae un avanzado 3D Gaussian Splatting (3DGS) renderizado en simulaciones físicas. A diferencia de las tuberías gráficas tradicionales, Robosplatter mejora la fidelidad visual al tiempo que reduce la sobrecarga computacional. A través de módulos como la generación de texturas y la conversión real a SIM, los usuarios pueden editar la apariencia de activos 3D o recrear escenas del mundo real con un alto realismo. En general, EmbodiedGen simplifica la creación de mundos 3D interactivos escalables, que cerró la brecha entre la robótica del mundo real y la simulación digital. Está abiertamente disponible como un conjunto de herramientas fácil de usar para admitir una adopción más amplia y una innovación continua en la investigación de IA encarnada.
¿Por qué esta investigación es importante?
Esta investigación aborda un cuello de botella central en la IA encarnada: la falta de entornos 3D escalables, realistas y compatibles con la física para la capacitación y la evaluación. Si bien los datos a escala de Internet han impulsado el progreso en los modelos de visión y lenguaje, la inteligencia incorporada exige activos listos para la simulación con una escala, geometría e interactividad precisas, las cualidades a menudo faltan en las tuberías tradicionales de generación 3D. EmbodiedGen llena este vacío al ofrecer una plataforma modular de código abierto capaz de producir objetos y escenas 3D controlables de alta calidad y escenas compatibles con los principales simuladores de robótica. Su capacidad para convertir texto e imágenes en entornos 3D físicamente plausibles a escala lo convierte en una herramienta fundamental para avanzar en la investigación de IA incorporada, gemelos digitales y aprendizaje real a SIM.
Mira el Papel y Página del proyecto Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Registro gratuito: Infraestructura de Minicon AI 2025 (2 de agosto de 2025) [Speakers: Jessica Liu, VP Product Management @ Cerebras, Andreas Schick, Director AI @ US FDA, Volkmar Uhlig, VP AI Infrastructure @ IBM, Daniele Stroppa, WW Sr. Partner Solutions Architect @ Amazon, Aditya Gautam, Machine Learning Lead @ Meta, Sercan Arik, Research Manager @ Google Cloud AI, Valentina Pedoia, Senior Director AI/ML @ the Altos Labs, Sandeep Kaipu, Software Engineering Manager @ Broadcom ]
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.