Capturar y codificar información sobre una escena visual, generalmente en el contexto de visión por computadora, inteligencia artificial o gráficos, se denomina representación de escena. Implica crear una representación estructurada o abstracta de los elementos y atributos presentes en una escena, incluidos los objetos, sus posiciones, tamaños, colores y relaciones. Los robots deben construir estas representaciones en línea a partir de sensores integrados mientras navegan por un entorno.
Las representaciones deben ser escalables y eficientes para mantener el volumen de la escena y la duración de la operación del robot. La biblioteca abierta no debería limitarse a datos predefinidos en la sesión de formación, sino que debería ser capaz de manejar nuevos objetos y conceptos durante la inferencia. Exige flexibilidad para permitir la planificación de una variedad de tareas, como recopilar información geométrica densa e información semántica abstracta para la planificación de tareas.
Para incluir los requisitos anteriores, los investigadores de la Universidad de Toronto, el MIT y la Universidad de Montreal proponen ConceptoGráficos, un método de representación de escenas en 3D para la percepción y planificación de robots. El proceso tradicional de obtener representaciones de escenas 3D utilizando modelos básicos requiere una escala de datos de entrenamiento de Internet, y los conjuntos de datos 3D aún deben ser de tamaño comparable.
Se basan en asignar cada punto en un vector de características semánticas redundantes, lo que consume más memoria de la necesaria, limitando la escalabilidad a escenas grandes. Estas representaciones son densas y no se pueden actualizar dinámicamente en el mapa, por lo que no son fáciles de descomponer. El método desarrollado por el equipo puede describir de manera eficiente las escenas con estructuras gráficas con representaciones de nodos. Puede construirse sobre sistemas en tiempo real que pueden crear representaciones jerárquicas de escenas 3D.
ConceptGraphs es un sistema de mapeo centrado en objetos que integra datos geométricos de sistemas de mapeo 3D y datos semánticos de modelos básicos 2D. Por lo tanto, este intento de conectar las representaciones 2D producidas por modelos básicos de imagen y lenguaje al mundo 3D muestra resultados impresionantes en tareas de vocabulario abierto, incluida la conexión a tierra de objetos guiada por el lenguaje, el razonamiento 3D y la navegación.
ConceptGraphs puede construir gráficos de escenas 3D de vocabulario abierto de manera eficiente y abstracciones semánticas estructuradas para la percepción y la planificación. El equipo también implementó ConceptGraphs en plataformas robóticas con ruedas y patas del mundo real y demostró que esos robots pueden realizar la planificación de tareas para consultas en lenguaje abstracto con facilidad.
Con marcos RGB-D, el equipo ejecuta un modelo de segmentación independiente de la clase para obtener objetos candidatos. Los asocia en múltiples vistas utilizando medidas de similitud geométrica y semántica y crea instancias de nodos en un gráfico de escena 3D. Luego usan un LVLM para titular cada nodo y un LLM para inferir relaciones entre los nodos contiguos y los bordes del edificio en el gráfico de escena.
Los investigadores dicen que el trabajo futuro implicará integrar la dinámica temporal en el modelo y evaluar su desempeño en entornos menos estructurados y más desafiantes. Finalmente, su modelo aborda limitaciones clave en el panorama existente de representaciones densas e implícitas.
Revisar la Papel, GitHub, y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.