En la interacción persona-computadora, la necesidad de crear formas para que los usuarios se comuniquen con entornos 3D se ha vuelto cada vez más importante. Este campo de consultas de lenguaje abierto en 3D ha atraído a los investigadores debido a sus diversas aplicaciones en navegación y manipulación robótica, comprensión semántica 3D y edición. Sin embargo, los enfoques actuales tienen limitaciones de velocidades de procesamiento lentas y precisión limitada.
En consecuencia, un equipo de investigadores de la Universidad de Tsinghua y la Universidad de Harvard ha desarrollado un método llamado LangSplat. Los investigadores utilizaron técnicas tradicionales de salpicaduras gaussianas 3D en lugar de campos de radiación neuronal (NeRF). Primero construye un campo de lenguaje 3D para producir consultas de vocabulario abierto precisas y eficientes dentro de espacios tridimensionales. Además, a cada uno de ellos se le asigna una inserción de idioma única. Esta técnica utiliza una técnica de salpicaduras basada en mosaicos para la representación de características. La parte excepcional de LangSplat es que puede generar características lingüísticas precisas sin someterse a procesos computacionalmente costosos. Para garantizar una representación coherente entre diferentes puntos de vista, los investigadores utilizaron supervisión mediante incrustaciones CLIP derivadas de parches de imágenes capturados desde diversas perspectivas de entrenamiento.
Además, los investigadores intentaron reducir el uso de memoria y la eficiencia de renderizado utilizando un codificador automático de lenguaje por escenas. Comprime incrustaciones CLIP de alta dimensión en un espacio latente de menor dimensión antes de generar incrustaciones de lenguaje finales durante la decodificación. Por lo tanto, LangSplat reduce las necesidades de memoria al evitar el aprendizaje directo de las incrustaciones CLIP. Luego, las funciones mostradas se decodifican para obtener las incorporaciones del idioma final.
Además, los investigadores intentaron resolver el problema de las ambigüedades puntuales, que a menudo se encuentran en escenas complejas. Para hacer esto, los investigadores utilizaron la jerarquía semántica del esquema Segment Anything Model (SAM). Destacaron que utilizaron SAM, ya que permitió a LangSplat asignar incrustaciones CLIP precisas a puntos individuales del entorno y, por lo tanto, ayuda a aumentar la precisión del modelo. Además, las máscaras basadas en SAM permitieron a los investigadores realizar consultas directamente en niveles semánticos específicos. Esto ayudó a abordar la necesidad de realizar búsquedas exhaustivas en numerosas escalas absolutas y funciones DINO adicionales.
Los investigadores realizaron experimentos para evaluar la eficacia de LangSplat. La evaluación demostró que LangSplat es superior a otras soluciones de última generación como LERF. También notaron que LangSplat tiene un aumento de 199 veces en la velocidad de procesamiento y ha mejorado el rendimiento en tareas de consulta de lenguaje 3D abiertas. Además, LangSplat tiene velocidades de renderizado más rápidas y una precisión mejorada en comparación con los modelos anteriores.
En conclusión, LangSplat es un paso importante en el desarrollo del campo del lenguaje 3D. Aborda las limitaciones de los modelos anteriores mediante el uso innovador de 3D Gaussian Splatting, un codificador automático de lenguaje de escena y máscaras basadas en SAM. Además, a medida que los investigadores se centran en la precisión y velocidad de este marco, LangSplat puede remodelar la forma de interactuar y consultar información en espacios tridimensionales.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Rachit Ranjan es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT) de Patna. Está dando forma activamente a su carrera en el campo de la inteligencia artificial y la ciencia de datos y le apasiona y se dedica a explorar estos campos.