Con conocimientos previos, la reconstrucción solo RGB con una cámara monocular ha logrado avances significativos hacia la resolución de los problemas de las áreas de baja textura y la ambigüedad inherente de la reconstrucción basada en imágenes. Las soluciones prácticas para la ejecución en tiempo real han atraído considerable atención, ya que son esenciales para aplicaciones interactivas en dispositivos móviles. Sin embargo, un requisito previo crucial que aún debe considerarse en los actuales sistemas de reconstrucción de vanguardia es que un enfoque exitoso debe realizarse tanto en línea como en tiempo real.
Para funcionar en línea, un algoritmo debe generar reconstrucciones incrementales precisas durante la captura de imágenes, basándose únicamente en observaciones históricas y actuales en cada intervalo de tiempo. Este problema rompe una premisa importante de esfuerzos anteriores: cada vista tiene una estimación de postura exacta y totalmente optimizada. Más bien, la deriva de pose ocurre en un sistema de localización y mapeo simultáneo (SLAM) en condiciones de escaneo del mundo real, lo que lleva a un flujo de estimaciones de pose dinámicas. Las poses anteriores se actualizan debido a la optimización del gráfico de poses y al cierre del bucle. Estas actualizaciones de postura de SLAM son comunes en el escaneo en línea.
Como se muestra en la Figura 1, la reconstrucción debe mantener su acuerdo con el sistema SLAM respetando estos cambios. Sin embargo, los esfuerzos recientes sobre la reconstrucción densa solo de RGB aún tienen que abordar el carácter dinámico de las estimaciones de la postura de la cámara en aplicaciones en línea. A pesar de los avances significativos en la calidad de la reconstrucción, estas iniciativas no han abordado explícitamente las posturas dinámicas y han mantenido la formulación convencional de imágenes de entrada con posturas estáticas. Por otro lado, admiten que estas actualizaciones existen y proporcionan una forma de integrar la gestión de actualizaciones de postura en las técnicas actuales exclusivas de RGB.
Figura 1: Los datos de pose de un sistema SLAM (a, b) se pueden actualizar (c, rojo-verde) en la reconstrucción 3D en vivo. Nuestra técnica de gestión de actualización de postura genera reconstrucciones globalmente consistentes y precisas, mientras que ignorar estos cambios da como resultado una geometría incorrecta.
Están influenciados por BundleFusion, una técnica RGB-D que utiliza un algoritmo de actualización lineal para integrar nuevas vistas en la escena. Esto permite la desintegración de opiniones más antiguas y su reintegración cuando esté disponible un puesto actualizado. Este estudio sugiere gestionar los cambios de postura en la reconstrucción en vivo a partir de imágenes RGB utilizando la desintegración como marco genérico. Se estudian tres ejemplos de técnicas de reconstrucción solo RGB con suposiciones de postura estática. Superar las limitaciones de cada enfoque en el escenario online.
Específicamente, investigadores de Apple y la Universidad de California en Santa Bárbara proporcionan una técnica única de desintegración no lineal basada en aprendizaje profundo para facilitar la reconstrucción en línea de técnicas como NeuralRecon, que se basa en una regla de actualización no lineal aprendida. Presentan un conjunto de datos nuevo y único llamado LivePose, que contiene secuencias de postura dinámicas completas para ScanNet, creadas con BundleFusion, para verificar esta tecnología y facilitar estudios futuros. La eficacia de la estrategia de desintegración se demuestra en pruebas que revelan mejoras cualitativas y cuantitativas en tres sistemas de vanguardia sobre importantes medidas de reconstrucción. Compromisos.
Sus principales contribuciones son: • Proporcionan y definen un trabajo de visión novedoso que imita más fielmente el entorno del mundo real para aplicaciones interactivas móviles: reconstrucción 3D densa en línea a partir de imágenes RGB posadas dinámicamente. • Lanzaron LivePose, el primer conjunto de datos dinámico de estimación de postura SLAM disponible para el público. Incluye todo el flujo de poses de SLAM para cada uno de los 1.613 escaneos en el conjunto de datos de ScanNet. • Para facilitar la reconstrucción con posturas dinámicas, crean métodos innovadores de entrenamiento y evaluación. • Sugieren un módulo de desintegración recurrente único que elimina material de escena obsoleto para permitir el manejo de posición dinámica para técnicas con integración de vista recurrente aprendida. Este módulo enseña cómo gestionar los cambios de pose.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
también estamos en Telegrama y WhatsApp.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.