Aunque sería útil para aplicaciones como la conducción autónoma y la robótica móvil, la estimación monocular de la profundidad métrica en situaciones generales ha sido difícil de lograr. Los conjuntos de datos de interiores y exteriores tienen distribuciones de profundidad y RGB drásticamente diferentes, lo que presenta un desafío. Otro problema es la ambigüedad de escala inherente en las fotografías causada por el desconocimiento de la intrínsecaidad de la cámara. Como era de esperar, la mayoría de los modelos de profundidad monocular existentes funcionan con entornos interiores o exteriores o solo estiman la profundidad invariante de escala si se entrenan para ambos.
Los modelos de profundidad métricos actuales se entrenan con frecuencia utilizando un único conjunto de datos recopilados con elementos intrínsecos de cámara fija, como una cámara RGBD para imágenes de interiores o RGB+LIDAR para escenas de exteriores. Estos conjuntos de datos suelen estar limitados a situaciones interiores o exteriores. Dichos modelos sacrifican la generalización para evitar los problemas provocados por las variaciones en las distribuciones de profundidad interiores y exteriores. No solo eso, no son buenos para generalizar datos que no están normalmente distribuidos y se ajustan demasiado a los intrínsecos de la cámara del conjunto de datos de entrenamiento.
En lugar de la profundidad métrica, el método más común para combinar datos de interiores y exteriores en modelos es estimar la profundidad invariante a la escala y al cambio (por ejemplo, MiDaS). La estandarización de las distribuciones de profundidad puede eliminar las ambigüedades de escala causadas por cámaras con elementos intrínsecos variados y acercar las distribuciones de profundidad interiores y exteriores. Recientemente, el entrenamiento de modelos conjuntos de interior y exterior que estimen la profundidad métrica ha atraído mucha atención como una forma de combinar estos diversos métodos. ZoeDepth adjunta dos cabezales específicos de dominio a MiDaS para manejar dominios interiores y exteriores, lo que le permite convertir profundidad invariante de escala en profundidad métrica.
Utilizando varios avances importantes, un nuevo estudio de Google Research y Google Deepmind investiga modelos de difusión de eliminación de ruido para la estimación de profundidad métrica de disparo cero, logrando un rendimiento de última generación. Específicamente, el aumento del campo de visión (FOV) se emplea durante todo el entrenamiento para mejorar la generalización a varios elementos intrínsecos de la cámara; El acondicionamiento FOV se emplea durante el entrenamiento y la inferencia para resolver ambigüedades de escala intrínsecas, lo que lleva a una ganancia adicional de rendimiento. Los investigadores recomiendan codificar la profundidad en la escala logarítmica para utilizar mejor la capacidad de representación del modelo. Se logra una distribución más equitativa de la capacidad del modelo entre situaciones interiores y exteriores representando la profundidad en el dominio del registro, lo que conduce a un mejor rendimiento interior.
A través de sus investigaciones, los investigadores también descubrieron que la parametrización v aumenta significativamente la velocidad de inferencia en la eliminación de ruido de redes neuronales. En comparación con ZoeDepth, un modelo de profundidad métrica recientemente sugerido, el modelo final, DMD (Difusión para profundidad métrica), funciona mejor. DMD es un enfoque sencillo para la estimación de profundidad métrica de disparo cero en escenas genéricas, que es a la vez simple y exitoso. Específicamente, cuando se ajusta con los mismos datos, DMD produce un error de profundidad relativa sustancialmente menor que ZoeDepth en los ocho conjuntos de datos no distribuidos. Agregar más datos al conjunto de datos de entrenamiento mejora aún más las cosas.
DMD logra un SOTA en profundidad métrica de disparo cero, con un error relativo que es un 25% menor en conjuntos de datos de interiores y un 33% menor en conjuntos de datos de exteriores que ZoeDepth. Es eficiente ya que utiliza parametrización v para la difusión.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.