Los investigadores de TikTok presentan ‘Depth Anything’: una solución muy práctica para una estimación sólida de la profundidad monocular

Los modelos fundamentales son grandes redes neuronales de aprendizaje profundo que se utilizan como punto de partida para desarrollar modelos de aprendizaje automático eficaces. Se basan en datos de entrenamiento a gran escala y exhiben un rendimiento excepcional de cero o pocos disparos en numerosas tareas, lo que los hace invaluables en el campo del procesamiento del lenguaje natural y la visión por computadora. Los modelos fundamentales también se utilizan en la estimación de profundidad monocular (MDE), es decir, la estimación de la profundidad a partir de una única imagen, y se utilizan ampliamente en vehículos autónomos, robótica y realidad virtual. Sin embargo, como crear conjuntos de datos con millones de etiquetas de profundidad es un desafío, MDE no se ha explorado al máximo y los modelos MDE asociados muestran un rendimiento deficiente en algunos escenarios.

Para abordar el problema mencionado anteriormente, los autores de este artículo de investigación de la Universidad de Hong Kong, TikTok, Zhejiang Lab y la Universidad de Zhejiang han desarrollado un modelo fundamental para MDE que puede producir información de profundidad de alta calidad a partir de imágenes. Los conjuntos de datos de profundidad tradicionales se crean a partir de sensores de profundidad, coincidencia estéreo o SfM, lo que requiere mucho tiempo y es costoso. Por el contrario, en este trabajo, los investigadores se han centrado en datos a gran escala sin etiquetar que son simples y baratos de adquirir, diversos y fáciles de anotar.

Su trabajo utiliza datos etiquetados y no etiquetados para una mejor estimación de la profundidad, centrándose principalmente en estos últimos. Los investigadores recopilaron 1,5 millones de imágenes etiquetadas de 6 conjuntos de datos públicos y, para las no etiquetadas, diseñaron un motor de profundidad que genera automáticamente anotaciones de profundidad para imágenes sin etiquetar. Utilizaron las imágenes etiquetadas recopiladas para entrenar un modelo MDE inicial, que posteriormente anotó las imágenes no etiquetadas, creando un proceso de autoaprendizaje.

En la fase de aprendizaje conjunto, el modelo se enfrenta a un objetivo de optimización más estricto para obtener conocimientos adicionales. Además, los investigadores también propusieron aprovechar los ricos antecedentes semánticos de codificadores previamente entrenados en lugar de utilizar una tarea de segmentación semántica auxiliar para una mejor comprensión de la escena.

Para la evaluación, los investigadores compararon las capacidades de estimación de profundidad de disparo cero de su modelo en seis conjuntos de datos invisibles con el mejor modelo del último MiDaS v3.1. Los resultados muestran que Depth Anything supera significativamente al modelo MiDaS en escenas extensas y en varios conjuntos de datos invisibles. Además, el modelo también conduce a una mejor estimación de la profundidad de la métrica que ZoeDepth basado en MiDaS. Además, al evaluar la segmentación semántica, los investigadores observan que Depth Anything ofrece resultados superiores en MDE y tareas de segmentación semántica y tiene el potencial de usarse como un codificador genérico multitarea para sistemas de percepción visual de nivel medio y alto.

En conclusión, Depth Anything es una solución eficaz para MDE robusto, ya que se centra principalmente en imágenes sin etiquetar, diversas y económicas. Para obtener mejores resultados, los investigadores han hecho que el objetivo de optimización al aprender imágenes sin etiquetar sea más desafiante y han preservado ricos antecedentes semánticos de modelos previamente entrenados. Esto conduce a un rendimiento mucho mejor y a capacidades de estimación cero. Además, el modelo es capaz de superar el último modo MiDaS, destacando su potencial para ser utilizado en tareas de estimación de profundidad aguas abajo.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.