La estimación de profundidad estéreo juega un papel crucial en la visión por computadora al permitir que las máquinas infieran la profundidad de dos imágenes. Esta capacidad es vital para la conducción autónoma, la robótica y las aplicaciones de realidad aumentada. A pesar de los avances en aprendizaje profundomuchos modelos de coincidencia estéreo existentes requieren ajuste fino específico de dominio para lograr una alta precisión. El desafío radica en desarrollar un modelo que pueda generalizarse en diferentes entornos sin capacitación adicional.
Uno de los problemas clave en la estimación de profundidad estéreo es la brecha de dominio entre el entrenamiento y los datos del mundo real. Muchos enfoques actuales dependen de pequeños conjuntos de datos específicos que no logran capturar la complejidad de los entornos naturales. Esta limitación da como resultado modelos que funcionan bien en puntos de referencia controlados pero fallan en diversos escenarios. Además, ajustar estos modelos para nuevos dominios es computacionalmente costoso y poco práctico para aplicaciones en tiempo real. Superar estos desafíos requiere un enfoque más robusto que elimine la necesidad de capacitación específica del dominio.
Los métodos de estimación de profundidad estéreo tradicional se basan en la construcción de volúmenes de costos, que codifican la disparidad entre los pares de imágenes. Estos métodos utilizan redes neuronales convolucionales 3D (CNN) para el filtrado de costos pero luchan con la generalización más allá de sus datos de entrenamiento. Las técnicas iterativas de refinamiento intentan mejorar la precisión mediante la mejora progresiva de las predicciones de disparidad. Sin embargo, estos enfoques están limitados por su dependencia de módulos recurrentes, que aumentan los costos computacionales. Algunos métodos recientes han explorado las arquitecturas basadas en transformadores, pero han enfrentado desafíos para manejar de manera efectiva el espacio de búsqueda de disparidad mientras se mantiene la eficiencia.
Los investigadores de NVIDIA introdujeron FoundationStereo, un modelo de base diseñado para abordar estas limitaciones y lograr una fuerte generalización de disparo cero. Para construir este modelo, el equipo de investigación creó un conjunto de datos de entrenamiento sintético a gran escala que contiene un millón de pares de imágenes estéreo con alto fotorrealismo y diversos escenarios. Se desarrolló una tubería automatizada de autocuración para filtrar muestras ambiguas, asegurando datos de entrenamiento de alta calidad. Además, el modelo incorpora una red troncal de características de ajuste lateral, lo que aprovecha los antecedentes monoculares de los modelos existentes de Vision Foundation. Esta adaptación une la brecha entre los datos sintéticos y del mundo real, mejorando la generalización sin requerir el ajuste fino por dominio.
La metodología detrás de FoundationStereo integra varios componentes innovadores. El módulo de volumen de costo híbrido atento (AHCF) es un elemento clave que mejora la estimación de la disparidad al combinar la convolución del plan axial 3D y un transformador de disparidad. La convolución 3D axial-planar refina el filtrado de volumen de costos al separar la información espacial y de disparidad, lo que lleva a una mejor agregación de características. Mientras tanto, el transformador de disparidad introduce un razonamiento de contexto de largo alcance, lo que permite que el modelo procese estructuras de profundidad complejas de manera efectiva. Además, FoundationStereo emplea un enfoque híbrido, integrando un CNN con un transformador de visión (VIT) para adaptar los priors de profundidad monocular al marco estéreo. La combinación de estas técnicas garantiza una estimación de disparidad inicial más precisa, que se refina aún más a través del procesamiento iterativo.
La evaluación del rendimiento de FoundationStereo demuestra su superioridad sobre los métodos existentes. Para evaluar sus capacidades de generalización de disparo cero, el modelo se probó en múltiples conjuntos de datos, incluidos Middlebury, Kitti y Eth3d. Cuando se entrenó únicamente en el flujo de escena, FoundationTereo redujo significativamente las tasas de error en comparación con los modelos anteriores. Por ejemplo, el conjunto de datos de Middlebury registró un error BP-2 del 4.4%, superando los métodos de última generación. En ETH3D, logró un error BP-1 de 1.1%, estableciendo aún más su robustez. En Kitti-15, el modelo alcanzó una tasa de error D1 del 2.3%, marcando una mejora significativa sobre los puntos de referencia anteriores. Las comparaciones cualitativas de las imágenes en el flujo revelaron su capacidad para manejar escenarios desafiantes, incluidas reflexiones, superficies sin textura y condiciones de iluminación complejas. Estos resultados destacan la efectividad de la arquitectura de FoundationStereo para lograr una estimación de profundidad confiable sin ajustar.
La investigación presenta un avance importante en la estimación estéreo al abordar los desafíos de generalización y la eficiencia computacional. Al aprovechar un conjunto de datos sintético a gran escala e integrar los antecedentes monoculares con técnicas innovadoras de filtrado de costos, FoundationStereo elimina la necesidad de una capacitación específica del dominio al tiempo que mantiene una alta precisión en diferentes entornos. Los resultados demuestran cómo la metodología propuesta establece un nuevo punto de referencia para modelos de coincidencia estéreo de cero disparos y allana el camino para aplicaciones más versátiles en configuraciones del mundo real.
Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.