Mejora de la detección de objetos 3D monoculares: ¿Cómo combina el enfoque MonoXiver el flujo de información 2D a 3D y el modelo de E/S del perceptor para lograr precisión?

El desarrollo de inteligencia artificial ha provocado una extensa investigación en todas las disciplinas. Cada día que pasa, la influencia de la IA crece. El campo de separar datos 3D de fotografías 2D es una de esas áreas. Pruebas exhaustivas han creado un modelo que puede extraer información 3D de fotografías 2D, lo que hace que las cámaras sean más ventajosas para estas nuevas tecnologías.

Según Tianfu Wu, profesor asociado de ingeniería eléctrica e informática en la Universidad Estatal de Carolina del Norte y coautor de una publicación sobre la investigación, los métodos que se utilizan actualmente para extraer información 3D a partir de fotografías 2D son adecuados pero insuficientes.

Los investigadores deben convertir imágenes bidimensionales (2D) tomadas por cámaras en datos tridimensionales (3D). Se prefiere este método menos costoso a alternativas como LIDAR, que utiliza láseres para estimar la distancia en entornos 3D. Como las cámaras son tan económicas, es posible instalar varias de ellas, lo que brinda a los diseñadores de automóviles autónomos un sistema redundante.

Sin embargo, esto sólo será útil si la IA del vehículo autónomo puede separar los datos de navegación en 3D de las imágenes en 2D capturadas por una cámara. Los enfoques que se utilizan actualmente no pueden lograr esto. Las técnicas existentes para separar información 3D de imágenes 2D utilizan cuadros delimitadores, como la técnica MonoCon que desarrollaron Wu y sus colegas. Estas técnicas en particular instruyen a la IA a escanear una imagen 2D y dibujar cuadros delimitadores 3D alrededor de los objetos de la imagen, como cada automóvil en una calle.

Los sistemas de inteligencia artificial (IA) se basan en cuadros delimitadores para medir el tamaño de los elementos en una imagen y comprender sus relaciones espaciales. Estos cuadros delimitadores actúan como una herramienta para que la IA estime el tamaño y la ubicación de un objeto, como un automóvil, en relación con otros automóviles en movimiento en la carretera. Esta característica mejora la capacidad de la IA para ver y comprender el entorno visual, que es importante para aplicaciones que van desde vehículos autónomos hasta sistemas de visión por computadora.

Desafortunadamente, los algoritmos del cuadro delimitador tienen limitaciones porque con frecuencia no logran contener por completo todas las partes de un vehículo u otros objetos que se muestran en una imagen 2D. Es común que se pasen por alto ciertos elementos, lo que demuestra la dificultad para obtener precisión en la detección de objetos. Este problema enfatiza la necesidad de mejorar el algoritmo del cuadro delimitador para mejorar la precisión y garantizar una representación más completa de los objetos en imágenes 2D.

Pero el método que utiliza MonoXiver es diferente. Examina la región que rodea cada cuadro delimitador, utilizando cada uno como punto de partida. Se realizan dos comparaciones como parte del proceso de evaluación. Primero, se examina la “geometría” de cada cuadro secundario en busca de formas que coincidan con el cuadro de anclaje. Para asegurar una alineación espacial precisa, esto incluye evaluar similitudes estructurales. A continuación, se revisa la apariencia de cada cuadro secundario, enfatizando factores como los colores y otros elementos visuales.

Los investigadores utilizaron dos conjuntos de datos de imágenes 2D para evaluar el modelo: el conocido conjunto de datos KITTI con el conjunto de datos Waymo, más difícil y sustancial.

Descubrieron que MonoCon puede funcionar a 55 fotogramas por segundo por sí solo, pero utilizando el enfoque MonoXiver, se ralentiza a 40 fotogramas por segundo, lo que sigue siendo lo suficientemente rápido para una utilidad práctica. Los investigadores también transmitieron su intención de mejorar el método, expresando su compromiso de mejorar su efectividad general y ajustar meticulosamente sus parámetros para un rendimiento óptimo.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Rachit Ranjan es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT) de Patna. Está dando forma activamente a su carrera en el campo de la inteligencia artificial y la ciencia de datos y le apasiona y se dedica a explorar estos campos.