La visión por computadora es uno de los subcampos más importantes de Inteligencia artificial. Con el auge exponencial en el campo de la IA, la visión por computadora también está avanzando con el poder de sus asombrosas capacidades. Una de las tareas más importantes en visión por computadora es la segmentación semántica, que implica asignar un elemento o clase de región apropiado a cada píxel de una imagen. Numerosas industrias, incluidas la conducción autónoma, el comercio minorista, el reconocimiento facial y otras, utilizan este método.
Los algoritmos de segmentación semántica han dependido tradicionalmente del aprendizaje supervisado, que requiere una cantidad considerable de datos etiquetados para su entrenamiento. Sin embargo, adquirir y anotar conjuntos de datos tan grandes puede suponer un esfuerzo que requiere mucho tiempo y recursos. Además, entrenar redes neuronales para la segmentación semántica ha sido costoso debido a la necesidad de anotaciones hechas por humanos, donde cada píxel de una imagen está etiquetado con el objeto o clase de región correspondiente.
El aprendizaje no supervisado ha logrado avances significativos recientemente, abordando este problema y acercándose a los niveles de rendimiento de los métodos supervisados. El objetivo principal de la segmentación semántica no supervisada es extraer información semántica de un conjunto de datos mediante la identificación de correlaciones entre valores de características de imagen seleccionados aleatoriamente. En una investigación reciente, un equipo de investigadores de la Universidad de Ulm y TU Viena ha llevado estos avances un paso más allá al introducir información sobre la estructura de la escena en el proceso de entrenamiento utilizando información de profundidad.
Este enfoque, llamado DepthG, se introdujo con el objetivo de integrar información espacial, específicamente mapas de profundidad, en el proceso de entrenamiento STEGO, que es un modelo notable que utiliza un Vision Transformer (ViT) para extraer características de las imágenes, seguido de un aprendizaje contrastivo. enfoque para sintetizar estas características en todo el conjunto de datos. Dado que STEGO opera únicamente en el espacio de píxeles, ignorando el diseño espacial de la escena, este nuevo desarrollo integra mapas de profundidad en el proceso de capacitación de STEGO.
La investigación incluye dos contribuciones principales, que son las siguientes:
- Aprendizaje de correlaciones entre características y profundidad: se centra en enseñar información de profundidad y correlaciones entre características visuales, lo que se logra conectando espacialmente los mapas de profundidad y los mapas de características que se tomaron de las imágenes. Como resultado, la red neuronal aprende más sobre la disposición fundamental de la escena. Básicamente aprende cómo se organizan las cosas entre sí en tres dimensiones.
- Selección eficiente de características con muestreo 3D: se centra en mejorar la selección de características pertinentes para la segmentación. Esto se ha hecho utilizando un método conocido como muestreo del punto más lejano. Este método utiliza métodos de muestreo 3D en los datos de profundidad de la escena. Elige características que están dispersas en el espacio 3D de una manera que aclara la estructura de la escena.
El equipo compartió que DepthG se distingue porque integra el conocimiento de escenas 3D en el aprendizaje no supervisado para fotografías 2D sin requerir mapas de profundidad como parte de la entrada de la red. Con este método, no hay posibilidad de que el modelo dependa de información profunda durante la inferencia cuando podría no estar disponible. DepthG no se basa en información de profundidad cuando hace predicciones sobre fotografías nuevas y sin etiquetar.
En conclusión, este estudio se basa en desarrollos recientes en el aprendizaje no supervisado para resolver el problema de las costosas anotaciones hechas por humanos en la segmentación semántica. El modelo mejora su comprensión de la estructura de la escena al incluir información profunda en el proceso de entrenamiento y aprender correlaciones profundidad-característica. El uso de técnicas de muestreo 3D también mejora la selección de características pertinentes. En conjunto, estos desarrollos dan como resultado ganancias considerables de rendimiento en una variedad de conjuntos de datos de referencia, lo que demuestra el potencial del método para avanzar en la investigación de la visión por computadora.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.