Mejora de la segmentación de imágenes submarinas con aprendizaje profundo: un enfoque novedoso para la expansión de conjuntos de datos y técnicas de preprocesamiento

El procesamiento de imágenes submarinas combinado con el aprendizaje automático ofrece un potencial significativo para mejorar las capacidades de los robots submarinos en diversas tareas de exploración marina. La segmentación de imágenes, un aspecto clave de la visión artificial, es crucial para identificar y aislar objetos de interés dentro de imágenes submarinas. Se han empleado métodos de segmentación tradicionales, como algoritmos basados ​​en umbrales y basados ​​en morfología, pero necesitan ayuda para delinear con precisión objetos en el complejo entorno submarino donde la degradación de la imagen es común.

Los investigadores utilizan cada vez más técnicas de aprendizaje profundo para la segmentación de imágenes submarinas para abordar estos desafíos. Los métodos de aprendizaje profundo, incluida la segmentación semántica y de instancias, proporcionan un análisis más preciso al permitir la segmentación a nivel de píxel y de objeto. Los avances recientes, como FCN-DenseNet y Mask R-CNN, prometen mejorar la precisión y la velocidad de la segmentación. Sin embargo, se necesita más investigación para superar desafíos como la disponibilidad limitada de conjuntos de datos y la degradación de la calidad de la imagen, garantizando un rendimiento sólido en escenarios de exploración submarina.

Para hacer frente a los desafíos que plantean los limitados conjuntos de datos de imágenes submarinas y la degradación de la calidad de las imágenes, un equipo de investigación de China publicó recientemente un nuevo artículo que propone soluciones innovadoras.

El método propuesto se basa en los siguientes pasos: en primer lugar, ampliaron el tamaño del conjunto de datos de imágenes submarinas empleando técnicas como rotación de imágenes, volteo y una red generativa adversaria (GAN) para generar imágenes adicionales. En segundo lugar, aplicaron un algoritmo de mejora de imágenes submarinas para preprocesar el conjunto de datos, abordando problemas relacionados con la degradación de la calidad de la imagen. En tercer lugar, los investigadores reconstruyeron la red de aprendizaje profundo eliminando la última capa del mapa de características con el campo receptivo más grande en Feature Pyramid Network (FPN) y reemplazando la red troncal original con una red de extracción de características liviana.

Utilizando transformaciones de imágenes y una red ConSinGan, mejoraron las imágenes iniciales del Concurso de selección de robots submarinos (URPC2020) para crear un conjunto de datos de imágenes submarinas, por ejemplo, segmentación. Esta red utiliza tres capas convolucionales para expandir el conjunto de datos produciendo imágenes de mayor resolución después de varios ciclos de entrenamiento. También etiquetaron posiciones y categorías de destino utilizando una red Mask R-CNN para la anotación de imágenes, creando un conjunto de datos completamente etiquetado en formato de clases de objetos visuales (VOC). La creación de nuevos conjuntos de datos aumenta su diversidad e imprevisibilidad, lo cual es importante para desarrollar modelos de segmentación sólidos que puedan adaptarse a diversas condiciones submarinas.

El estudio experimental evaluó la eficacia del enfoque propuesto para mejorar la calidad de la imagen submarina y perfeccionar la precisión de la segmentación de instancias. Se utilizaron métricas cuantitativas, incluida la entropía de la información, el contraste cuadrático medio, el gradiente promedio y la evaluación de la calidad de la imagen en color bajo el agua, para evaluar los algoritmos de mejora de la imagen, donde el algoritmo combinado, en particular WAC, exhibió un rendimiento superior. Los experimentos de validación confirmaron la eficacia de las técnicas de aumento de datos para perfeccionar la precisión de la segmentación y subrayaron la eficacia de los algoritmos de preprocesamiento de imágenes, con WAC superando a los métodos alternativos. Las modificaciones a la red Mask R-CNN, particularmente la Feature Pyramid Network (FPN), mejoraron la precisión de la segmentación y la velocidad de procesamiento. La integración del preprocesamiento de imágenes con mejoras de red reforzó aún más la precisión de la segmentación y el reconocimiento, validando la eficacia del enfoque en tareas de segmentación y análisis de imágenes submarinas.

En resumen, la integración del procesamiento de imágenes submarinas con el aprendizaje automático es prometedora para mejorar las capacidades de los robots submarinos en la exploración marina. Las técnicas de aprendizaje profundo, incluida la segmentación semántica y de instancias, ofrecen un análisis preciso a pesar de los desafíos del entorno submarino. Avances recientes como FCN-DenseNet y Mask R-CNN muestran potencial para mejorar la precisión de la segmentación. Un estudio reciente propuso un enfoque integral que involucra la expansión del conjunto de datos, algoritmos de mejora de imágenes y modificaciones de la red, lo que demuestra efectividad para mejorar la calidad de la imagen y refinar la precisión de la segmentación. Este enfoque tiene implicaciones importantes para las tareas de segmentación y análisis de imágenes submarinas.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 37k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Mahmoud es un investigador de doctorado en aprendizaje automático. También posee un
Licenciatura en Ciencias Físicas y Maestría en
sistemas de telecomunicaciones y redes. Sus áreas actuales de
Las investigaciones se refieren a la visión por computadora, la predicción del mercado de valores y la profundidad.
aprendiendo. Produjo varios artículos científicos sobre la relación de personas.
identificación y estudio de la robustez y estabilidad de profundidades
redes.