La segmentación de imágenes médicas, crucial para el diagnóstico y el tratamiento, a menudo se basa en la arquitectura simétrica de UNet para delinear órganos y lesiones con precisión. Sin embargo, la naturaleza convolucional de UNet necesita ayuda para capturar información semántica global, lo que dificulta su eficacia en tareas médicas sofisticadas. La integración de arquitecturas Transformer tiene como objetivo abordar esta limitación, pero dificulta los altos costos computacionales, lo que la hace inadecuada para entornos de atención médica con recursos limitados.
Los esfuerzos para impulsar la conciencia global de UNet incluyen capas convolucionales aumentadas, mecanismos de autoatención y pirámides de imágenes, pero no logran modelar de manera efectiva dependencias de largo alcance. Estudios recientes proponen integrar modelos de espacio de estados (SSM) para enriquecer UNet con conciencia de dependencia de largo alcance mientras se mantiene la eficiencia computacional. Sin embargo, soluciones como U-Mamba introducen parámetros y carga computacional excesivos, lo que bloquea su practicidad en entornos de atención médica móviles.
Investigadores del Laboratorio Clave de Tecnologías de Software de Alta Confianza, el Centro Nacional de Investigación en Ingeniería de Software de la Universidad de Pekín, la Facultad de Ciencias de la Computación de la Universidad de Pekín y el Instituto de Inteligencia Artificial de la Universidad de Beihang han propuesto LightM-UNet, una fusión ligera de UNet y Mamba, que cuenta con un simple recuento de parámetros de 1 millón. Han sugerido que se introduzca la capa Mamba de visión residual (capa RVM) para extraer características profundas de una manera pura Mamba, amplificando la capacidad del modelo para modelar dependencias espaciales de largo alcance. Este enfoque aborda eficazmente las limitaciones computacionales en entornos médicos reales, lo que marca un esfuerzo pionero en la integración de Mamba en UNet para su optimización.
LightM-UNet utiliza una arquitectura liviana en forma de U que integra Mamba. Comienza con la extracción de características superficiales mediante convolución profunda, seguida de bloques codificadores que duplican los canales de características y reducen a la mitad la resolución. Un bloque de cuello de botella mantiene el tamaño del mapa de características mientras modela dependencias de largo alcance. Los bloques decodificadores restauran la resolución de la imagen mediante la fusión y decodificación de funciones. La capa RVM enriquece el modelado espacial de largo alcance, mientras que el módulo Vision State-Space (VSS) aumenta la extracción de características.
LightM-UNet supera a nnU-Net, SegResNet, UNETR, SwinUNETR y U-Mamba en el conjunto de datos LiTS, logrando un rendimiento superior y reduciendo significativamente los parámetros y los costos computacionales. En comparación con U-Mamba, LightM-UNet demuestra una mejora del 2,11 % en el mIoU promedio. En el conjunto de datos de Montgomery y Shenzhen, LightM-UNet supera los métodos basados en Transformer y Mamba, mostrando un rendimiento notable con un recuento de parámetros notablemente bajo, lo que representa reducciones del 99,14 % y 99,55 % en comparación con nnU-Net y U-Mamba, respectivamente.
Para concluir, los investigadores han presentado LightM-UNet, una red ligera que integra Mamba. LightM-UNet realiza tareas de segmentación 2D y 3D de última generación con solo 1 millón de parámetros. En comparación con las arquitecturas basadas en Transformer, ofrece más de un 99 % menos de parámetros y GFLOPS significativamente más bajos que las últimas arquitecturas basadas en Transformer. Esto inicia un paso crucial hacia la implementación práctica en entornos de atención médica con recursos limitados, optimizando la precisión del diagnóstico y la eficacia del tratamiento. Estudios rigurosos de ablación confirman la eficacia de este enfoque, lo que marca la primera utilización de Mamba como estrategia ligera para UNet.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 38k+ ML
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.