Screenshot 2024 05 22 At 5.34.21 Pm.png

En los últimos años, la visión por computadora ha logrado avances significativos al aprovechar arquitecturas avanzadas de redes neuronales para abordar tareas complejas como clasificación de imágenes, detección de objetos y segmentación semántica. Los modelos transformadores como Transformers y las redes neuronales convolucionales (CNN) se han convertido en herramientas fundamentales, impulsando mejoras sustanciales en el rendimiento del reconocimiento visual. Estos avances han allanado el camino para sistemas más eficientes y precisos en diversas aplicaciones, desde la conducción autónoma hasta las imágenes médicas.

Uno de los desafíos cruciales en la visión por computadora es la complejidad cuadrática del mecanismo de atención utilizado en los transformadores, lo que dificulta su eficiencia en el manejo de secuencias largas. Este problema es particularmente crítico en tareas de visión donde la longitud de la secuencia, definida por la cantidad de parches de imagen, puede afectar significativamente los recursos computacionales y el tiempo de procesamiento. Abordar este problema es crucial para mejorar la escalabilidad y el rendimiento de los modelos de visión, especialmente cuando se trata de imágenes o vídeos de alta resolución que requieren una gran potencia computacional.

Las investigaciones existentes incluyen varios mezcladores de tokens con complejidad lineal, como convolución dinámica, Linformer, Longformer y Performer. Además, se han desarrollado modelos similares a RNN, como RWKV y Mamba, para manejar secuencias largas de manera eficiente. Los modelos de Vision que incorporan Mamba incluyen Vision Mamba, VMamba, LocalMamba y PlainMamba. Estos modelos aprovechan los modelos de espacio de estados estructurados (SSM) para mejorar el rendimiento en tareas de reconocimiento visual, lo que demuestra su potencial para abordar los desafíos de complejidad cuadrática que plantean los mecanismos de atención tradicionales en los transformadores.

Investigadores de la Universidad Nacional de Singapur han presentado MambaOut, una arquitectura derivada del bloque Gated CNN, diseñada para evaluar la necesidad de Mamba para tareas de visión. A diferencia de los modelos Mamba tradicionales, MambaOut elimina el componente del modelo de espacio de estados (SSM), centrándose en simplificar la arquitectura manteniendo el rendimiento. Este enfoque innovador busca determinar si las complejidades introducidas por Mamba son realmente necesarias para lograr un alto rendimiento en tareas de visión, particularmente en la clasificación de imágenes en ImageNet.

La arquitectura MambaOut utiliza bloques CNN cerrados, integrando la mezcla de tokens mediante convolución profunda. Este enfoque permite a MambaOut mantener una complejidad computacional más baja que los modelos tradicionales de Mamba. Al apilar estos bloques, MambaOut construye un modelo jerárquico, similar a ResNet, para manejar varias tareas de reconocimiento visual de manera eficiente. Los investigadores implementaron MambaOut con las bibliotecas PyTorch y timm, entrenando los modelos en TPU v3 con un tamaño de lote de 4096 y una tasa de aprendizaje inicial de 0,004. El esquema de entrenamiento siguió DeiT sin destilación, incorporando técnicas de aumento de datos como recorte de tamaño aleatorio, inversión horizontal y técnicas de regularización como caída de peso y profundidad estocástica.

Los resultados empíricos indican que MambaOut supera todos los modelos visuales de Mamba en la clasificación de imágenes de ImageNet. Específicamente, MambaOut logra una precisión superior del 84,1%, superando a LocalVMamba-S en un 0,4% con solo el 79% de las MAC. Por ejemplo, el modelo MambaOut-Small logra una precisión del 84,1%, que es un 0,4% mayor que LocalVMamba-S, mientras que requiere solo el 79% de las operaciones de multiplicación y acumulación (MAC). MambaOut es la columna vertebral de Mask R-CNN, inicializada con pesos previamente entrenados por ImageNet en detección de objetos y segmentación de instancias en COCO. A pesar de que MambaOut supera algunos modelos visuales de Mamba, todavía está por detrás de modelos de última generación como VMamba y LocalVMamba en 1,4 APb y 1,1 APm, respectivamente. Esta disparidad de rendimiento resalta los beneficios de integrar Mamba en tareas visuales de secuencia larga, lo que refuerza la hipótesis de que Mamba es más adecuado para tareas con características de secuencia larga.

En conclusión, los investigadores demostraron que, si bien MambaOut simplifica eficazmente la arquitectura para la clasificación de imágenes, los puntos fuertes del modelo Mamba residen en el manejo de tareas de secuencia larga, como la detección y segmentación de objetos. Este estudio subraya el potencial de Mamba para tareas visuales específicas, guiando futuras direcciones de investigación para optimizar los modelos de visión. Los hallazgos sugieren que se justifica una mayor exploración de la aplicación de Mamba en tareas visuales de secuencia larga, ya que ofrece una vía prometedora para mejorar el rendimiento y la eficiencia de los modelos de visión.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.