Este artículo sobre inteligencia artificial de la Universidad de Sydney propone EfficientVMamba: uniendo precisión y eficiencia en modelos de espacio de estado visual livianos

En el panorama cambiante de la visión por computadora, la búsqueda de modelos que naveguen hábilmente en la cuerda floja entre la alta precisión y el bajo costo computacional ha dado lugar a avances significativos. El campo ha oscilado entre redes neuronales convolucionales (CNN) y arquitecturas basadas en transformadores, cada una con fortalezas y limitaciones únicas. Las CNN han sido elogiadas por su capacidad para extraer características locales de manera eficiente, sentando las bases para un análisis de imágenes matizado sin exigir grandes recursos computacionales. Por otro lado, los Transformers han sido celebrados por su destreza en el procesamiento de información global, aunque a expensas de mayores demandas computacionales. Esta dicotomía ha presentado un desafío formidable: crear una arquitectura que encapsule lo mejor de ambos mundos sin comprometer la eficiencia o el rendimiento.

Un estudio realizado por investigadores de la Universidad de Sydney presenta EfficientVMamba, un modelo que redefine la eficiencia en las tareas de visión por computadora. EfficientVMamba implica una innovadora estrategia de escaneo selectivo basada en atrocidad con el principio de muestreo por salto eficiente. Este enfoque híbrido está diseñado para examinar meticulosamente datos visuales, capturando características globales y locales esenciales sin sobrecargar los recursos computacionales. La arquitectura se distingue por integrar modelos de espacio de estados (SSM) con capas convolucionales convencionales, logrando un delicado equilibrio que durante mucho tiempo ha eludido a sus predecesores.

EfficientVMamba presenta un bloque de espacio de estado visual eficiente que converge perfectamente con una rama de convolución adicional. Un módulo de atención de canales refinó aún más esta intrincada combinación, asegurando una integración armoniosa de funciones. La esencia de este diseño radica en su enfoque de doble vía, que navega hábilmente por las complejidades de la extracción de características globales y locales. Esta composición estratégica eleva el rendimiento del modelo y reduce significativamente la complejidad computacional, sentando un nuevo precedente de eficiencia.

La evidencia empírica subraya la destreza de EfficientVMamba en un espectro de tareas de visión, desde la clasificación de imágenes hasta la segmentación semántica y la detección de objetos. El estudio entrelaza intrincadamente un atroz escaneo selectivo con muestreo por omisión, una rama convolucional y modelos de espacio de estados, creando una arquitectura que trasciende el equilibrio convencional entre precisión y eficiencia. Esta fusión aprovecha la información global y local con una eficiencia sin precedentes y abre la puerta a nuevas posibilidades en entornos con recursos limitados.

La variante del modelo EfficientVMamba-S, con 1,3 GFLOP, muestra una notable mejora de precisión del 5,6 % en ImageNet con respecto a su contraparte, VimTi, que opera a 1,5 GFLOP. Este testimonio numérico de la eficiencia del modelo se ve respaldado por su rendimiento integral en un espectro de tareas de visión, incluida la clasificación de imágenes, la detección de objetos y la segmentación semántica. Por ejemplo, en tareas de detección de objetos en el conjunto de datos MSCOCO 2017, EfficientVMamba-T, con 13 millones de parámetros, logra un AP del 37,5 %, superando ligeramente el rendimiento de modelos más grandes como ResNet-18, que tiene 21,3 millones de parámetros.

La versatilidad del modelo se muestra en las tareas de segmentación semántica, donde las variantes EfficientVMamba-T y EfficientVMamba-S alcanzan mIoU de 38,9 % y 41,5 %, respectivamente, con significativamente menos parámetros en comparación con los puntos de referencia establecidos por modelos como ResNet-50. Este rendimiento es importante para la frugalidad computacional de EfficientVMamba y su capacidad para ofrecer una precisión altamente competitiva en diversas tareas visuales.

En conclusión, el inicio de EfficientVMamba aborda un dilema crítico en la visión por computadora: el equilibrio entre la precisión del modelo y la eficiencia computacional. Al combinar un innovador escaneo selectivo basado en atrous con un muestreo de salto eficiente y un mecanismo de integración de funciones de doble vía, EfficientVMamba establece un nuevo estándar para modelos livianos y de alto rendimiento. La capacidad del modelo para reducir significativamente la carga computacional manteniendo, y en algunos casos superando, la precisión de arquitecturas más exigentes ilumina un camino a seguir para futuras investigaciones y aplicaciones en entornos con recursos limitados.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 38k+ ML


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.