La visión por computadora permite a las máquinas analizar e interpretar datos visuales, impulsando la innovación en diversas aplicaciones, como vehículos autónomos, diagnósticos médicos y automatización industrial. Los investigadores pretenden mejorar los modelos computacionales para procesar tareas visuales complejas de forma más precisa y eficiente, aprovechando técnicas como las redes neuronales para manejar datos de imágenes de alta dimensión. A medida que las tareas se vuelven más exigentes, lograr un equilibrio entre la eficiencia computacional y el rendimiento sigue siendo un objetivo fundamental para avanzar en este campo.
Un desafío importante en los modelos livianos de visión por computadora es capturar de manera efectiva características globales y locales en entornos con recursos limitados. Los enfoques actuales, incluidas las redes neuronales convolucionales (CNN) y los transformadores, enfrentan limitaciones. Las CNN, si bien son eficientes a la hora de extraer características locales, necesitan ayuda con las interacciones de características globales. Aunque son poderosos para modelar la atención global, los transformadores exhiben una complejidad cuadrática, lo que los hace computacionalmente costosos. Además, los métodos basados en Mamba, diseñados para superar estos desafíos con complejidad lineal, no logran retener detalles de alta frecuencia cruciales para tareas visuales precisas. Este cuello de botella limita su utilidad en escenarios del mundo real que requieren alto rendimiento y precisión.
Los esfuerzos para abordar estos desafíos han dado lugar a varias innovaciones. Los métodos basados en CNN como MobileNet introdujeron convoluciones separables para mejorar la eficiencia computacional, mientras que los diseños híbridos como EfficientFormer combinaron CNN con Transformers para una atención global selectiva. Los modelos basados en Mamba, incluidos VMamba y EfficientVMamba, redujeron los costos computacionales al optimizar las rutas de escaneo. Sin embargo, estos modelos se centraron predominantemente en características de baja frecuencia, descuidando la información de alta frecuencia esencial para el análisis visual detallado. Este desequilibrio dificulta el rendimiento, particularmente en tareas que requieren una extracción detallada de características.
Investigadores del Ark Lab de Huawei Noah presentaron TinyViM, una arquitectura híbrida innovadora que integra bloques Convolution y Mamba, optimizados mediante desacoplamiento de frecuencia. TinyViM tiene como objetivo mejorar la eficiencia computacional y la representación de características abordando las limitaciones de enfoques anteriores. El mezclador Laplace es una innovación central en esta arquitectura, que permite un desacoplamiento eficiente de componentes de baja y alta frecuencia. Al procesar características de baja frecuencia con bloques Mamba para un contexto global y detalles de alta frecuencia con operaciones de convolución reparametrizadas, TinyViM logra un proceso de extracción de características más equilibrado y efectivo.
TinyViM emplea una estrategia de inicio de rampa de frecuencia para mejorar aún más su eficiencia. Este enfoque ajusta la asignación de recursos computacionales entre las etapas de la red, enfocándose más en ramas de alta frecuencia en etapas anteriores donde los detalles locales son críticos y cambiando el énfasis a componentes de baja frecuencia en capas más profundas para el contexto global. Este ajuste dinámico garantiza una representación óptima de las características en cada etapa de la red. Además, la arquitectura TinyViM incorpora convoluciones compatibles con dispositivos móviles, lo que la hace adecuada para escenarios en tiempo real y de bajos recursos.
Amplios experimentos validan la eficacia de TinyViM en múltiples puntos de referencia. En clasificación de imágenes en el conjunto de datos ImageNet-1K, TinyViM-S logró una precisión superior del 79,2 %, superando a SwiftFormer-S en un 0,7 %. Su rendimiento alcanzó 2574 imágenes por segundo, duplicando la eficiencia de EfficientVMamba. En tareas de detección de objetos y segmentación de instancias utilizando el conjunto de datos MS-COCO 2017, TinyViM superó a otros modelos, incluidos SwiftFormer y FastViT, con mejoras significativas de hasta el 3 % en las métricas de APbox y APmask. Para la segmentación semántica en el conjunto de datos ADE20K, TinyViM demostró un rendimiento de vanguardia con una intersección media sobre unión (mIoU) del 42,0 %, lo que destaca sus capacidades superiores de extracción de características.
Las ventajas de rendimiento de TinyViM se ven subrayadas por su diseño liviano, que logra un rendimiento notable sin comprometer la precisión. Por ejemplo, TinyViM-B logró una precisión del 81,2 % en ImageNet-1K, superando a MobileOne-S4 en un 1,8 %, Agent-PVT-T en un 2,8 % y MSVMamba-M en un 1,4 %. En tareas de detección, TinyViM-B demostró 46,3 APbox y 41,3 APmask, mientras que TinyViM-L amplió estas mejoras a 48,6 APbox y 43,8 APmask, afirmando su escalabilidad y versatilidad en todos los tamaños de tareas.
El equipo de investigación del Ark Lab de Huawei Noah ha redefinido las redes troncales de visión livianas con TinyViM, abordando limitaciones críticas en modelos anteriores. Al aprovechar el desacoplamiento de frecuencia, la mezcla de Laplace y el inicio de rampa de frecuencia, TinyViM equilibra los detalles de alta frecuencia con el contexto de baja frecuencia, logrando una precisión y eficiencia computacional superiores. Su capacidad para superar los modelos de última generación basados en CNN, Transformers y Mamba en diversas tareas visuales es una herramienta valiosa para aplicaciones en tiempo real. Este trabajo demuestra el potencial de integrar técnicas innovadoras de extracción de características en arquitecturas híbridas, allanando el camino para futuros avances en visión por computadora.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.