La búsqueda de modelos que puedan procesar eficientemente datos multidimensionales, desde imágenes hasta series temporales complejas, se ha vuelto cada vez más crucial. Los modelos anteriores de Transformer, reconocidos por su capacidad para manejar diversas tareas, a menudo tienen problemas con secuencias largas debido a su complejidad computacional cuadrática. Esta limitación ha despertado un gran interés en desarrollar arquitecturas que se escalen mejor y mejoren el rendimiento cuando se trata de conjuntos de datos a gran escala.
La eficiencia en el manejo de largas secuencias de datos es fundamental, especialmente porque la cantidad y la complejidad de los datos en aplicaciones como el procesamiento de imágenes y la previsión de series temporales siguen creciendo. Las demandas computacionales de los métodos existentes plantean desafíos importantes, lo que empuja a los investigadores a innovar en arquitecturas que agilicen el procesamiento sin sacrificar la precisión. Los modelos de espacio de estados selectivos (S6) han surgido como una solución prometedora, que centra selectivamente los recursos computacionales en los segmentos de datos más informativos, revolucionando potencialmente la eficiencia y eficacia del procesamiento de datos.
Investigadores de la Universidad de Cornell y la Facultad de Medicina Grossman de la Universidad de Nueva York presentan MambaMixer, una arquitectura novedosa que presenta pesos dependientes de datos. Esta arquitectura aprovecha un mecanismo de selección dual único, el token selectivo y el mezclador de canales, para navegar de manera eficiente por tokens y canales. Un proceso de promedio ponderado aumenta aún más este mecanismo de selección dual para garantizar un flujo de información fluido entre las capas del modelo para optimizar la eficiencia del procesamiento y el rendimiento del modelo.
La utilidad y eficacia de la arquitectura MambaMixer se ejemplifican en sus aplicaciones especializadas: Vision MambaMixer (ViM2) para tareas relacionadas con imágenes y Time Series MambaMixer (TSM2) para pronosticar datos de series temporales. Estas implementaciones resaltan la versatilidad y el poder de la arquitectura. Por ejemplo, en pruebas comparativas desafiantes como ImageNet, ViM2 logra un rendimiento competitivo frente a modelos bien establecidos. Aún así, supera los modelos de visión basados en SSM, demostrando una eficiencia y precisión superiores en tareas de clasificación de imágenes, detección de objetos y segmentación semántica.
ViM2 ha demostrado un desempeño competitivo en puntos de referencia desafiantes como ImageNet. Logró precisiones de clasificación de primer nivel del 82,7 %, 83,7 % y 83,9 % para sus variantes Tiny, Small y Base, respectivamente, superando a modelos bien establecidos como ViT, MLP-Mixer y ConvMixer en ciertas configuraciones. Un mecanismo de promedio ponderado mejora el flujo de información y captura la dinámica compleja de las características, contribuyendo a su rendimiento de última generación. TSM2 muestra resultados innovadores en el pronóstico de series temporales, estableciendo nuevos récords en varios puntos de referencia. Por ejemplo, su aplicación al conjunto de datos M5 demuestra una mejora en las puntuaciones de WRMSSE.
Los logros de la arquitectura, por ejemplo, en tareas de segmentación semántica en el conjunto de datos ADE20K, los modelos ViM2 mostraron mejoras mIoU (escala única) de 1,3, 3,7 y 4,2 para las configuraciones Tiny, Small y Medium, respectivamente, en comparación con otros líderes. modelos. Estos resultados subrayan la capacidad de la arquitectura para procesar información de forma selectiva y eficiente.

En conclusión, a medida que los conjuntos de datos continúan expandiéndose en tamaño y complejidad, el desarrollo de modelos como MambaMixer, que pueden procesar información de manera eficiente y selectiva, se vuelve cada vez más esencial. Esta arquitectura representa un paso adelante fundamental, ya que ofrece un marco escalable y eficaz para afrontar los desafíos de las tareas modernas de aprendizaje automático. Su éxito tanto en tareas de modelado de series de tiempo como de visión demuestra su potencial e inspira más investigación y desarrollo en métodos eficientes de procesamiento de datos.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 39k+ ML
Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.