Screenshot 2024 04 04 At 10.32.24 Pm.png

Los notables avances logrados por la arquitectura Transformer en el procesamiento del lenguaje natural (NLP) han despertado un gran interés dentro de la comunidad de visión por computadora (CV). La adaptación del Transformer en tareas de visión, denominada Vision Transformers (ViT), delinea imágenes en parches que no se superponen, convierte cada parche en tokens y posteriormente aplica la autoatención de múltiples cabezales (MHSA) para capturar las dependencias entre tokens.

Aprovechando la robusta destreza de modelado inherente a Transformers, los ViT han demostrado un rendimiento encomiable en un espectro de tareas visuales que abarcan clasificación de imágenes, detección de objetos, modelado de visión y lenguaje e incluso reconocimiento de video. Sin embargo, a pesar de sus éxitos, los ViT enfrentan limitaciones en escenarios del mundo real, lo que requiere el manejo de resoluciones de entrada variables. Al mismo tiempo, varios estudios incurren en una degradación significativa del rendimiento.

Para abordar este desafío, han surgido esfuerzos recientes como ResFormer (Tian et al., 2023). Estos esfuerzos incorporan imágenes de resolución múltiple durante el entrenamiento y refinan las codificaciones posicionales en formas más flexibles basadas en convolución. Sin embargo, estos avances aún deben mejorarse para mantener un alto rendimiento en diversas variaciones de resolución e integrarse perfectamente en los marcos autosupervisados ​​prevalecientes.

En respuesta a estos desafíos, un equipo de investigación de China propone una solución verdaderamente innovadora: Vision Transformer with Any Resolution (ViTAR). Esta novedosa arquitectura está diseñada para procesar imágenes de alta resolución con una carga computacional mínima y, al mismo tiempo, exhibe sólidas capacidades de generalización de resolución. La clave para la eficacia de ViTAR es la introducción del módulo Adaptive Token Merger (ATM), que procesa iterativamente los tokens después de la incorporación del parche, fusionando eficientemente los tokens en una forma de cuadrícula fija, mejorando así la adaptabilidad de la resolución y al mismo tiempo mitigando la complejidad computacional.

Además, para permitir la generalización a resoluciones arbitrarias, los investigadores introducen la codificación condicional difusa (FPE), que introduce perturbación posicional. Esto transforma la percepción posicional precisa en una percepción difusa con ruido aleatorio, evitando así el sobreajuste y mejorando la adaptabilidad.

Las contribuciones de su estudio abarcan la propuesta de un módulo de adaptación de resolución múltiple (ATM) eficaz, que mejora significativamente la generalización de la resolución y reduce la carga computacional bajo entradas de alta resolución. Además, la introducción de la codificación posicional difusa (FPE) facilita una percepción sólida de la posición durante el entrenamiento, lo que mejora la adaptabilidad a distintas resoluciones.

Sus extensos experimentos validan inequívocamente la eficacia del enfoque propuesto. El modelo base no solo demuestra un rendimiento sólido en una variedad de resoluciones de entrada, sino que también muestra un rendimiento superior en comparación con los modelos ViT existentes. Además, ViTAR exhibe un rendimiento encomiable en tareas posteriores, como la segmentación de instancias y la segmentación semántica, lo que subraya su versatilidad y utilidad en diversas tareas visuales.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.