Uno de los desafíos más importantes en la investigación de la IA es la ineficiencia computacional en el procesamiento de tokens visuales en los modelos Vision Transformer (ViT) y Video Vision Transformer (ViViT). Estos modelos procesan todos los tokens con el mismo énfasis, pasando por alto la redundancia inherente en los datos visuales, lo que resulta en altos costos computacionales. Abordar este desafío es crucial para la implementación de modelos de IA en aplicaciones del mundo real donde los recursos computacionales son limitados y el procesamiento en tiempo real es esencial.
Los métodos actuales, como los modelos ViTs y Mixture of Experts (MoEs), han sido eficaces para procesar datos visuales a gran escala, pero presentan limitaciones significativas. Los ViTs tratan a todos los tokens por igual, lo que genera cálculos innecesarios. Los MoEs mejoran la escalabilidad al activar condicionalmente partes de la red, lo que mantiene los costos de tiempo de inferencia. Sin embargo, introducen una mayor huella de parámetros y no reducen los costos computacionales sin omitir tokens por completo. Además, estos modelos a menudo utilizan expertos con capacidades computacionales uniformes, lo que limita su capacidad para asignar recursos de manera dinámica en función de la importancia de los tokens.
Un equipo de investigadores de Google DeepMind y la Universidad de Washington propone el marco Mixture of Nested Experts (MoNE), que aprovecha una estructura anidada para que los expertos aborden las ineficiencias de los métodos existentes. MoNE asigna dinámicamente los recursos computacionales enrutando tokens a diferentes expertos anidados en función de su importancia. Este enfoque permite que los tokens redundantes se procesen a través de modelos más pequeños y económicos, mientras que los tokens más importantes se enrutan a modelos más grandes y detallados. La novedad radica en utilizar una arquitectura anidada que mantiene el mismo recuento de parámetros que los modelos de referencia, pero logra una reducción del doble en el tiempo de inferencia computacional. Este procesamiento adaptativo no solo mejora la eficiencia, sino que también conserva el rendimiento en diferentes presupuestos computacionales.
MoNE integra una arquitectura anidada dentro de Vision Transformers, donde los expertos con distintas capacidades computacionales se organizan jerárquicamente. Cada token se enruta dinámicamente a un experto apropiado mediante el algoritmo Expert Preferred Routing (EPR). El modelo procesa tokens a través de proyecciones parciales de entrada y salida en las capas Self-Attention (SA) y MLP, lo que facilita un cálculo eficiente. El marco está validado en conjuntos de datos como ImageNet-21K, Kinetics400 y Something-Something-v2. Las decisiones de enrutamiento se toman en función de la importancia de los tokens, que está determinada por la distribución de probabilidad de la red del enrutador. La eficacia de MoNE se demuestra a través de experimentos rigurosos que muestran un rendimiento sólido en diferentes presupuestos de cálculo de tiempo de inferencia.
El método propuesto logra mejoras significativas en la eficiencia computacional y el rendimiento en varios conjuntos de datos. En el conjunto de datos ImageNet-21K, MoNE logra una precisión del 87,5 %, lo que representa una mejora sustancial con respecto a los modelos de referencia. En las tareas de clasificación de video, como las que involucran los conjuntos de datos Kinetics400 y Something-Something-v2, MoNE demuestra una reducción de dos a tres veces en los costos computacionales, al tiempo que mantiene o supera la precisión de los métodos tradicionales. Las capacidades de procesamiento adaptativo de MoNE le permiten mantener un rendimiento sólido incluso con presupuestos computacionales limitados, lo que demuestra su eficacia tanto en el procesamiento de datos de imágenes como de video.
En conclusión, el marco Mixture of Nested Experts (MoNE) ofrece un avance significativo en el procesamiento eficiente de tokens visuales. Al asignar dinámicamente recursos computacionales en función de la importancia de los tokens, MoNE supera las limitaciones de los modelos ViT y MoE existentes, logrando reducciones sustanciales en los costos computacionales sin sacrificar el rendimiento. Esta innovación tiene un gran potencial para mejorar las aplicaciones de IA en el mundo real, haciendo que los modelos de alto rendimiento sean más accesibles y prácticos. Las contribuciones se validan a través de experimentos rigurosos, lo que demuestra la adaptabilidad y solidez de MoNE en diferentes conjuntos de datos y presupuestos computacionales.
Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit
Encuentra lo próximo Seminarios web sobre IA aquí
Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasionan la ciencia de datos y el aprendizaje automático, y cuenta con una sólida formación académica y experiencia práctica en la resolución de desafíos reales interdisciplinarios.