Investigadores de la Universidad de Pekín y el Grupo Alibaba introdujeron FastV para abordar los desafíos causados por el cálculo de atención ineficiente en modelos de lenguaje-visión de gran tamaño (LVLM). Los modelos existentes, como LLaVA-1.5 y Video-LLaVA, han mostrado avances significativos en los LVLM, pero luchan con el cuello de botella en el mecanismo de atención, relacionado con el manejo de tokens visuales. Los investigadores revelaron que el mecanismo de atención dentro de los LVLM muestra un sesgo hacia los tokens textuales, lo que resulta en una utilización ineficiente de la información visual.
Actualmente, los LVLM procesan entradas multimodales transformando imágenes en tokens y alimentándolas junto con tokens textuales en el decodificador basado en transformador. Los investigadores identificaron el problema con los tokens visuales, que constituyen una parte sustancial de los datos de entrada, y reciben puntuaciones de atención desproporcionadamente más bajas en comparación con los tokens textuales, especialmente en las capas más profundas de los LVLM. Esta ineficiencia conduce a una utilización subóptima de la información visual y obstaculiza el rendimiento general y la eficiencia computacional de los LVLM. Para abordar esto, proponen FastV, un método de poda dinámica diseñado para optimizar la eficiencia computacional en LVLM. FastV elimina dinámicamente los tokens visuales innecesarios en función de sus puntuaciones de atención, lo que reduce significativamente los costos computacionales sin comprometer el rendimiento en una variedad de tareas de visión y lenguaje.
El modelo propuesto, FastV, opera introduciendo un mecanismo de poda dinámico para tokens visuales durante la fase de inferencia de LVLM. Clasifica la importancia de los tokens visuales en función de sus puntuaciones de atención y elimina selectivamente los tokens menos relevantes más allá de una determinada capa. Esta estrategia de poda selectiva reduce significativamente la carga computacional de los LVLM, particularmente en capas profundas, donde el mecanismo de atención tiende a asignar menos recursos a los tokens visuales. Al aprovechar esta información, FastV logra una reducción sustancial de los FLOP y al mismo tiempo mantiene un rendimiento superior en diversas tareas de visión y lenguaje.
La flexibilidad de FastV permite a los usuarios personalizar el equilibrio entre eficiencia computacional y rendimiento de acuerdo con sus requisitos específicos, lo que la convierte en una solución versátil y práctica para implementar LVLM en entornos con recursos limitados. FastV ha demostrado una eficacia significativa al apuntar con precisión a los tokens de imágenes para su reducción, optimizando así el rendimiento sin comprometer la funcionalidad general del modelo.
En conclusión, el modelo propuesto aborda la ineficiencia del cálculo de la atención en los LVLM, particularmente en lo que respecta al manejo de tokens visuales. FastV demuestra un rendimiento notable en la reducción de costos computacionales sin sacrificar la calidad del resultado en una variedad de tareas de lenguaje visual. En general, FastV representa un paso significativo hacia la mejora de la eficiencia computacional y la implementación práctica de LVLM, ofreciendo una solución prometedora a los desafíos planteados por las limitaciones de recursos en aplicaciones del mundo real.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 38k+ ML
¿Quieres estar frente a 1,5 millones de entusiastas de la IA? Trabaja con nosotros aquí
Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.