Microsoft Research introduce mminferencia para acelerar el pre-relleno para los modelos en idioma de visión de contexto largo

La integración de las capacidades de contexto largo con la comprensión visual mejora significativamente el potencial de los VLM, particularmente en dominios como la robótica, la conducción autónoma y la atención médica. Expandir el tamaño de contexto permite a VLMS procesar secuencias extendidas de video y texto, mejorando así la resolución temporal y el rendimiento en tareas complejas, como la comprensión de video. Sin embargo, una limitación importante es la complejidad cuadrática de los mecanismos de atención durante la fase previa al relleno, lo que da como resultado una alta latencia antes de que comience la decodificación autorregresiva. Este retraso, conocido como tiempo de contacto, hace que el despliegue del mundo real sea un desafío de VLMS de contexto largo. Varios métodos de atención escasa, como el transformador disperso, el transformador de giro y la transmisión, pasan por alto los patrones escasos específicos que se encuentran en las VLM con modalidades mixtas, lo que limita su eficiencia y efectividad.

A diferencia de las entradas de solo texto, los datos visuales y de video en VLM demuestran estructuras de atención espacio-temporales únicas, formando patrones similares a la red debido a las correlaciones locales. En escenarios de modalidad mixta, existen límites claros entre diferentes modalidades, lo que lleva a comportamientos de atención distintos que los métodos generales generales no logran capturar. Los avances recientes, como la minferencia y los enfoques dinámicos de atención dispersa, tienen como objetivo mejorar la eficiencia de la inferencia al adaptar los patrones de atención en línea. Sin embargo, estas técnicas a menudo se quedan cortas en el manejo de las complejidades de las entradas de modalidad mixta. Si bien se han explorado la compresión del token de visión y los híbridos de transformador RNN para reducir la carga computacional, la mayoría de estos métodos se centran en las emparejamientos de larga duración y texto corto, descuidando la dinámica más compleja de las interacciones de modalidad múltiple y mixta, que son cada vez más importantes en aplicaciones prácticas.

Investigadores de la Universidad de Surrey y Microsoft han introducido MMinferencia, un método de atención dinámico y escaso diseñado para acelerar la etapa previa al relleno de los VLM de contexto largo. Al identificar los patrones de escasez tipo cuadrícula en entradas de video y distintos límites de modalidad, Mminferencia aplica estrategias basadas en permutación para optimizar el cálculo de atención. Construye dinámicamente distribuciones dispersas para cada entrada y utiliza núcleos de GPU personalizados para una eficiencia mejorada, todas sin requerir modificaciones a los modelos existentes. Probado en puntos de referencia como QA de video, subtítulos y Vision-Niah, MMinference logró hasta 8.3 × aceleración a 1M tokens, superando los métodos anteriores al tiempo que mantiene una alta precisión en múltiples VLM de última generación.

MMinference es un marco diseñado para acelerar la fase previa al relleno de los modelos en idioma de visión de contexto largo aprovechando la atención escasa de modalidad. Integra tres componentes clave: (1) patrones dispersos intra-modalidad como cuadrícula, forma de A y atención vertical con pendiente vertical; (2) patrones de modalidad cruzada, como Q-Boundary y 2D-Boundary; y (3) un algoritmo de búsqueda de atención escasa de modalidad. En lugar de un cálculo denso, utiliza atención escasa dinámica con núcleos de GPU optimizados y manejo eficiente del tensor. El marco identifica dinámicamente los patrones de atención y los tensores permutados en función de la modalidad, lo que permite un manejo eficiente de entradas multimodales y reduciendo la sobrecarga computacional mientras mantiene un rendimiento fuerte.

El estudio evalúa el rendimiento y la eficiencia de Mminferencia en tareas de videos a largo plazo, incluidos los subtítulos, la respuesta de preguntas y la recuperación en entornos de modalidad unimodal y mixta. Los experimentos se realizaron utilizando modelos de última generación, como Llava-Video y Longvila, con comparaciones contra varias líneas de base de atención escasa. Los resultados muestran que MMinference logra un rendimiento cercano a la atención al tiempo que es más eficiente computacionalmente. Se desempeña particularmente bien en la aguja de modalidad mixta recientemente introducida en una tarea de pajar (mm-niah) al aprovechar los patrones dispersos entre modalidad. Además, MMinferencia demuestra aceleras significativas en la latencia de extremo a extremo y mantiene robustez en diferentes longitudes de contexto y tipos de entrada.

En conclusión, MMinferencia es una técnica de atención escasa consciente de la modalidad diseñada para acelerar las VLM de contexto largo sin comprometer la precisión. Emplea un patrón de atención de la red basado en permutación adaptado para la localidad espacial temporal de las entradas de video, junto con el manejo especializado para límites de modalidad mixta. Un algoritmo de búsqueda identifica patrones dispersos óptimos por cabeza de atención, adaptándose dinámicamente a la entrada. El método se integra directamente en las tuberías VLM actuales sin requerir cambios de modelo o ajuste fino. Con los núcleos de GPU optimizados, MMinference logra hasta 8.3 × aceleración durante la etapa previa al relleno en 1M tokens en varias tareas, incluidos el control de calidad de video, el subtítulos y los puntos de referencia de modalidad mixta, al tiempo que conservan el rendimiento de la atención completa.

Mira el Papel y Código. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Microsoft Research introduce mminferencia para acelerar el pre-relleno para los modelos en idioma de visión de contexto largo

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Mejores decisiones a escala: cómo la optimización matemática funciona donde falla la intuición

Xiaomi MiMo y TileRT impulsan un modelo de 1 billón de parámetros que supera los 1000 tokens por segundo en GPU comerciales

Aumente la precisión de los sistemas de recomendación con LLM, utilizando Python

You missed

Banda GPS apuntó a autos de lujo en San Pedro del Pinatar – The Leader

¿Pedro Pascal dejó ‘The Last of Us’? Descubralo – Vida en Hollywood

Mejores decisiones a escala: cómo la optimización matemática funciona donde falla la intuición

Una piedra rúnica enterrada en Ontario puede ser la inscripción rúnica más larga de América del Norte y la única conocida que conserva el Padrenuestro