Introducción
Los modelos de lenguaje de visión (VLMS) permiten tanto las entradas de texto como la comprensión visual. Sin embargo, la resolución de imágenes es crucial para el rendimiento de VLM para procesar texto y datos ricos en gráficos. El aumento de la resolución de la imagen crea desafíos significativos. Primero, los codificadores de visión previos a la visión a menudo luchan con imágenes de alta resolución debido a los requisitos ineficientes previos a la pretalía. La ejecución de la inferencia en imágenes de alta resolución aumenta los costos y la latencia computacionales durante la generación de token visual, ya sea a través de un procesamiento único de alta resolución o múltiples estrategias de mosaico de baja resolución. En segundo lugar, las imágenes de alta resolución producen más tokens, lo que conduce a un aumento en el tiempo de precluido de LLM y el tiempo de tiempo de tiempo (TTFT), que es la suma de la latencia del codificador de visión y el tiempo de precluido de LLM.
Arquitecturas VLM existentes
Grandes modelos multimodales como Frozen y Florence utilizaron atención cruzada para combinar embedidas de imagen y texto dentro de las capas LLM intermedias. Las arquitecturas autoregresivas como Llava, Mplug-Bowl, Minigpt-4 y Cambrian-1 son efectivas. Para la codificación eficiente de la imagen, los transformadores de visión pretrados con clip siguen siendo ampliamente adoptados, con variantes como Siglip, Eva-Clip, Internvit y DFNClip. Métodos como Llava-Freemerge e Matryoshka Token Token intentan la poda de token dinámico, mientras que las troncos jerárquicos como ConvNext y FastVit reducen el recuento de tokens a través de la muestra progresiva. Recientemente, se introdujo Convllava, que utiliza un codificador de visión pura y convolucional para codificar imágenes para un VLM.
FastVLM de Apple
Los investigadores de Apple han propuesto FastVLM, un modelo que logra una compensación optimizada entre la resolución, la latencia y la precisión al analizar cómo la calidad de imagen, el tiempo de procesamiento, el número de tokens y el tamaño de LLM se afectan entre sí. Utiliza FastVithd, un codificador de visión híbrido diseñado para generar menos tokens y reducir el tiempo de codificación para imágenes de alta resolución. FastVLM logra un equilibrio óptimo entre el conteo de token visual y la resolución de la imagen solo al escalar la imagen de entrada. Muestra una mejora 3.2 veces en TTFT en la configuración de Llava1.5 y logra un rendimiento superior en puntos de referencia clave utilizando el mismo 0.5B LLM en comparación con Llava-Anevision a una resolución máxima. Ofrece TTFT 85 veces más rápido mientras usa un codificador de visión 3.4 veces más pequeño.
Todos los modelos FASTVLM están entrenados en un solo nodo con 8 veces las GPU NVIDIA H100-80GB, donde el entrenamiento en etapa 1 de VLM es rápido, tarda alrededor de 30 minutos en entrenar con un decodificador QWEN2-7B. Además, FastVithd mejora la arquitectura de FastVit base al introducir una etapa adicional con una capa de muestreo descendente. Esto garantiza que la autoatención funcione en tensores muestreados por un factor de 32 en lugar de 16, reduciendo la latencia de codificación de la imagen mientras se genera 4 veces menos tokens para el decodificador LLM. La arquitectura FastVithd contiene cinco etapas: las primeras tres etapas utilizan bloques de Repmixer para un procesamiento eficiente, mientras que las dos etapas finales emplean bloques de autoatención de varias cabezas, creando un equilibrio óptimo entre la eficiencia computacional y la comprensión de la imagen de alta resolución.
Comparaciones de referencia
Cuando se compara con Convllava utilizando el mismo LLM y datos de entrenamiento similares, FastVLM logra un rendimiento de 8.4% mejor en TextVQA y una mejora del 12.5% en DOCVQA mientras opera un 22% más rápido. La ventaja de rendimiento aumenta a resoluciones más altas, donde FastVLM mantiene velocidades de procesamiento 2 × más rápidas que Convllava en varios puntos de referencia. FastVLM coincide o supera el rendimiento de MM1 en diversos puntos de referencia mediante el uso de la prisión intermedia con muestras de 15 m para la escala de resolución, mientras se genera 5 veces menos tokens visuales. Además, FastVLM no solo supera a Cambrian-1 sino que también funciona 7.9 veces más rápido. Con el ajuste de instrucciones a escala, ofrece mejores resultados mientras usa 2.3 veces menos tokens visuales.
Conclusión
En conclusión, los investigadores introdujeron FastVLM, un avance en VLM al utilizar la columna vertebral de visión FastVithd para una codificación eficiente de imagen de alta resolución. La arquitectura híbrida, previamente en datos reforzados de texto de imagen, reduce la salida de token visual mientras se mantiene un sacrificio de precisión mínima en comparación con los enfoques existentes. FastVLM logra un rendimiento competitivo en los puntos de referencia VLM al tiempo que ofrece mejoras de eficiencia notables tanto en el recuento de parámetros de la columna vertebral TTFT como en la visión. La evaluación comparativa rigurosa en el hardware M1 MacBook Pro muestra que FastVLM ofrece una compensación de accesibilidad de resolución de última generación superior a los métodos actuales.
Mira el Papel y Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
