Los desafíos actuales que enfrentan los grandes modelos de visión y lenguaje (VLM) incluyen limitaciones en las capacidades de los componentes visuales individuales y problemas que surgen de tokens visuales excesivamente largos. Estos desafíos plantean limitaciones a la capacidad del modelo para interpretar con precisión información visual compleja y detalles contextuales extensos. Reconociendo la importancia de superar estos obstáculos para mejorar el rendimiento y la versatilidad, este artículo presenta un enfoque novedoso.
La solución propuesta implica aprovechar técnicas expertas en conjunto para sinergizar las fortalezas de los codificadores visuales individuales, abarcando habilidades en coincidencia de imagen y texto, OCR y segmentación de imágenes, entre otras. Esta metodología incorpora una red de fusión para armonizar el procesamiento de resultados de diversos expertos visuales, cerrando efectivamente la brecha entre los codificadores de imágenes y los modelos de lenguaje previamente entrenados (LLM).
Numerosos investigadores han destacado las deficiencias del codificador CLIP, citando desafíos como su incapacidad para capturar de forma fiable factores espaciales básicos en imágenes y su susceptibilidad a las alucinaciones de objetos. Dadas las diversas capacidades y limitaciones de los distintos modelos de visión, surge una pregunta fundamental: ¿Cómo se pueden aprovechar las fortalezas de múltiples expertos visuales para mejorar de forma sinérgica el rendimiento general?
Inspirándose en los sistemas biológicos, el enfoque adoptado aquí adopta una perspectiva multivisual-experta, similar al funcionamiento del sistema visual de los vertebrados. En la búsqueda del desarrollo de modelos visión-lenguaje (VLM) con expertos polivisuales, tres preocupaciones principales pasan a primer plano:
- La eficacia de los expertos polivisuales,
- Integración óptima de múltiples expertos y
- Prevención de exceder la longitud máxima de los Modelos de Lenguaje (LLM) con múltiples expertos visuales.
Se creó un grupo de candidatos compuesto por seis expertos de renombre, incluidos CLIP, DINOv2, LayoutLMv3, Convnext, SAM y MAE, para evaluar la eficacia de múltiples expertos visuales en VLM. Empleando LLaVA-1.5 como configuración base, se exploraron combinaciones de experto único, doble y triple en once puntos de referencia. Los resultados, como se muestra en la Figura 1, demuestran que con un número cada vez mayor de expertos visuales, los VLM obtienen información visual más rica (atribuida a más canales visuales), lo que lleva a una mejora general en el límite superior de la capacidad multimodal en varios puntos de referencia.
Izquierda: Al comparar InstructBLIP, Qwen-VL-Chat y LLaVA-1.5-7B, MouSi, experto en polivisual, logra SoTA en una amplia gama de nueve puntos de referencia. Bien: Actuaciones de los mejores modelos con diferentes números de expertos en nueve conjuntos de datos de referencia. En general, los expertos triples son mejores que los expertos dobles, quienes a su vez son mejores que un experto único.
Además, el artículo explora varios esquemas de codificación posicional destinados a mitigar los problemas asociados con secuencias largas de características de imágenes. Esto aborda las preocupaciones relacionadas con el desbordamiento de posiciones y las limitaciones de longitud. Por ejemplo, en la técnica implementada, hay una reducción sustancial en la ocupación posicional en modelos como SAM, de 4096 a 64, más eficiente y manejable, o incluso hasta 1.
Los resultados experimentales demostraron el rendimiento consistentemente superior de los VLM que emplean múltiples expertos en comparación con los codificadores visuales aislados. La integración de expertos adicionales marcó un importante impulso en el rendimiento, destacando la eficacia de este enfoque para mejorar las capacidades de los modelos de visión y lenguaje. Han ilustrado que el enfoque polivisual eleva significativamente el rendimiento de los modelos de visión y lenguaje (VLM), superando la precisión y profundidad de comprensión lograda por los modelos existentes.
Los resultados demostrados se alinean con la hipótesis de que un conjunto cohesivo de codificadores expertos puede generar una mejora sustancial en la capacidad de los VLM para manejar entradas multimodales complejas. En resumen, la investigación muestra que el uso de diferentes expertos visuales hace que los modelos de visión y lenguaje (VLM) funcionen mejor. Ayuda a los modelos a comprender información compleja de manera más eficaz. Esto no sólo soluciona los problemas actuales sino que también fortalece los VLM. ¡En el futuro, este enfoque podría cambiar la forma en que unimos la visión y el lenguaje!
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Janhavi Lande, se graduó en Ingeniería Física del IIT Guwahati, promoción de 2023. Es una futura científica de datos y ha estado trabajando en el mundo de la investigación ml/ai durante los últimos dos años. Lo que más le fascina es este mundo en constante cambio y su constante exigencia de que los humanos se mantengan al día. En su pasatiempo le gusta viajar, leer y escribir poemas.