Los modelos de lenguaje multimodales de gran tamaño (MLLM, por sus siglas en inglés) representan un avance significativo en la inteligencia artificial al combinar información visual y lingüística para comprender e interpretar mejor escenarios complejos del mundo real. Estos modelos están diseñados para ver, comprender y razonar sobre las entradas visuales, lo que los hace invaluables en tareas de reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) y análisis de documentos. El núcleo de estos MLLM reside en sus codificadores de visión, que convierten las imágenes en tokens visuales que luego se integran con incrustaciones de texto. Esta integración permite que el modelo interprete las entradas visuales y responda de manera efectiva. Sin embargo, el diseño y la optimización de estos codificadores de visión sigue siendo un desafío crítico, en particular cuando se trata de imágenes de alta resolución que requieren una percepción visual de grano fino.
El desarrollo de los MLLM se enfrenta a varios desafíos, en particular en lo que respecta a la mejora de sus capacidades de percepción visual. Un problema clave es la aparición de alucinaciones, en las que el modelo genera resultados imprecisos o sin sentido en función de las entradas visuales. Este problema es especialmente problemático en tareas que requieren el procesamiento de imágenes de alta resolución, como el reconocimiento óptico de caracteres (OCR) y la comprensión de documentos. Los modelos existentes a menudo necesitan ayuda con estas tareas debido a las limitaciones en el diseño de los codificadores de visión y los métodos utilizados para integrar los datos visuales y textuales. Además, si bien muchos MLLM actuales emplean un solo codificador de visión, este enfoque a menudo necesita capturar la gama completa de información visual necesaria para una interpretación precisa, lo que conduce a errores y a una reducción del rendimiento.
Los investigadores han explorado varios métodos para mejorar el rendimiento de MLLM. Un enfoque común es utilizar un codificador de visión único entrenado previamente en grandes conjuntos de datos, como CLIP, que a menudo se elige por su capacidad para alinear representaciones visuales y textuales. Sin embargo, este método tiene desventajas, en particular cuando se trata de tareas de procesamiento de imágenes de alta resolución. Otro enfoque implica estrategias de fusión complejas que combinan características visuales de múltiples codificadores. Si bien estos métodos pueden mejorar el rendimiento, a menudo requieren recursos computacionales significativos y solo a veces brindan resultados consistentes en diferentes tipos de tareas visuales. Por ejemplo, se han desarrollado modelos como Flamingo y LLaVA-HR para abordar desafíos específicos en el diseño de MLLM. Sin embargo, aún dejan margen para mejorar la eficiencia y la eficacia.
Investigadores de NVIDIA, Georgia Tech, UMD y HKPU han desarrollado el Familia Eagle de MLLMEste nuevo enfoque explora sistemáticamente el espacio de diseño de los MLLM mediante la evaluación comparativa de varios codificadores de visión, la experimentación con diferentes estrategias de fusión y la identificación progresiva de combinaciones óptimas de expertos en visión. Los investigadores introdujeron un método que implica simplemente la concatenación de tokens visuales de codificadores de visión complementarios, que resultó tan eficaz como las arquitecturas de mezcla más complejas. Este enfoque simplifica el proceso de diseño al tiempo que mantiene un alto rendimiento. Introdujeron una etapa de prealineación para alinear a los expertos en visión no alineados con el texto con el modelo de lenguaje antes de integrarlos, lo que mejora la coherencia y el rendimiento del modelo.
La familia de modelos Eagle, también conocida como Águila de Nevadaincluye varias variantes adaptadas a diferentes tareas y requisitos. Los modelos vienen en tres versiones principales: Águila-X5-7B, Águila-X5-13By Águila-X5-13B-ChatLos modelos 7B y 13B están diseñados para tareas de visión y lenguaje de uso general, y la variante 13B ofrece capacidades mejoradas debido a su mayor tamaño de parámetro. El modelo 13B-Chat está específicamente optimizado para la IA conversacional, lo que lo hace excepcionalmente adecuado para aplicaciones que requieren una comprensión matizada e interacción basada en entradas visuales.
Una de las características destacadas de NVEagle es el uso de una combinación de expertos (MoE) en los codificadores de visión, lo que mejora significativamente la percepción visual. Este enfoque permite que el modelo seleccione dinámicamente el codificador de visión más adecuado para una tarea determinada, lo que mejora su capacidad para procesar y comprender información visual compleja. Los modelos de NVEagle se han publicado en Hugging Face, lo que los hace accesibles a investigadores y desarrolladores. Esta versión subraya la versatilidad y solidez del modelo, ya que funciona excepcionalmente bien en varios puntos de referencia, desde el reconocimiento óptico de caracteres y el análisis de documentos hasta la respuesta visual a preguntas.
Los modelos Eagle demostraron resultados excepcionales en múltiples pruebas comparativas. Por ejemplo, en tareas de OCR, los modelos Eagle lograron una puntuación media de 85,9 en OCRBench, superando a otros modelos líderes como InternVL y LLaVA-HR. En TextVQA, que evalúa la capacidad del modelo para responder preguntas basadas en texto dentro de imágenes, Eagle-X5 obtuvo una puntuación de 88,8, lo que marca una mejora significativa con respecto a sus competidores. El modelo también se destacó en tareas de respuesta a preguntas visuales, como GQA, donde obtuvo una puntuación de 65,7, lo que demuestra su capacidad para manejar entradas visuales complejas. La introducción de expertos en visión adicionales en los modelos Eagle, como Pix2Struct y EVA-02, generó mejoras constantes en el rendimiento en varias pruebas comparativas, incluido un aumento notable en la puntuación media de 64,0 a 65,9 al utilizar una combinación de múltiples codificadores de visión.
En conclusión, la familia de modelos Eagle aborda muchos de los desafíos clave en la percepción visual. Los investigadores han creado un modelo que aborda estos desafíos explorando sistemáticamente el espacio de diseño y optimizando la integración de múltiples codificadores de visión. Los modelos Eagle logran un rendimiento de vanguardia en varias tareas con un diseño optimizado y eficiente. El uso de una estrategia de fusión simple pero efectiva, combinada con la introducción de una etapa de prealineación, ha demostrado ser un enfoque poderoso para mejorar el rendimiento de MLLM.
Echa un vistazo a la Tarjetas modelo y Manifestación. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.