Mini-Gemini: un marco de inteligencia artificial simple y eficaz que mejora los modelos de lenguaje de visión (VLM) multimodales

Los modelos de lenguaje de visión (VLM) surgen como resultado de una integración única de visión por computadora (CV) y procesamiento del lenguaje natural (NLP). Esta integración busca imitar la comprensión humana mediante la interpretación y generación de contenido que combine imágenes con palabras, dando lugar a un desafío complejo que ha despertado el interés de investigadores de todo el mundo.

Desarrollos recientes han introducido modelos como LLaVA y BLIP-2, que aprovechan colecciones masivas de pares de imagen y texto para ajustar la alineación intermodal. Avances como LLaVA-Next y Otter-HD se han centrado en mejorar la resolución de la imagen y la calidad de los tokens, enriquecer las incrustaciones visuales dentro de los LLM y abordar los desafíos computacionales del procesamiento de imágenes de alta resolución. Además, métodos como InternLM-XComposer y los enfoques de predicción de tokens autorregresivos, ejemplificados por EMU y SEED, han buscado permitir a los LLM decodificar imágenes directamente a través de extensos datos de imagen y texto. Si bien son efectivos, estos enfoques han enfrentado desafíos relacionados con la latencia y la necesidad de recursos de capacitación masivos.

Investigadores de la Universidad China de Hong Kong y SmartMore han introducido un marco novedoso, Mini-Gemini, que hace avanzar los VLM al mejorar el procesamiento de entrada multimodal. Su particularidad radica en el empleo de un sistema de codificador dual y una novedosa técnica de extracción de información de parches junto con un conjunto de datos de alta calidad especialmente seleccionado. Estas innovaciones permiten a Mini-Gemini procesar imágenes de alta resolución de manera efectiva y generar contenido visual y textual rico en contexto, lo que lo distingue de los modelos existentes.

La metodología detrás de Mini-Gemini implica un sistema de codificador dual que incluye una red neuronal convolucional para un procesamiento refinado de imágenes, mejorando los tokens visuales sin aumentar su número. Utiliza minería de información de parches para la extracción de señales visuales detalladas. El marco se entrena en un conjunto de datos compuesto, que combina pares de imagen y texto de alta calidad e instrucciones orientadas a tareas para mejorar el rendimiento del modelo y el alcance de la aplicación. Mini-Gemini es compatible con varios modelos de lenguajes grandes (LLM), que van desde parámetros 2B a 34B, lo que permite una inferencia eficiente entre todos. Esta configuración permite a Mini-Gemini lograr resultados superiores en puntos de referencia de cero disparos y admite tareas multimodales avanzadas.

Al evaluar la efectividad de Mini-Gemini, el marco mostró un desempeño líder en varios puntos de referencia de tiro cero. En concreto, superó al modelo Gemini Pro en los benchmarks MM-Vet y MMBench, con una puntuación de 79,6 y 75,6 respectivamente. Cuando se configuró con Hermes-2-Yi-34B, Mini-Gemini logró una notable puntuación de 70,1 en el punto de referencia VQAT, superando al modelo LLaVA-1.5 existente en todas las métricas evaluadas. Estos resultados validan las capacidades avanzadas de procesamiento multimodal de Mini-Gemini, destacando su eficiencia y precisión en el manejo de tareas visuales y textuales complejas.

Para concluir, la investigación presenta Mini-Gemini, que hace avanzar los VLM a través de un sistema de codificador dual, extracción de información de parches y un conjunto de datos de alta calidad. Al demostrar un rendimiento excepcional en múltiples puntos de referencia, Mini-Gemini supera a los modelos establecidos, lo que marca un importante paso adelante en las capacidades de IA multimodal. Sin embargo, como reconocen los investigadores, todavía hay margen de mejora en la comprensión visual y las capacidades de razonamiento de Mini-Gemini, y afirman que el trabajo futuro explorará métodos avanzados para la comprensión, el razonamiento y la generación visual.


Revisar la Papel y Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.