Mini-InternVL: una serie de modelos de lenguajes grandes multimodales (MLLM) 1B a 4B, que logran el 90 % del rendimiento con solo el 5 % de los parámetros

Los modelos multimodales de grandes lenguajes (MLLM) evolucionan rápidamente en inteligencia artificial, integrando la visión y el procesamiento del lenguaje para mejorar la comprensión y la interacción entre diversos tipos de datos. Estos modelos destacan en tareas como el reconocimiento de imágenes y la comprensión del lenguaje natural al combinar el procesamiento de datos visuales y textuales en un marco coherente. Este enfoque integrado permite a los MLLM tener un alto rendimiento en tareas que requieren entradas multimodales, lo que resulta valioso en campos como la navegación autónoma, las imágenes médicas y la detección remota, donde el análisis simultáneo de datos visuales y textuales es esencial.

A pesar de sus ventajas, los MLLM enfrentan limitaciones sustanciales debido a su intensidad computacional y amplios requisitos de parámetros, lo que limita su adaptabilidad en dispositivos con recursos limitados. Muchos MLLM dependen de datos de capacitación de propósito general, a menudo derivados de fuentes de Internet, lo que afecta su rendimiento cuando se aplican a dominios especializados. Esta dependencia de vastos conjuntos de datos y potencia informática a gran escala crea barreras importantes para implementar estos modelos en tareas que requieren una comprensión matizada y específica de un dominio. Estos desafíos se amplifican en campos como la teledetección o la conducción autónoma, donde la adaptación del dominio es crucial pero compleja y costosa.

Los MLLM existentes suelen incorporar codificadores de visión como CLIP, diseñados para alinear datos de visión con modelos de lenguaje para un marco multimodal cohesivo. Sin embargo, estos modelos a menudo encuentran limitaciones en dominios especializados debido a la falta de conocimiento visual integral en estos campos. La mayoría de los MLLM actuales utilizan codificadores de visión previamente entrenados alineados con modelos de lenguaje grandes, que requieren ajustes sustanciales en su arquitectura y programas de capacitación cuando se aplican a diferentes dominios. Este proceso, aunque efectivo, puede ser ineficiente y dificulta la implementación de estos modelos en dispositivos más pequeños, ya que su dependencia de los datos del dominio de Internet limita su capacidad para adaptarse sin problemas a tareas específicas del dominio sin una reconfiguración extensa.

Investigadores del Laboratorio de IA de Shanghai, la Universidad de Tsinghua, la Universidad de Nanjing, la Universidad de Fudan, la Universidad China de Hong Kong, SenseTime Research y la Universidad Jiao Tong de Shanghai han presentado Mini-InternVL, una serie de MLLM livianos con parámetros que van de 1B a 4B para brindar servicios eficientes. comprensión multimodal en varios dominios. Mini-InternVL busca mantener el 90 % del rendimiento de los modelos multimodales más grandes utilizando solo el 5 % de los parámetros, lo que lo hace eficiente en cuanto a recursos y accesible en dispositivos de consumo. El equipo de investigación diseñó Mini-InternVL como una solución de bolsillo adaptable a tareas como conducción autónoma, imágenes médicas y detección remota, al tiempo que ofrece una menor sobrecarga computacional que los MLLM tradicionales. Al crear un marco de adaptación unificado, Mini-InternVL apoya la transferencia efectiva de modelos entre dominios, promoviendo la accesibilidad y aplicabilidad en campos especializados.

Mini-InternVL emplea un codificador de visión robusto llamado InternViT-300M, derivado del modelo más grande InternViT-6B. Este codificador de visión mejora la capacidad de representación del modelo, lo que permite una transferencia efectiva entre dominios con requisitos de recursos reducidos. La serie Mini-InternVL comprende tres variantes de modelo: Mini-InternVL-1B, Mini-InternVL-2B y Mini-InternVL-4B, con recuentos de parámetros de mil millones, 2 mil millones y 4 mil millones, respectivamente. Cada variante está conectada a modelos de lenguaje previamente entrenados como Qwen2-0.5B, InternLM2-1.8B y Phi-3-Mini, lo que permite una implementación flexible. La capacitación se produce en dos etapas: primero, a través de la alineación del lenguaje-imagen, donde el modelo se entrena previamente en extensos conjuntos de datos en diversas tareas, lo que garantiza una alineación sólida de los elementos visuales y textuales. En segundo lugar, el modelo se somete a un ajuste de instrucciones visuales, que implica entrenamiento en conjuntos de datos específicos para tareas multimodales como subtítulos de imágenes, interpretación de gráficos y respuesta visual a preguntas. La diversa gama de tareas durante esta capacitación de múltiples etapas mejora la adaptabilidad y el rendimiento de Mini-InternVL en escenarios del mundo real.

Mini-InternVL demuestra importantes logros de rendimiento en varios puntos de referencia multimodales, logrando hasta el 90 % del rendimiento de modelos más grandes como InternVL2-Llama3-76B con solo el 5 % de sus parámetros. Específicamente, Mini-InternVL-4B tuvo un buen desempeño en los puntos de referencia multimodales generales, con una puntuación de 78,9 en MMBench y 81,5 en ChartQA, ambos puntos de referencia esenciales para tareas de visión y lenguaje. El modelo también tuvo un desempeño competitivo en tareas de dominios específicos, igualando o incluso superando a algunos modelos propietarios en precisión y eficiencia. Por ejemplo, en el ámbito de la conducción autónoma, Mini-InternVL-4B logró una puntuación de precisión comparable a la de modelos que utilizan muchos más recursos. Además, los modelos Mini-InternVL destacaron en imágenes médicas y teledetección, demostrando sólidas capacidades de generalización con un mínimo ajuste. El modelo Mini-InternVL-4B logró una puntuación promedio final de 72,8 en múltiples puntos de referencia, lo que destaca su fortaleza como modelo liviano y de alto rendimiento capaz de transferirse sin problemas a través de campos especializados sin demandas excesivas de recursos.

Los investigadores abordaron con éxito las altas barreras computacionales en el despliegue de modelos multimodales mediante la introducción de Mini-InternVL. Este modelo demuestra que una arquitectura y métodos de capacitación eficientes pueden alcanzar niveles de rendimiento competitivos y, al mismo tiempo, reducir significativamente los requisitos de recursos. Al emplear un marco de adaptación unificado y un codificador de visión robusto, Mini-InternVL proporciona una solución escalable para aplicaciones especializadas en entornos con recursos limitados, avanzando en la aplicabilidad práctica de modelos de lenguajes grandes multimodales en campos especializados.


Mira el Papel y Tarjeta modelo en cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[Trending] LLMWare presenta Model Depot: una amplia colección de modelos de lenguaje pequeño (SLM) para PC Intel


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.