MIMO-VL-7B: un poderoso modelo en idioma de visión para mejorar la comprensión visual general y el razonamiento multimodal

Los modelos en idioma de visión (VLM) se han convertido en componentes fundamentales para los sistemas de IA multimodales, permitiendo a los agentes autónomos comprender los entornos visuales, la razón sobre el contenido multimodal e interactuar con los mundos digitales y físicos. La importancia de estas capacidades ha llevado a una extensa investigación entre diseños arquitectónicos y metodologías de capacitación, lo que resulta en avances rápidos en el campo. Los investigadores de Xiaomi introducen MIMO-VL-7B, un VLM compacto pero poderoso que comprende tres componentes clave: un codificador de transformador de visión de resolución nativa que preserva los detalles visuales de grano fino, un proyector de perceptrón de múltiples capas para un alineación intermodal eficiente y el modelo de lenguaje MIMO-7B optimizado para la compleja compleja compleja la superación compleja para la superación compleja para la superación complejaTareas de onda.

MIMO-VL-7B sufre dos procesos de entrenamiento secuenciales. El primer proceso es una fase previa a la capacitación de cuatro etapas, que incluye calentamiento del proyector, alineación en idioma de visión, pre-entrenamiento multimodal general y ajuste fino supervisado a largo plazo, que consume 2.4 billones de tokens de conjuntos de datos de alta calidad curados. Esto produce el modelo MIMO-VL-7B-SFT. El segundo proceso es la fase posterior a la capacitación, que introduce el aprendizaje de refuerzo mixto en la política (MORL), que integran diversas señales de recompensa que abarcan precisión de percepción, precisión visual de base, capacidades de razonamiento lógico y preferencias humanas. Esto produce el modelo MIMO-VL-7B-RL. Los hallazgos clave revelan que la incorporación de datos de razonamiento de alta calidad y de cobertura amplia de la etapa previa a la capacitación mejora el rendimiento del modelo, mientras que lograr mejoras simultáneas estables sigue siendo desafiante.

La arquitectura MIMO-VL-7B contiene tres componentes, (a) un transformador de visión (VIT) para codificar entradas visuales, como imágenes y videos, (b) un proyector que mapea los codificaciones visuales en un espacio latente alineado con la LLM, y (c) la LLM en sí, que realiza la comprensión textual y la razonamiento. El QWEN2.5-VIT se adopta como un codificador visual para apoyar las entradas de resolución nativa. La columna vertebral LLM con MIMO-7B-Base como su fuerte capacidad de razonamiento, y un perceptrón múltiple inicializado al azar (MLP) como el proyector se utilizan en la arquitectura del modelo. El conjunto de datos de pre-entrenamiento del modelo comprende 2.4 billones de tokens, diversos datos multimodales, subtítulos de imagen, datos entrelazados, datos de reconocimiento de caracteres ópticos (OCR), datos de base, contenido de video, interacciones de GUI, ejemplos de razonamiento y secuencias de solo texto.

La fase posterior a la capacitación mejora aún más MIMO-VL-7B en tareas de razonamiento desafiantes y con la alineación de preferencias humanas al utilizar el marco MORL que integra perfectamente el aprendizaje de refuerzo con recompensas verificables (RLVR) y RLHF. RLVR utiliza funciones de recompensa basadas en reglas para la superación continua, por lo que las tareas de razonamiento y percepción verificables múltiples están diseñadas para validar la respuesta final con precisión utilizando reglas predefinidas. RLHF se emplea en este marco de recompensa verificable para abordar la alineación de preferencias humanas y mitigar los comportamientos indeseables. Además, el MORL se implementa para optimizar los objetivos RLVR y RLHF simultáneamente.

La evaluación integral en 50 tareas demuestra el rendimiento de vanguardia de MIMO-VL-7B entre los modelos de código abierto. En las capacidades generales, los modelos logran resultados excepcionales en tareas generales de lenguaje de visión, con MIMO-VL-7B-SFT y MIMO-VL-7B-RL obteniendo 64.6% y 66.7% en MMMUValrespectivamente, superan los modelos más grandes como Gemma 3 27b. Para la comprensión de los documentos, MIMO-VL-7B-RL se destaca con 56.5% en CharxivRQ, excediendo significativamente QWEN2.5-VL por 14.0 puntos e Internvl3 por 18.9 puntos. En tareas de razonamiento multimodal, tanto los modelos RL como SFT superan sustancialmente las líneas de base de código abierto, con MIMO-VL-7B-SFT incluso superando modelos mucho más grandes, incluidos QWEN2.5-VL-72B y QVQ-72B-Preview. La variante RL logra mejoras adicionales, lo que aumenta la precisión de MathVision de 57.9% a 60.4%.

MIMO-VL-7B demuestra una comprensión de GUI excepcional y capacidades de conexión a tierra, con el modelo RL superando a todos los VLM generales comparados y alcanzar un rendimiento comparable o superior a modelos especiales de GUI en puntos de referencia desafiantes como ScreensPot-Pro y Osworld-G. El modelo logra la calificación ELO más alta entre todos los VLM de código abierto evaluados, clasificando primero en modelos que abarcan parámetros 7B a 72B y se acercan a modelos patentados como el soneto Claude 3.7. MORL proporciona un importante impulso de más de 22 puntos al modelo SFT, validando la efectividad de la metodología de entrenamiento y destacando la capacidad competitiva de este enfoque VLM de propósito general.

En conclusión, los investigadores introdujeron modelos MIMO-VL-7B que logran el rendimiento de última generación a través de conjuntos de datos previos a la capacitación curados y de alta calidad y los marcos MORL. Las ideas clave de desarrollo incluyen ganancias de rendimiento consistentes al incorporar datos de razonamiento en etapas posteriores de pre-entrenamiento, las ventajas de RL en política sobre Vanilla GRPO y los desafíos de la interferencia de las tareas al aplicar MORL a través de diversas capacidades. Los investigadores de código abierto el conjunto de evaluación integral para promover la transparencia y la reproducibilidad en la investigación multimodal. Este trabajo avanza modelos de lenguaje de visión de código abierto capaces y proporciona información valiosa para la comunidad.


Mira el Papel, Página de Github y Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.