El desafío del razonamiento multimodal
Los avances recientes en los modelos de idiomas basados en texto, como Deepseek-R1, han demostrado que RL puede ayudar a desarrollar fuertes habilidades de razonamiento. Motivado por esto, los investigadores han intentado aplicar las mismas técnicas RL a MLLM para mejorar su capacidad de razonar en las entradas visuales y textuales. Sin embargo, estos intentos no han sido completamente exitosos; Los MLLM aún luchan con tareas de razonamiento complejas. Esto sugiere que simplemente reutilizar las estrategias RL de los modelos solo de texto puede no funcionar bien en entornos multimodales, donde la interacción entre los diferentes tipos de datos introduce nuevos desafíos que requieren más enfoques personalizados.
Evolución de modelos de lenguaje multimodal
Investigaciones recientes en MLLM se basan en el progreso de las LLM al combinar entradas visuales con la comprensión del lenguaje. Los primeros modelos, como Clip y Minigpt-4, sentaron las bases, seguidas de modelos de instrucciones como Llama. Si bien los modelos de código cerrado demuestran un fuerte razonamiento a través de largas salidas de cuna, los modelos de código abierto se han centrado principalmente en ajustar y adaptaciones de cuna. Sin embargo, estos a menudo producen respuestas breves que limitan la justificación en profundidad. RL, incluidas técnicas como RLHF y GRPO, ha demostrado ser prometedor para mejorar el razonamiento en LLM. Inspirado en esto, el trabajo reciente ahora tiene como objetivo aplicar RL en MLLM para mejorar el razonamiento visual y admitir resultados más ricos y más largos.
Introducción de Revisual-R1
Investigadores de la Universidad de Tsinghua, la Universidad de Shanghai Jiao Tong y el Laboratorio de Inteligencia Artificial de Shanghai han introducido Revisual-R1, un MLLM de código abierto de 7B Parameter que establece un nuevo estándar en razonamiento multimodal. Su estudio revela tres ideas clave: (1) el preventaje cuidadoso solo de texto de texto proporciona una fuerte entrada en frío, superando a muchos MLLM existentes incluso antes de RL; (2) El algoritmo GRPO comúnmente utilizado sufre de estancamiento de gradiente, que abordan con un método novedoso llamado destilación de ventaja priorizada (PAD); y (3) agregar una fase RL final de texto final después de que RL multimodal aumente aún más el razonamiento. Su enfoque de tres etapas, que incluye la pretruación de texto, la RL multimodal y el texto final RL, entiende un equilibrio efectivo entre la conexión a tierra visual y el razonamiento cognitivo profundo.
Desarrollo del conjunto de datos de gramática
El conjunto de datos de gramática se desarrolló después de que se notó que los conjuntos de datos de inicio de frío multimodal existente carecen de la profundidad necesaria para entrenar modelos de razonamiento fuertes. Los conjuntos de datos de solo texto, como DeepMath, mostraron mejores ganancias tanto en el texto como en las tareas multimodales, lo que sugiere que la complejidad textual estimula el razonamiento. Para abordar esto, la gramática combina diversas muestras textuales y multimodales utilizando un proceso de curación en varias etapas. Estos datos alimentan el marco de optimización de refuerzo en etapas (SRO), que primero entrena modelos utilizando RL multimodal, mejorado por la destilación de ventaja priorizada para evitar el aprendizaje estancado y una recompensa de longitud eficiente para frenar la verbosidad, seguido de una fase RL de solo texto para aumentar el razonamiento y la fluidez del lenguaje.
Tubería de entrenamiento de tres etapas
Los experimentos para Revisual-R1 siguieron un proceso estructurado de entrenamiento de tres etapas: comenzando con datos de texto puros para construir una base de lenguaje, luego incorporando el aprendizaje de refuerzo multimodal para el razonamiento de texto visual, y finalmente ajustar con RL solo de texto para refinar el razonamiento y la fluidez. Fue probado en varios puntos de referencia y superó a los modelos de código abierto y algunos modelos comerciales en tareas de razonamiento multimodal y matemático. El modelo logró los mejores resultados en 9 de 10 puntos de referencia. Los estudios de ablación confirmaron la importancia del orden de capacitación y el método de destilación de ventaja priorizada, que ayudó a concentrar el aprendizaje en las respuestas de alta calidad, lo que resultó en una mejora significativa en el rendimiento general.
Resumen y contribuciones
En conclusión, Revisual-R1 es un MLLM de código abierto 7B construido para enfrentar los desafíos del razonamiento multimodal complejo. En lugar de confiar únicamente en la escala, utiliza un proceso de entrenamiento de tres etapas bien diseñado: comenzando con datos de texto de alta calidad para la justificación fundamental, seguida de una fase RL multimodal mejorada con una nueva técnica de PAD para la estabilidad, y terminando con un refinamiento RL basado en texto final. Este plan de estudios reflexivo aumenta significativamente el rendimiento. Revisual-R1 establece un nuevo punto de referencia entre los modelos 7B, sobresaliendo en tareas como Mathverse y Aime. El trabajo destaca cómo el entrenamiento estructurado puede desbloquear un razonamiento más profundo en MLLM.
Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.