Mirage: razonamiento multimodal en VLMS sin renderizar imágenes

Si bien los VLM son fuertes para comprender tanto el texto como las imágenes, a menudo dependen únicamente del texto al razonar, limitando su capacidad para resolver tareas que requieren pensamiento visual, como rompecabezas espaciales. Las personas visualizan naturalmente soluciones en lugar de describir cada detalle, pero los VLM luchan por hacer lo mismo. Aunque algunos modelos recientes pueden generar texto e imágenes, capacitarlos para la generación de imágenes a menudo debilita su capacidad de razonar. La producción de imágenes tampoco es compatible con el razonamiento visual paso a paso. Como resultado, desbloquear todo el potencial de VLM para el pensamiento complejo y visualmente fundamentado sigue siendo un desafío clave en el campo.

La provisión de cuna alienta a los modelos a razonar a través de problemas paso a paso usando ejemplos con explicaciones intermedias. Esta idea se ha extendido a tareas multimodales, donde la información visual se integra en el flujo de razonamiento. Métodos como ICOT incrustaron las regiones de imágenes dentro de las secuencias de texto, mientras que Visual COT utiliza anotaciones visuales para entrenar modelos para una mejor comprensión espacial. Algunos modelos recientes pueden generar texto e imágenes simultáneamente; Sin embargo, requieren una fuerte supervisión e incurren en altos costos computacionales. Por separado, los investigadores están explorando formas de incrustar el razonamiento internamente dentro de los modelos guiando sus estados ocultos, utilizando tokens especiales o representaciones latentes en lugar de pasos de razonamiento explícitos.

Investigadores de la Universidad de Massachusetts Amherst y el MIT proponen un enfoque inspirado en cómo los humanos usan imágenes mentales, lo que implica formar imágenes simples y relevantes para tareas internamente mientras piensan. Introducen a Mirage, un marco que permite a VLMS entrelazar el razonamiento visual directamente en sus salidas de texto sin generar imágenes completas. En cambio, el modelo inserta señales visuales compactas derivadas de sus estados ocultos. Está entrenado en dos fases: primero con texto y supervisión visual, luego con orientación de solo texto. El aprendizaje de refuerzo refina aún más sus habilidades de razonamiento. Mirage permite que VLMS piense más como los humanos, mejorando así su rendimiento en tareas multimodales complejas.

Mirage es un marco inspirado en las imágenes mentales humanas que permite a los VLM razonar utilizando señales visuales compactas en lugar de generar imágenes completas. Emplea dos etapas de capacitación: primero, motiva las características visuales comprimidas, conocidas como tokens latentes, dentro del proceso de razonamiento utilizando imágenes de ayuda y supervisión conjunta. Luego, relaja esta restricción, permitiendo que el modelo genere sus tokens latentes y los use para guiar el razonamiento. Esta configuración permite un razonamiento multimodal entrelazado. Una etapa de aprendizaje de refuerzo final ajusta aún más el modelo utilizando precisión y formateo de recompensas, alentando las respuestas correctas y los procesos de pensamiento estructurados.

El estudio evalúa el modelo en cuatro tareas de razonamiento espacial, como rompecabezas visuales y problemas de geometría, utilizando un pequeño conjunto de datos de 1,000 muestras de entrenamiento. Para apoyar el razonamiento, genera imágenes de ayudantes sintéticos y pasos de pensamiento, imitando cómo los humanos usan bocetos y señales para facilitar los procesos de pensamiento. El modelo supera consistentemente a las líneas de base solo de texto y multimodales, incluso en tareas que requieren una planificación extensa, como la resolución de laberinto. Una versión más pequeña del modelo también produce fuertes resultados, lo que demuestra que el método es robusto. Los estudios de ablación confirman que la base de fichas visuales latentes primero, seguidas de un entrenamiento flexible, es clave. En general, el intercambio de razonamiento visual y de texto sin imágenes reales aumenta tanto la comprensión como la precisión.

En conclusión, inspirado en cómo los humanos usan imágenes mentales para razonar, el estudio introduce un enfoque liviano que permite que VLMS piense visualmente, sin generar imágenes reales. Al interconectar señales visuales compactas con texto durante la decodificación, el modelo aprende a razonar multimodalmente a través de un proceso de entrenamiento de dos fases: primero, ancla estas señales a características de imagen reales, y luego les permite evolucionar libremente para admitir el razonamiento. Un paso de aprendizaje de refuerzo final afecta el rendimiento. Probado en tareas de razonamiento espacial, el método supera constantemente a los modelos tradicionales solo de texto. Sin embargo, los desafíos permanecen en escalar a otras tareas y mejorar la calidad de los datos de capacitación sintética.


Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.