La idea central de los modelos de lenguaje grande multimodal (MLLMS) es crear modelos que puedan combinar la riqueza del contenido visual con la lógica del lenguaje. Sin embargo, a pesar de los avances en este campo, muchos modelos luchan por conectar los dos dominios de manera efectiva, lo que lleva a un rendimiento limitado en tareas de razonamiento complejos que involucran componentes visuales.
Un desafío importante en la construcción de tales modelos es su capacidad limitada para combinar la comprensión visual con el pensamiento lógico. Los sistemas actuales a menudo producen salidas textuales que explican el razonamiento pero no hacen referencia a las partes específicas de una imagen en las que confían. Esto crea una brecha donde los modelos pueden llegar a una respuesta sin mostrar claramente cómo la evidencia visual contribuyó a su decisión. También es difícil garantizar que los modelos generen pasos de razonamiento visual que se conecten directamente a sus respuestas. El problema fundamental radica en cómo entrenar naturalmente los modelos para entrelazar el razonamiento de texto y imágenes sin necesidad de grandes conjuntos de datos anotados con referencias visuales, que son escasas y costosas de producir.
Los métodos existentes intentan abordar esto utilizando el aprendizaje de refuerzo o las estrategias de solicitación. Algunos sistemas generan coordenadas de cuadro delimitador como respuestas, mientras que otros producen cadenas de razonamiento textual paso a paso. Sin embargo, estos enfoques tienen limitaciones. Los modelos que solo producen cuadros delimitadores carecen de explicación, mientras que aquellos que generan solo texto corren el riesgo de ignorar la evidencia visual. Los métodos anteriores a menudo separan la base visual y el razonamiento, lo que dificulta los modelos explicar por qué un elemento visual particular conduce a una cierta conclusión. Si bien algunos modelos usan datos de supervisión densos o herramientas adicionales, generalmente requieren anotaciones pesadas y no escala bien. Esto dificulta a los desarrolladores crear modelos que puedan explicar su razonamiento de manera transparente y manejar diversas tareas visuales con datos mínimos.
Investigadores de UC Santa Cruz y Ebay introdujeron un nuevo método llamado razonamiento fundamentado con imágenes y texto (grano) que permite que MLLM como Qwen 2.5-VL y Internvl 3 generen cadenas de razonamiento que mezclan un lenguaje natural con coordenadas explícitas de cajas limitadas que apuntan a regiones de imágenes relevantes. Este enfoque unificado permite que los modelos razonen y funden visualmente sus respuestas sin requerir densas anotaciones o cadenas de razonamiento etiquetadas. Grit también utiliza un algoritmo de aprendizaje de refuerzo ligero llamado GRPO-Gr, que optimiza tanto la precisión de la respuesta final como la estructura del razonamiento, alentando los modelos a incluir tokens específicos como
La metodología en Grit se centra en generar salidas que combinan el razonamiento textual y la conexión a tierra visual sin problemas. En lugar de requerir que los modelos procesen imágenes recortadas o datos visuales adicionales después de generar cajas limitadas, Grit enseña a los modelos a utilizar su comprensión interna de la imagen. Los cuadros delimitadores se generan durante el proceso de razonamiento, y los modelos aprenden a reflexionar sobre estas coordenadas dentro de su razonamiento lógico. El marco de aprendizaje de refuerzo recompensa el uso correcto de los formatos de la caja delimitadora y la estructura de razonamiento, y guía modelos para producir cadenas de razonamiento coherentes y fundamentadas. Grit demuestra una notable eficiencia de datos mediante el uso de solo 20 trillizos de respuesta de imagen de imagen procedente de razonamiento espacial visual y conjuntos de datos Tallyqa. El entrenamiento modelo se realizó en las GPU A100 NVIDIA, con técnicas de optimización como Adamw y un programador de coseno aplicado en 200 pasos de entrenamiento, que muestra la escalabilidad del método a pesar de los datos limitados.
Las evaluaciones de rendimiento revelaron que los modelos entrenados en arena superan a varias líneas de base en el razonamiento y la precisión de la base. Por ejemplo, QWEN 2.5-VL entrenado con arena alcanzó el 72.9% de precisión de la respuesta en el razonamiento espacial visual, 47.8% en Tallyqa y 62.8% en conjuntos de datos GQA. También alcanzó una puntuación IOU de 0.325 en VSR y 0.447 en Tallyqa. Por el contrario, los modelos de referencia como la consulta directa o la cadena de pensamiento a menudo funcionaban significativamente más bajas, lo que muestra una capacidad limitada para unificar el razonamiento con la conexión a tierra visual. Los modelos de arena demostraron una fuerte correlación entre las regiones visuales y el razonamiento textual, produciendo salidas que reflejaron una conexión significativa entre la evidencia de la imagen y el pensamiento lógico. Grit también mostró mejoras en puntos de referencia fuera de dominio, aunque las ganancias fueron más pronunciadas en los datos del dominio, lo que destaca la importancia de la diversidad de datos de entrenamiento para una generalización más amplia.
En conclusión, la investigación abordó el problema del razonamiento desconectado y la conexión a tierra visual en MLLMS mediante la introducción de la arena. El método permite que los modelos razonen con imágenes a través de un enfoque simple y eficiente que requiere datos mínimos. Grit enseña con éxito a los MLLM a combinar evidencia visual con un razonamiento lógico en una salida unificada, logrando un fuerte rendimiento en múltiples puntos de referencia y demostrando un paso prometedor hacia sistemas de IA más interpretables.
Mira el Papel, Proyectoy Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.