Los VLM modernos luchan con tareas que requieren un razonamiento visual complejo, donde comprender una imagen solo es insuficiente, y se necesita una interpretación más profunda. Si bien los avances recientes en LLM han mejorado significativamente el razonamiento basado en texto, un progreso similar en el dominio visual sigue siendo limitado. Los VLM existentes a menudo fallan cuando se requiere para combinar señales visuales y textuales para deducciones lógicas, destacando una brecha crítica en sus capacidades. Esta limitación es particularmente evidente en las tareas que exigen un razonamiento gradual, donde simplemente reconocer los objetos en una imagen es inadecuado sin una comprensión subyacente de las relaciones y la información contextual.
La investigación previa sobre IA multimodal se ha centrado principalmente en la detección de objetos, el subtítulo y la respuesta de las preguntas, con una exploración limitada del razonamiento de orden superior. Algunos estudios han intentado mejorar las VLM con la provisión de la cadena de pensamiento o las estructuras de razonamiento explícitas. Aún así, estos enfoques están restringidos a datos textuales o no pueden generalizarse en diversas tareas visuales. Además, la mayoría de los esfuerzos de código abierto en esta área permanecen subdesarrollados, lo que dificulta avanzar en el razonamiento visual más allá de las simples tareas de reconocimiento. Abordar estas brechas es crucial para desarrollar VLM para realizar un razonamiento sofisticado en imágenes del mundo real.
Los investigadores de la pendiente exploraron VLM de capacitación para el razonamiento visual utilizando el aprendizaje de refuerzo, aprovechando el GRPO para mejorar la eficiencia. Si bien el trabajo previo, como la investigación de Deepseek y el razonamiento avanzado en los modelos de lenguaje, se había hecho poco para extender estas técnicas a VLMS, diseñaron una tarea de resolución de criptogramas que requiere un procesamiento tanto visual como textual para demostrar su enfoque. El modelo deciftores codificó mensajes utilizando una imagen de decodificador generada al azar, logrando una precisión del 96% con un modelo de parámetros 3B. El análisis de atención confirma que el modelo se involucra activamente con la entrada visual, destacando su capacidad para centrarse en las regiones decodificadoras relevantes mientras resuelve la tarea.
La capacitación de VLM con GRPO presenta múltiples desafíos, particularmente en el diseño de tokenización y recompensa. Dado que los modelos procesan el texto como tokens en lugar de caracteres individuales, las tareas que requieren un razonamiento preciso a nivel de caracteres pueden ser problemáticos. Para mitigar esto, los investigadores formatearon mensajes con espacios entre letras para simplificar la decodificación. El diseño de recompensas fue otro aspecto crucial, ya que los modelos de aprendizaje de refuerzo requieren comentarios bien estructurados para aprender de manera efectiva. Se utilizaron tres tipos de recompensas: una recompensa de formato que garantiza la consistencia en la producción, una recompensa de decodificación que fomenta las transformaciones significativas de texto revuelto y una precisión de refinación de recompensa de corrección. Al equilibrar cuidadosamente estas recompensas, los investigadores evitaron atajos de aprendizaje involuntarios, asegurando que el modelo mejorara realmente en la resolución de criptogramas.
GRPO, que optimiza el aprendizaje al comparar múltiples salidas en lugar de depender del cálculo de gradiente directo, proporcionó ventajas en la estabilización de la capacitación. Al generar varias respuestas por consulta y evaluarlas entre sí, el enfoque permitió curvas de aprendizaje más suaves. La investigación también destacó el potencial de los VLM en las tareas basadas en el razonamiento, pero reconoció los altos costos computacionales asociados con modelos de visión complejos. Se propusieron técnicas como la escalada del modelo selectivo para abordar las preocupaciones de eficiencia, donde los modelos caros se usan solo para casos ambiguos. Además, se sugirió que la integración de modelos previamente capacitados para la detección de objetos, la segmentación y la estimación de profundidad mejoró el razonamiento sin aumentar significativamente la sobrecarga computacional. Este enfoque basado en herramientas ofrece una alternativa escalable para entrenar modelos masivos de extremo a extremo, enfatizando la eficiencia sin comprometer la precisión.
En conclusión, el equipo de la luz de la luz ha logrado avances significativos para mejorar las VLM al integrar las técnicas de aprendizaje de refuerzo, específicamente GRPO. Su enfoque se probó en una tarea de resolución de criptogramas, donde el modelo demostró una precisión impresionante. Este avance subraya el potencial de combinar datos visuales y textuales para mejorar el rendimiento de VLM. Al emitir abierta su metodología y herramientas, la conexión a tierra tiene como objetivo empoderar a la comunidad más amplia para desarrollar aún más las capacidades de razonamiento visual en los sistemas de IA.
Verificar el Detalle técnico, Página de Github y Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.