Este artículo de IA presenta a Virgo: un modelo de lenguaje grande multimodal para mejorar el razonamiento de pensamiento lento

La investigación en inteligencia artificial ha avanzado constantemente hacia la creación de sistemas capaces de realizar razonamientos complejos. Los modelos multimodales de lenguaje grande (MLLM) representan un avance significativo en este viaje, combinando la capacidad de procesar texto y datos visuales. Estos sistemas pueden abordar desafíos complejos como problemas matemáticos o razonamiento a través de diagramas. Al permitir que la IA cierre la brecha entre modalidades, los MLLM amplían su alcance de aplicación y ofrecen nuevas posibilidades en educación, ciencia y análisis de datos.

Uno de los principales desafíos en el desarrollo de estos sistemas es integrar perfectamente el razonamiento visual y textual. Los modelos tradicionales de lenguaje grande sobresalen en el procesamiento de texto o imágenes, pero se quedan cortos cuando se les asigna la tarea de combinar estas modalidades para el razonamiento. Esta limitación dificulta su desempeño en tareas multimodales, particularmente en escenarios que requieren procesos de pensamiento prolongados y deliberados, a menudo denominados “pensamiento lento”. Abordar esta cuestión es crucial para hacer avanzar los MLLM hacia aplicaciones prácticas donde el razonamiento multimodal es esencial.

Los enfoques actuales para mejorar las capacidades de razonamiento en MLLM se basan en dos estrategias amplias. El primero implica el uso de métodos de búsqueda estructurados, como la búsqueda de árbol de Monte Carlo, guiados por modelos de recompensa para refinar el camino del razonamiento. El segundo se centra en capacitar a los LLM con instrucciones de razonamiento de formato largo, a menudo estructuradas como cadenas de pensamiento (CoT). Sin embargo, estos métodos se han concentrado principalmente en tareas basadas en texto, dejando los escenarios multimodales relativamente poco explorados. Aunque algunos sistemas comerciales como el modelo o1 de OpenAI han demostrado ser prometedores, su naturaleza patentada limita el acceso a las metodologías, creando una brecha para la investigación pública.

Investigadores de la Universidad Renmin de China, Baichuan AI y BAAI han presentado Virgo, un modelo diseñado para mejorar el razonamiento de pensamiento lento en contextos multimodales. Virgo se desarrolló perfeccionando el modelo Qwen2-VL-72B-Instruct, aprovechando un enfoque sencillo pero innovador. Esto implicó entrenar el MLLM utilizando datos textuales de pensamiento largo, una opción poco convencional para transferir capacidades de razonamiento entre modalidades. Este método distingue a Virgo de esfuerzos anteriores, ya que se centra en las fortalezas de razonamiento inherentes de la columna vertebral de LLM dentro de MLLM.

La metodología detrás del desarrollo de Virgo es detallada y deliberada. Los investigadores seleccionaron un conjunto de datos que comprende 5.000 ejemplos de instrucción pensados ​​desde hace mucho tiempo, principalmente de matemáticas, ciencias y codificación. Estas instrucciones fueron formateadas para incluir procesos de razonamiento estructurados y soluciones finales, asegurando claridad y reproducibilidad durante la capacitación. Para optimizar las capacidades de Virgo, los investigadores ajustaron selectivamente los parámetros en el LLM y en los conectores intermodales, dejando intacto el codificador visual. Este enfoque conservó las capacidades de procesamiento visual del modelo base al tiempo que mejoró su rendimiento de razonamiento. Además, exploraron la autodestilación, utilizando el modelo ajustado para generar datos visuales de pensamiento prolongado, refinando aún más las capacidades de razonamiento multimodal de Virgo.

El desempeño de Virgo se evaluó a través de cuatro desafiantes puntos de referencia: MathVerse, MathVision, OlympiadBench y MMMU. Estos puntos de referencia incluyeron miles de problemas multimodales, probando la capacidad de razonamiento del modelo a través de texto y entradas visuales. Virgo logró resultados notables, superando a varios modelos avanzados y rivalizando con sistemas comerciales. Por ejemplo, en MathVision, Virgo registró una precisión del 38,8%, superando muchas soluciones existentes. En OlympiadBench, uno de los benchmarks más exigentes, logró una mejora del 12,4% respecto a su modelo base, destacando su capacidad de razonamiento complejo. Además, el ajuste fino basado en texto de Virgo demostró un rendimiento superior en la extracción de capacidades de razonamiento de pensamiento lento en comparación con los datos de entrenamiento multimodal. Este hallazgo enfatiza el potencial de aprovechar las instrucciones textuales para mejorar los sistemas multimodales.

Los investigadores analizaron más a fondo el desempeño de Virgo desglosando los resultados según los niveles de dificultad dentro de los puntos de referencia. Si bien Virgo mostró mejoras constantes en tareas desafiantes que requerían un razonamiento más extenso, experimentó ganancias limitadas en tareas más simples, como las del punto de referencia MMMU. Esta idea subraya la importancia de adaptar los sistemas de razonamiento a la complejidad de los problemas para los que están diseñados. Los resultados de Virgo también revelaron que los datos de razonamiento textual a menudo superaban a las instrucciones de razonamiento visual, lo que sugiere que el entrenamiento textual puede transferir eficazmente capacidades de razonamiento a dominios multimodales.

Al demostrar un enfoque práctico y eficiente para mejorar los MLLM, los investigadores contribuyeron significativamente al campo de la IA. Su trabajo cierra la brecha en el razonamiento multimodal y abre vías para futuras investigaciones para perfeccionar estos sistemas. El éxito de Virgo ilustra el potencial transformador de aprovechar datos textuales pensados ​​desde hace mucho tiempo para la capacitación, ofreciendo una solución escalable para desarrollar modelos de razonamiento avanzados. Con un mayor perfeccionamiento y exploración, esta metodología podría impulsar un progreso significativo en la investigación de la IA multimodal.


Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluaciónÚnase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.