En el mundo de hoy, Modelos de lenguajes grandes multimodales (MLLM) son sistemas avanzados que procesan y comprenden múltiples formas de entrada, como texto e imágenes. Al interpretar estas diversas entradas, su objetivo es razonar a través de las tareas y generar resultados precisos. Sin embargo, MLLM A menudo fracasan en tareas complejas porque carecen de procesos estructurados para dividir los problemas en pasos más pequeños y, en cambio, proporcionan respuestas directas sin un razonamiento intermedio claro. Estas limitaciones reducen el éxito y la eficiencia de los MLLM a la hora de resolver problemas complejos.
Los métodos tradicionales de razonamiento en modelos de lenguajes grandes multimodales (MLLM) tienen muchos problemas. Métodos basados en indicaciones, como cadena de pensamiento, Utiliza pasos establecidos para copiar el razonamiento humano, pero tiene dificultades con tareas difíciles. Métodos basados en plantas, como Árbol o Gráfico de pensamientointentan encontrar caminos de razonamiento pero no son flexibles ni confiables. Métodos basados en el aprendizaje, como Búsqueda de árboles de Montecarlo (MCTS), son lentos y no ayudan con el pensamiento profundo. Mayoría MLLM Confíe en la “predicción directa”, dando respuestas breves sin pasos claros. Aunque MCTS funciona bien en juegos y robótica, no es adecuado para MLLM y el aprendizaje colectivo no genera un razonamiento sólido paso a paso. Estos problemas dificultan que los MLLM resuelvan problemas complejos.
Para mitigar estos problemas, un equipo de investigadores de la Universidad Tecnológica de Nanyang, la Universidad de Tsinghua, Baidu y la Universidad Sun Yat-sen propusieron Comitésun marco para mejorar la búsqueda de rutas de razonamiento en tareas de búsqueda de árboles. En lugar de depender de un modelo, combina varios modelos previamente entrenados para ampliar y evaluar las rutas candidatas. Este enfoque se diferencia de los métodos tradicionales porque utiliza una estrategia más eficiente: varios modelos trabajan juntos, lo que permite un mejor rendimiento y reduce los errores durante el proceso de razonamiento.
Constaba de cuatro pasos clave: Expansión, simulación, retropropagación, y Selección. En la etapa de Expansión, varios modelos buscaron diferentes soluciones simultáneamente, aumentando la variedad de respuestas posibles. En el paso de Simulación se eliminaron las rutas incorrectas o menos efectivas, facilitando la búsqueda. Durante el paso de retropropagación, los modelos mejoraron aprendiendo de sus errores pasados y utilizando ese conocimiento para hacer mejores predicciones. El último paso utilizó un método estadístico para elegir la mejor acción a tomar por el modelo. El razonamiento reflexivo en este proceso ayudó al modelo a aprender de errores anteriores para tomar mejores decisiones en tareas similares.
Los investigadores crearon el Morera-260K conjunto de datos, que comprendía 260.000 preguntas de entrada multimodal, combinando instrucciones de texto y imágenes de diversos dominios, incluida la comprensión multimodal general, las matemáticas, la ciencia y la comprensión de imágenes médicas. El conjunto de datos se construyó utilizando Comités con entrenamiento limitado a 15K muestras para evitar la sobreabundancia. Las tareas de razonamiento requirieron un promedio de 7.5 pasos, y la mayoría de las tareas caen dentro del 6 a 8 pasos rango. CoMCTS se implementó utilizando cuatro modelos: GPT4o, Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct, y Qwen2-VL-72B. El proceso de capacitación involucró un tamaño de lote de 128 y una tasa de aprendizaje 1e-5 durante dos épocas.
Los resultados demostraron mejoras significativas en el rendimiento con respecto a los modelos de referencia, con ganancias de +4,2% y +7,5% para Qwen2-VL-7B y LLaMA-3.2-11B-Visión-Instruir, respectivamente. Además, el conjunto de datos de Mulberry superó a los modelos de razonamiento como LLaVA-Razón-8B y Insight-V-8Bmostrando un rendimiento superior en varios puntos de referencia. Tras la evaluación, Comités mejoró su rendimiento mediante 63,8%. La participación de datos de razonamiento reflexivo condujo a ligeras mejoras en el rendimiento del modelo. Esto revela los efectos de Mulberry-260K y CoMCTS para mejorar la precisión y flexibilidad del razonamiento.
En conclusión, la propuesta Comités demuestra ser un enfoque que mejora el razonamiento en modelos de lenguajes grandes multimodales (MLLM) al incorporar el aprendizaje colectivo en los métodos de búsqueda de árboles. Este marco mejoró la eficiencia de la búsqueda de una ruta de razonamiento, como lo demuestra el Morera-260K conjunto de datos y el modelo Mulberry, que supera a los modelos tradicionales en tareas de razonamiento complejas. Los métodos propuestos proporcionan información valiosa para futuras investigaciones, pueden servir como base para el avance de los MLLM y pueden actuar como base para desarrollar modelos más eficientes capaces de manejar tareas cada vez más complejas.
Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Divyesh es pasante de consultoría en Marktechpost. Está cursando un BTech en Ingeniería Agrícola y Alimentaria en el Instituto Indio de Tecnología de Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el ámbito agrícola y resolver desafíos.