Avance de la alineación de MLLM a través de MM-RLHF: un conjunto de datos de preferencia humana a gran escala para tareas multimodales

Los modelos multimodales de lenguaje grande (MLLM) han ganado una atención significativa por su capacidad para manejar tareas complejas que involucran visión, lenguaje e integración de audio. Sin embargo, carecen de la alineación integral más allá del ajuste básico (SFT) supervisado. Los modelos actuales de vanguardia a menudo omiten las rigurosas etapas de alineación, dejando de manera inadecuada aspectos cruciales como la veracidad, la seguridad y la alineación de preferencias humanas. Los enfoques existentes se dirigen solo a dominios específicos, como la reducción de la alucinación o las mejoras conversacionales, no pueden mejorar el rendimiento y la confiabilidad generales del modelo. Este enfoque limitado plantea preguntas sobre si la alineación de preferencias humanas puede mejorar los MLLM en un espectro más amplio de tareas.

Los últimos años han sido testigos de un progreso sustancial en MLLM, construido sobre arquitecturas LLM avanzadas como GPTS, Llama, Alpaca, Vicuna y Mistral. Estos modelos han evolucionado a través de enfoques de entrenamiento de extremo a extremo, abordando tareas multimodales complejas que involucran alineación de texto de imagen, razonamiento e instrucción seguida. Han surgido varios MLLM de código abierto, incluidos Otter, Mplug-Bowl, Llava, Qwen-VL y Vita, para abordar los desafíos multimodales fundamentales. Sin embargo, los esfuerzos de alineación han permanecido limitados. Mientras que algoritmos como FACK-RLHF y Llavacritic han demostrado ser prometedores para reducir las alucinaciones y mejorar las habilidades de conversación, no han mejorado las capacidades generales. Se han desarrollado marcos de evaluación como MME, Mmbench y semillas Bench para evaluar estos modelos.

Investigadores de Kuaishou, Casia, NJU, USTC, PKU, Alibaba y Meta AI han propuesto MM-RLHF, un enfoque innovador que presenta un conjunto de datos completo de 120k pares de comparación de preferencias con anotado humano. Este conjunto de datos representa un avance significativo en términos de tamaño, diversidad y calidad de anotación en comparación con los recursos existentes. El método presenta dos innovaciones clave: un modelo de recompensa basado en críticas que genera críticas detalladas antes de calificar los resultados y la escala de recompensas dinámicas que optimiza los pesos de muestra basados ​​en señales de recompensa. Mejora tanto la interpretabilidad de las decisiones del modelo como la eficiencia del proceso de alineación, abordando las limitaciones de los mecanismos de recompensa escalar tradicionales en contextos multimodales.

La implementación de MM-RLHF implica un complejo proceso de preparación de datos y filtrado en tres dominios principales: comprensión de imágenes, comprensión de video y seguridad multimodal. El componente de comprensión de la imagen integra datos de múltiples fuentes, incluidos Llava-OV, VLFeedback y Llava-RLHF, con diálogos múltiples convertidos en formato de vuelta única. Esta compilación da como resultado más de 10 millones de muestras de diálogo que cubren diversas tareas, desde una conversación básica hasta un razonamiento complejo. El proceso de filtrado de datos utiliza pesos de muestreo predefinidos categorizados en tres tipos: preguntas de opción múltiple para probar el razonamiento y la percepción, las preguntas de texto largo para evaluar las habilidades de conversación y las preguntas de texto corto para el análisis básico de imágenes.

La evaluación de MM-RLHF y MM-DPO muestra mejoras significativas en múltiples dimensiones cuando se aplican a modelos como Llava-OV-7B, Llava-OV-0.5B e InternvL-1B. Las habilidades de conversación mejoraron en más del 10%, mientras que los comportamientos inseguros disminuyeron en al menos un 50%. Los modelos alineados muestran mejores resultados en la reducción de la alucinación, el razonamiento matemático y la comprensión de múltiples imágenes, incluso sin datos de capacitación específicos para algunas tareas. Sin embargo, se observan variaciones específicas del modelo, con diferentes modelos que requieren configuraciones distintas de hiperparameter para un rendimiento óptimo. Además, las tareas de alta resolución muestran ganancias limitadas debido a restricciones de conjunto de datos y estrategias de filtrado que no se dirigen a la optimización de la resolución.

En este documento, los investigadores introdujeron MM-RLHF, un enfoque de conjunto de datos y alineación que muestra un avance significativo en el desarrollo de MLLM. A diferencia de los enfoques específicos de tareas anteriores, este método adopta un enfoque holístico para mejorar el rendimiento del modelo en múltiples dimensiones. La rica granularidad de la anotación del conjunto de datos, incluidas las puntuaciones de la dimensión y los fundamentos de clasificación, ofrece un potencial sin explotar para el desarrollo futuro. Las direcciones de investigación futuras se centrarán en utilizar esta granularidad a través de técnicas de optimización avanzada, abordar las limitaciones de datos de alta resolución y ampliar el conjunto de datos a través de métodos semiautomicados, estableciendo potencialmente una base para marcos de aprendizaje multimodal más robustos.


Verificar el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.