La Evaluación de la Calidad de la Imagen (IQA) es un método que estandariza los criterios de evaluación para analizar diferentes aspectos de las imágenes, incluida la información estructural, el contenido visual, etc. Para mejorar este método, varios estudios subjetivos han adoptado configuraciones comparativas. En estudios recientes, los investigadores han explorado grandes modelos multimodales (LMM) para ampliar el IQA de dar una puntuación escalar a escenarios abiertos que permitan que las evaluaciones respondan a preguntas de rango abierto y proporcionen un razonamiento detallado más allá de una puntuación general.
Los LMM pueden capturar una comprensión más completa y matizada de los datos de entrada, lo que resulta en un mejor rendimiento y predicciones precisas en diversas tareas. Agregar modalidades a los LLM crea LMM. Algunos ejemplos de LMM son ChatGPT y Gemini. Sin embargo, carece de ambigüedad en las valoraciones absolutas.
Investigadores de la Universidad Tecnológica de Nanyang, la Universidad de la Ciudad de Hong Kong, la Universidad Jiao Tong de Shanghai y SenseTime Research propusieron Co-Instruct. Q-Instruct-200K, Merge2Compare y Teach2Compare están integrados para construir Co-Instruct. Este es el primer conjunto de datos de ajuste de instrucciones diseñado para una comparación abierta de calidad de múltiples imágenes. Además, se eligen como modelos de referencia cinco LMM de código abierto que admiten entradas de múltiples imágenes. Estos modelos son LLaVA-v1.5-13B, InternLM-XComposer2, BakLLaVA, EMU2-Chat y mPLUG-Owl2. Existe una comparación con tres modelos de código cercano muy reconocidos: Qwen-VL-Max, Gemini-Pro y GPT-4V.
Los LMM de código abierto generalmente solo se ajustan con conjuntos de datos de ajuste de instrucciones de una sola imagen y se ha demostrado que carecen de capacidad suficiente incluso en configuraciones de comparación de dos imágenes. Si bien estas lagunas han indicado la necesidad de un conjunto de datos de ajuste de instrucciones específico para comparar la calidad visual, es demasiado costoso recopilar dicho conjunto de datos de humanos. Para resolver este problema, Co-instruct se ha construido con hasta un 86 % de mejoras con respecto a su línea base y un 61 % mejor que el LMM de código abierto. Aunque aprendió de GPT-4V junto con otras fuentes, el modelo supera al profesor de GPT-4V en numerosos puntos de referencia de preguntas de opción múltiple. Demuestra una competencia comparable a la de GPT-4V en tareas que exigen un razonamiento lingüístico detallado.
Co-Instruct logra una precisión un 30% mayor que los LMM de código abierto y supera a GPT-4V en los puntos de referencia relacionados existentes y en el MICBench propuesto. Dos supervisores no perfectos utilizados en Co-Instruct son Merge2Compare: se originaron a partir de descripciones de calidad humana de una sola imagen de 19.000 imágenes en Q-Pathway y se emparejaron aleatoriamente en grupos de 100.000. Luego, se solicita a un LLM unimodal que compare múltiples descripciones humanas en un grupo y las combine en una pseudocomparación de 100K, similar a la construcción de LLaVA-150K. Teach2Compare: Al observar que GPT-4V tiene una precisión especialmente alta en configuraciones por pares entre los LMM existentes, debemos aprovechar las respuestas de GPT-4V para ampliar aún más nuestro conjunto de datos. Para ello, se recopilan imágenes de 9K sin etiquetar y se combinan aleatoriamente en grupos de imágenes de 30K, y se obtienen respuestas GPT-4V tanto en comparaciones generales tipo subtítulos como en pares de preguntas y respuestas para comparaciones.
En conclusión, la investigación tuvo como objetivo desarrollar un modelo que proporcione respuestas y razonamientos detallados sobre preguntas de rango abierto que comparan la calidad entre múltiples imágenes. Co-Instruct ha logrado esto ajustando los LMM y superando a todos los LMM existentes en la comparación de calidad visual. Además, la construcción de MICBench ayuda a evaluar la comparación de la calidad de múltiples imágenes para LMM en tres y cuatro imágenes.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
También te puede gustar nuestro Cursos GRATUITOS de IA….
Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.