Esta investigación de IA de China presenta ‘Woodpecker’: un marco innovador de inteligencia artificial diseñado para corregir alucinaciones en modelos multimodales de lenguaje grande (MLLM)

Investigadores de China han introducido un nuevo marco de IA correctivo llamado Woodpecker para abordar el problema de las alucinaciones en modelos multimodales de lenguaje grande (MLLM). Estos modelos, que combinan procesamiento de texto e imágenes, a menudo generan descripciones de texto que no reflejan con precisión el contenido de las imágenes proporcionadas. Estas imprecisiones se clasifican como alucinaciones a nivel de objeto (que involucran objetos inexistentes) y alucinaciones a nivel de atributo (descripciones inexactas de los atributos de un objeto).

Los enfoques actuales para mitigar las alucinaciones suelen implicar volver a capacitar a los MLLM con datos específicos. Estos métodos basados ​​en instrucciones pueden consumir muchos datos y ser exigentes desde el punto de vista computacional. Por el contrario, Woodpecker ofrece una alternativa sin capacitación que se puede aplicar a varios MLLM, mejorando la interpretabilidad a través de las diferentes etapas de su proceso de corrección.

Woodpecker consta de cinco etapas clave:

1. Extracción de conceptos clave: esta etapa identifica los principales objetos mencionados en el texto generado.

2. Formulación de preguntas: Se formulan preguntas en torno a los objetos extraídos para diagnosticar alucinaciones.

3. Validación del conocimiento visual: estas preguntas se responden utilizando modelos expertos, como la detección de objetos para consultas a nivel de objeto y modelos de respuesta visual a preguntas (VQA) para preguntas a nivel de atributo.

4. Generación de reclamos visuales: los pares de preguntas y respuestas se convierten en una base de conocimiento visual estructurada, que incluye reclamos tanto a nivel de objeto como a nivel de atributo.

5. Corrección de alucinaciones: utilizando la base de conocimiento visual, el sistema guía a un MLLM para modificar las alucinaciones en el texto generado, adjuntando cuadros delimitadores para garantizar claridad e interpretabilidad.

Este marco enfatiza la transparencia y la interpretabilidad, lo que lo convierte en una herramienta valiosa para comprender y corregir las alucinaciones en MLLM.

Los investigadores evaluaron Woodpecker en tres conjuntos de datos de referencia: POPE, MME y LLaVA-QA90. En el punto de referencia POPE, Woodpecker mejoró significativamente la precisión con respecto a los modelos básicos MiniGPT-4 y mPLUG-Owl, logrando una mejora de precisión del 30,66% y 24,33%, respectivamente. El marco demostró coherencia en diferentes entornos, incluidos escenarios aleatorios, populares y conflictivos.

En el punto de referencia MME, Woodpecker mostró mejoras notables, particularmente en consultas relacionadas con el conteo, donde superó a MiniGPT-4 por 101,66 puntos. Para consultas a nivel de atributos, Woodpecker mejoró el rendimiento de los modelos de referencia, abordando las alucinaciones a nivel de atributos de manera efectiva.

En el conjunto de datos LLaVA-QA90, Woodpecker mejoró constantemente las métricas de precisión y detalle, lo que indica su capacidad para corregir alucinaciones en respuestas generadas por MLLM y enriquecer el contenido de las descripciones.

En conclusión, el marco Woodpecker ofrece un enfoque correctivo prometedor para abordar las alucinaciones en modelos multimodales de lenguaje grande. Al centrarse en la interpretación y la corrección en lugar del reentrenamiento, proporciona una herramienta valiosa para mejorar la confiabilidad y precisión de las descripciones generadas por MLLM, ofreciendo beneficios potenciales para diversas aplicaciones que involucran procesamiento de texto e imágenes.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.