Modelos de lenguaje grandes (LLM) han revolucionado la IA generativa, mostrando capacidades notables para producir respuestas similares a las humanas. Sin embargo, estos modelos enfrentan un desafío crítico conocido como alucinación, la tendencia a generar información incorrecta o irrelevante. Este problema plantea riesgos importantes en aplicaciones de alto riesgo, como evaluaciones médicas, procesamiento de reclamaciones de seguros y sistemas autónomos de toma de decisiones, donde la precisión es más importante. El problema de las alucinaciones se extiende más allá de los modelos basados ​​en texto, hasta los modelos de visión y lenguaje (VLM) que procesan imágenes y consultas de texto. A pesar de desarrollar VLM robustos como LLaVA, InstructBLIP y VILA, estos sistemas tienen dificultades para generar respuestas precisas basadas en entradas de imágenes y consultas de los usuarios.

Las investigaciones existentes han introducido varios métodos para abordar las alucinaciones en modelos de lenguaje. Para los sistemas basados ​​en texto, FactScore mejoró la precisión al dividir declaraciones largas en unidades atómicas para una mejor verificación. Lookback Lens desarrolló un enfoque de análisis de puntuación de atención para detectar alucinaciones contextuales, mientras que MARS implementó un sistema ponderado que se centra en componentes cruciales de las declaraciones. Para TRAPO específicamente, RAGAS y LlamaIndex surgieron como herramientas de evaluación, con RAGAS enfocándose en la precisión y relevancia de la respuesta utilizando evaluadores humanos, mientras que LlamaIndex emplea GPT-4 para la evaluación de la fidelidad. Sin embargo, ningún trabajo existente proporciona puntuaciones de alucinaciones específicamente para sistemas RAG multimodales, donde los contextos incluyen múltiples piezas de datos multimodales.

Investigadores de la Universidad de Maryland, College Park, MD, y NEC Laboratories America, Princeton, Nueva Jersey, han propuesto RAG-check, un método integral para evaluar sistemas RAG multimodales. Consta de tres componentes clave diseñados para evaluar tanto la relevancia como la precisión. El primer componente implica una red neuronal que evalúa la relevancia de cada dato recuperado para la consulta del usuario. El segundo componente implementa un algoritmo que segmenta y clasifica la salida de RAG en tramos puntuables (objetivos) y no puntuables (subjetivos). El tercer componente utiliza otra red neuronal para evaluar la exactitud de los intervalos objetivos frente al contexto sin procesar, que puede incluir tanto texto como imágenes convertidas a formato basado en texto a través de VLM.

La arquitectura RAG-check utiliza dos métricas de evaluación principales: la puntuación de relevancia (RS) y la puntuación de corrección (CS) para evaluar diferentes aspectos del rendimiento del sistema RAG. Para evaluar los mecanismos de selección, el sistema analiza las puntuaciones de relevancia de las cinco imágenes recuperadas principales en un conjunto de pruebas de 1000 preguntas, lo que proporciona información sobre la eficacia de los diferentes métodos de recuperación. En términos de generación de contexto, la arquitectura permite la integración flexible de varias combinaciones de modelos, ya sea VLM separados (como LLaVA o GPT4) y LLM (como LLAMA o GPT-3.5), o MLLM unificados como GPT-4. Esta flexibilidad permite una evaluación integral de diferentes arquitecturas de modelos y su impacto en la calidad de generación de respuesta.

Los resultados de la evaluación demuestran variaciones significativas de rendimiento entre diferentes configuraciones del sistema RAG. Cuando se utilizan modelos CLIP como codificadores de visión con similitud de coseno para la selección de imágenes, las puntuaciones de relevancia promedio oscilaron entre el 30% y el 41%. Sin embargo, la implementación del modelo RS para la evaluación del par consulta-imagen mejora drásticamente las puntuaciones de relevancia entre 71% y 89,5%, aunque a costa de un aumento de 35 veces en los requisitos computacionales cuando se utiliza una GPU A100. GPT-4o emerge como la configuración superior para la generación de contexto y tasas de error, superando a otras configuraciones en un 20%. Las configuraciones restantes de RAG muestran un rendimiento comparable, con una tasa de precisión de entre el 60% y el 68%.

En conclusión, los investigadores desarrollaron RAG-check, un novedoso marco de evaluación para sistemas RAG multimodales para abordar el desafío crítico de la detección de alucinaciones a través de múltiples imágenes y entradas de texto. La arquitectura de tres componentes del marco, que comprende puntuación de relevancia, categorización de amplitud y evaluación de corrección, muestra mejoras significativas en la evaluación del desempeño. Los resultados revelan que, si bien el modelo RS mejora sustancialmente las puntuaciones de relevancia del 41% al 89,5%, conlleva mayores costos computacionales. Entre varias configuraciones probadas, GPT-4o surgió como el modelo más eficaz para la generación de contexto, destacando el potencial de los modelos de lenguaje multimodal unificado para mejorar la precisión y confiabilidad del sistema RAG.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluaciónÚnase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

Por automata