RAG-Check: un nuevo marco de IA para la detección de alucinaciones en sistemas de generación aumentada de recuperación multimodal

Modelos de lenguaje grandes (LLM) han revolucionado la IA generativa, mostrando capacidades notables para producir respuestas similares a las humanas. Sin embargo, estos modelos enfrentan un desafío crítico conocido como alucinación, la tendencia a generar información incorrecta o irrelevante. Este problema plantea riesgos importantes en aplicaciones de alto riesgo, como evaluaciones médicas, procesamiento de reclamaciones de seguros y sistemas autónomos de toma de decisiones, donde la precisión es más importante. El problema de las alucinaciones se extiende más allá de los modelos basados en texto, hasta los modelos de visión y lenguaje (VLM) que procesan imágenes y consultas de texto. A pesar de desarrollar VLM robustos como LLaVA, InstructBLIP y VILA, estos sistemas tienen dificultades para generar respuestas precisas basadas en entradas de imágenes y consultas de los usuarios.

Las investigaciones existentes han introducido varios métodos para abordar las alucinaciones en modelos de lenguaje. Para los sistemas basados en texto, FactScore mejoró la precisión al dividir declaraciones largas en unidades atómicas para una mejor verificación. Lookback Lens desarrolló un enfoque de análisis de puntuación de atención para detectar alucinaciones contextuales, mientras que MARS implementó un sistema ponderado que se centra en componentes cruciales de las declaraciones. Para TRAPO específicamente, RAGAS y LlamaIndex surgieron como herramientas de evaluación, con RAGAS enfocándose en la precisión y relevancia de la respuesta utilizando evaluadores humanos, mientras que LlamaIndex emplea GPT-4 para la evaluación de la fidelidad. Sin embargo, ningún trabajo existente proporciona puntuaciones de alucinaciones específicamente para sistemas RAG multimodales, donde los contextos incluyen múltiples piezas de datos multimodales.

Investigadores de la Universidad de Maryland, College Park, MD, y NEC Laboratories America, Princeton, Nueva Jersey, han propuesto RAG-check, un método integral para evaluar sistemas RAG multimodales. Consta de tres componentes clave diseñados para evaluar tanto la relevancia como la precisión. El primer componente implica una red neuronal que evalúa la relevancia de cada dato recuperado para la consulta del usuario. El segundo componente implementa un algoritmo que segmenta y clasifica la salida de RAG en tramos puntuables (objetivos) y no puntuables (subjetivos). El tercer componente utiliza otra red neuronal para evaluar la exactitud de los intervalos objetivos frente al contexto sin procesar, que puede incluir tanto texto como imágenes convertidas a formato basado en texto a través de VLM.

La arquitectura RAG-check utiliza dos métricas de evaluación principales: la puntuación de relevancia (RS) y la puntuación de corrección (CS) para evaluar diferentes aspectos del rendimiento del sistema RAG. Para evaluar los mecanismos de selección, el sistema analiza las puntuaciones de relevancia de las cinco imágenes recuperadas principales en un conjunto de pruebas de 1000 preguntas, lo que proporciona información sobre la eficacia de los diferentes métodos de recuperación. En términos de generación de contexto, la arquitectura permite la integración flexible de varias combinaciones de modelos, ya sea VLM separados (como LLaVA o GPT4) y LLM (como LLAMA o GPT-3.5), o MLLM unificados como GPT-4. Esta flexibilidad permite una evaluación integral de diferentes arquitecturas de modelos y su impacto en la calidad de generación de respuesta.

Los resultados de la evaluación demuestran variaciones significativas de rendimiento entre diferentes configuraciones del sistema RAG. Cuando se utilizan modelos CLIP como codificadores de visión con similitud de coseno para la selección de imágenes, las puntuaciones de relevancia promedio oscilaron entre el 30% y el 41%. Sin embargo, la implementación del modelo RS para la evaluación del par consulta-imagen mejora drásticamente las puntuaciones de relevancia entre 71% y 89,5%, aunque a costa de un aumento de 35 veces en los requisitos computacionales cuando se utiliza una GPU A100. GPT-4o emerge como la configuración superior para la generación de contexto y tasas de error, superando a otras configuraciones en un 20%. Las configuraciones restantes de RAG muestran un rendimiento comparable, con una tasa de precisión de entre el 60% y el 68%.

En conclusión, los investigadores desarrollaron RAG-check, un novedoso marco de evaluación para sistemas RAG multimodales para abordar el desafío crítico de la detección de alucinaciones a través de múltiples imágenes y entradas de texto. La arquitectura de tres componentes del marco, que comprende puntuación de relevancia, categorización de amplitud y evaluación de corrección, muestra mejoras significativas en la evaluación del desempeño. Los resultados revelan que, si bien el modelo RS mejora sustancialmente las puntuaciones de relevancia del 41% al 89,5%, conlleva mayores costos computacionales. Entre varias configuraciones probadas, GPT-4o surgió como el modelo más eficaz para la generación de contexto, destacando el potencial de los modelos de lenguaje multimodal unificado para mejorar la precisión y confiabilidad del sistema RAG.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluación–Únase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..

Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

RAG-Check: un nuevo marco de IA para la detección de alucinaciones en sistemas de generación aumentada de recuperación multimodal

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Conozca GitNexus: un motor de gráficos de conocimiento nativo de MCP de código abierto que brinda al código Claude y al cursor un conocimiento estructural completo de la base de código

Google DeepMind presenta Vision Banana: un generador de imágenes ajustado por instrucciones que supera a SAM 3 en segmentación y profundidad Anything V3 en estimación de profundidad métrica

Cómo seleccionar variables de forma sólida en un modelo de puntuación

You missed

Se revelan las tarifas de estacionamiento en aeropuertos más caras de Europa « Euro Weekly News

Demi Lovato y Jutes interpretan la canción de Goo Goo Dolls, primera pista de baile

La preeclampsia existe desde hace aproximadamente 5.000 años, pero aún no existe cura: ¿por qué se la llama la “enfermedad de las teorías”?

No hay nada divertido en el espectáculo de payasos de Trump