TRAPO ha demostrado ser efectivo para mejorar la precisión fáctica de LLM al fundamentar sus resultados en información externa y relevante. Sin embargo, la mayoría de las implementaciones de RAG existentes se limitan a los corpus basados en texto, lo que restringe su aplicabilidad a los escenarios del mundo real donde las consultas pueden requerir diversos tipos de información, desde definiciones textuales hasta comprensión espacial de imágenes o razonamiento temporal de videos. Si bien algunos enfoques recientes tienen RAG extendido para manejar diferentes modalidades como imágenes y videos, estos sistemas a menudo están obligados a operar dentro de un único corpus específico de modalidad. Esto limita su capacidad de responder efectivamente a un amplio espectro de consultas de usuarios que exigen razonamiento multimodal. Además, los métodos actuales de RAG generalmente recuperan de todas las modalidades sin discernir, lo que es más relevante para una consulta dada, lo que hace que el proceso sea ineficiente y menos adaptable a las necesidades de información específicas.
Para abordar esto, la investigación reciente enfatiza la necesidad de sistemas de trapo adaptativos para determinar la modalidad apropiada y la granularidad de la recuperación basada en el contexto de la consulta. Las estrategias incluyen consultas de enrutamiento basadas en la complejidad, como decidir entre no recuperación, recuperación de un solo paso o múltiples pasos, y usar confianza del modelo para desencadenar la recuperación solo cuando sea necesario. Además, la granularidad de la recuperación juega un papel crucial, ya que los estudios han demostrado que indexar a los corpus en niveles más finos, como proposiciones o videoclips específicos, puede mejorar significativamente la relevancia de la recuperación y el rendimiento del sistema. Por lo tanto, para que Rag realmente apoye las necesidades de información complejas y del mundo real, debe manejar múltiples modalidades y adaptar su profundidad y alcance de recuperación a las demandas específicas de cada consulta.
Los investigadores de Kaist y Deepauto.ai presentan Universalrag, un marco de trapo que recupera e integra el conocimiento de varias fuentes específicas de modalidad (texto, imagen, video) y niveles de granularidad múltiples. A diferencia de los enfoques tradicionales que incorporan todas las modalidades en un espacio compartido, lo que lleva al sesgo de modalidad, Universalrag utiliza un mecanismo de enrutamiento consciente de la modalidad para seleccionar el corpus más relevante dinámicamente en función de la consulta. Mejora aún más la precisión de la recuperación organizando cada modalidad en corpus específicos de granularidad, como párrafos o videoclips. Válido en ocho puntos de referencia multimodales, Universalrag supera constantemente las líneas de base unificadas y específicas de la modalidad, lo que demuestra su adaptabilidad a diversas necesidades de consultas.
Universalrag es un marco de generación de recuperación acuático que maneja consultas en diversas modalidades y granularidades de datos. A diferencia de los modelos RAG estándar limitados a un solo corpus, Universalrag separa el conocimiento en los corpuses de texto, imagen y video, cada uno con niveles de grano fino y grueso. Un módulo de enrutamiento primero determina la modalidad óptima y la granularidad para una consulta dada, eligiendo entre opciones como párrafos, documentos completos, videoclips o video completo, y recupera información relevante en consecuencia. Este enrutador puede ser un clasificador basado en LLM sin capacitación o un modelo capacitado que utiliza etiquetas heurísticas de conjuntos de datos de referencia. Un LVLM luego usa el contenido seleccionado para generar la respuesta final.
La configuración experimental evalúa Universalrag en seis escenarios de recuperación: sin recuperación, párrafo, documento, imagen, clip y video. Sin retrieval, MMLU prueba el conocimiento general. Las tareas a nivel de párrafo usan preguntas de escuadrón y naturales, mientras que Hotpotqa maneja la recuperación de documentos de múltiples saltos. Las consultas basadas en imágenes provienen de WebQA, y las relacionadas con el video se obtienen de los conjuntos de datos LVBench y VideoRag, divididos en niveles de clip y videos completos. Los corpus de recuperación correspondientes están seleccionados para cada modalidad: Wikipedia para texto, WEBQA para imágenes y videos de YouTube para tareas de video. Este punto de referencia integral garantiza una evaluación robusta a través de variadas modalidades y granularidades de recuperación.
En conclusión, Universalrag es un marco de generación de recuperación que puede recuperar el conocimiento de múltiples modalidades y niveles de granularidad. A diferencia de los métodos de RAG existentes que se basan en una sola fuente de texto, solo de texto o una fuente de modalidad única, Universalrag rutiza dinámicamente consultas al corpus de modalidad y granularidad más apropiado. Este enfoque aborda problemas como lagunas de modalidad y estructuras de recuperación rígidas. Evaluado en ocho puntos de referencia multimodales, Universalrag supera a las líneas de base unificadas y específicas de modalidad. El estudio también enfatiza los beneficios de la recuperación de grano fino y destaca cómo los mecanismos de enrutamiento entrenados y sin tren contribuyen al razonamiento multimodal sólido y flexible.
Mira el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit. Para promoción y asociaciones, Por favor, hable.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.