Mejorar los modelos lingüísticos con RAG: prácticas recomendadas y puntos de referencia

Las técnicas de recuperación aumentada por generación (RAG) enfrentan desafíos significativos a la hora de integrar información actualizada, reducir las alucinaciones y mejorar la calidad de la respuesta en modelos lingüísticos extensos (LLM). A pesar de su eficacia, los enfoques RAG se ven obstaculizados por implementaciones complejas y tiempos de respuesta prolongados. Optimizar la RAG es crucial para mejorar el rendimiento de los LLM, lo que permite aplicaciones en tiempo real en dominios especializados como el diagnóstico médico, donde la precisión y la puntualidad son esenciales.

Los métodos actuales que abordan estos desafíos incluyen flujos de trabajo que involucran clasificación de consultas, recuperación, reclasificación, reempaquetado y resumen. La clasificación de consultas determina la necesidad de recuperación, mientras que los métodos de recuperación como BM25, Contriever y LLM-Embedder obtienen documentos relevantes. La reclasificación refina el orden de los documentos recuperados y el reempaquetado los organiza para una mejor generación. El resumen extrae información clave para la generación de respuestas. Sin embargo, estos métodos tienen limitaciones específicas. Por ejemplo, la reescritura y descomposición de consultas pueden mejorar la recuperación, pero requieren un uso intensivo de recursos computacionales. La reclasificación con modelos de lenguaje profundos mejora el rendimiento, pero es lenta. Los métodos existentes también tienen dificultades para equilibrar de manera eficiente el rendimiento y el tiempo de respuesta, lo que los hace inadecuados para aplicaciones en tiempo real.

Los investigadores de la Universidad de Fudan llevaron a cabo una investigación sistemática de los enfoques RAG existentes y sus posibles combinaciones para identificar las prácticas óptimas. Se adoptó un enfoque de tres pasos: comparar los métodos para cada paso de RAG, evaluar el impacto de cada método en el rendimiento general de RAG y explorar combinaciones prometedoras para diferentes escenarios. Se sugieren varias estrategias para equilibrar el rendimiento y la eficiencia. Una innovación notable es la integración de técnicas de recuperación multimodal, que mejoran significativamente las capacidades de respuesta a preguntas sobre entradas visuales y aceleran la generación de contenido multimodal utilizando una estrategia de “recuperación como generación”. Este enfoque representa una contribución significativa al campo al ofrecer soluciones más eficientes y precisas en comparación con los métodos existentes.

La evaluación implicó configuraciones experimentales detalladas para identificar las mejores prácticas para cada módulo RAG. Se utilizaron conjuntos de datos como TREC DL 2019 y 2020 para la evaluación, con varios métodos de recuperación, incluido BM25 para recuperación dispersa y Contriever para recuperación densa. Los experimentos probaron diferentes tamaños de fragmentación y técnicas como ventanas deslizantes y de pequeño a grande para mejorar la calidad de la recuperación. Las métricas de evaluación incluyeron precisión promedio media (mAP), ganancia acumulada descontada normalizada (nDCG@10) y recuperación (R@50 y R@1k). Además, se exploró el impacto de ajustar el generador con contextos relevantes e irrelevantes para mejorar el rendimiento.

El estudio logra mejoras significativas en varias métricas de rendimiento clave. En particular, el método híbrido con HyDE obtuvo las puntuaciones más altas en los conjuntos de datos TREC DL 2019 y 2020, con valores de precisión media promedio (mAP) de 52,13 y 53,13, respectivamente, superando sustancialmente a los métodos de referencia. El rendimiento de recuperación, medido por recall@50, mostró mejoras notables, alcanzando valores de 55,38 y 66,14. Estos resultados subrayan la eficacia de las estrategias recomendadas, demostrando mejoras sustanciales en la efectividad y eficiencia de la recuperación.

En conclusión, esta investigación aborda el desafío de optimizar las técnicas RAG para mejorar el rendimiento de LLM. Evalúa sistemáticamente los métodos existentes, propone combinaciones innovadoras y demuestra mejoras significativas en las métricas de rendimiento. La integración de técnicas de recuperación multimodal representa un avance significativo en el campo de la investigación de IA. Este estudio no solo proporciona un marco sólido para implementar sistemas RAG, sino que también establece una base para futuras investigaciones para explorar más optimizaciones y aplicaciones en varios dominios.


Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 46 000 suscriptores de ML en Reddit


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasionan la ciencia de datos y el aprendizaje automático, y cuenta con una sólida formación académica y experiencia práctica en la resolución de desafíos reales interdisciplinarios.