Este documento de IA presenta el conjunto de datos RobustQA de formato largo y RAG-QA Arena para la evaluación entre dominios de sistemas de generación aumentada por recuperación

La respuesta a preguntas (QA) es un área crucial en el procesamiento del lenguaje natural (NLP), que se centra en el desarrollo de sistemas que puedan recuperar y generar respuestas con precisión a las consultas de los usuarios a partir de amplias fuentes de datos. La generación aumentada por recuperación (RAG) mejora la calidad y la relevancia de las respuestas al combinar la recuperación de información con la generación de texto. Este enfoque filtra la información irrelevante y presenta solo los pasajes más pertinentes para que los modelos de lenguaje extensos (LLM) generen respuestas.

Uno de los principales desafíos en el control de calidad es el alcance limitado de los conjuntos de datos existentes, que a menudo utilizan corpus de una sola fuente o se centran en respuestas breves y extractivas. Esta limitación dificulta la evaluación de la capacidad de los LLM para generalizar en diferentes dominios. Los métodos actuales, como Natural Questions y TriviaQA, dependen en gran medida de Wikipedia o documentos web, que son insuficientes para evaluar el rendimiento en varios dominios. Como resultado, existe una necesidad significativa de marcos de evaluación más integrales que puedan probar la solidez de los sistemas de control de calidad en varios dominios.

Los investigadores de AWS AI Labs, Google, Samaya.ai, Orby.ai y la Universidad de California en Santa Bárbara han presentado Long-form RobustQA (LFRQA) para abordar estas limitaciones. Este nuevo conjunto de datos incluye respuestas de formato largo escritas por humanos que integran información de múltiples documentos en narrativas coherentes. LFRQA, que abarca 26 000 consultas en siete dominios, tiene como objetivo evaluar las capacidades de generalización entre dominios de los sistemas RAG-QA basados ​​en LLM.

LFRQA se distingue de los conjuntos de datos anteriores al ofrecer respuestas extensas basadas en un corpus, lo que garantiza la coherencia y abarca múltiples dominios. El conjunto de datos incluye anotaciones de varias fuentes, lo que lo convierte en una herramienta valiosa para evaluar los sistemas de control de calidad. Este enfoque aborda las deficiencias de los conjuntos de datos de control de calidad extractivos, que a menudo no logran capturar la naturaleza integral y detallada de las respuestas de LLM modernas.

El equipo de investigación introdujo el marco RAG-QA Arena para aprovechar LFRQA para evaluar los sistemas de control de calidad. Este marco emplea evaluadores basados ​​en modelos para comparar directamente las respuestas generadas por LLM con las respuestas escritas por humanos de LFRQA. Al centrarse en respuestas coherentes y de formato largo, RAG-QA Arena proporciona un punto de referencia más preciso y desafiante para los sistemas de control de calidad. Los experimentos exhaustivos demostraron una alta correlación entre las evaluaciones basadas en modelos y las realizadas por humanos, lo que valida la eficacia del marco.

Los investigadores emplearon varios métodos para garantizar la alta calidad de LFRQA. Se pidió a los anotadores que combinaran respuestas cortas y extractables en respuestas coherentes y extensas, incorporando información adicional de los documentos cuando fuera necesario. Las medidas de control de calidad incluyeron auditorías aleatorias de las anotaciones para garantizar la integridad, la coherencia y la relevancia. Este riguroso proceso dio como resultado un conjunto de datos que evalúa eficazmente la solidez interdisciplinaria de los sistemas de control de calidad.

Los resultados de desempeño del marco RAG-QA Arena muestran hallazgos significativos. Solo el 41,3 % de las respuestas generadas por los LLM más competitivos fueron preferidas sobre las respuestas escritas por humanos de LFRQA. El conjunto de datos demostró una fuerte correlación entre las evaluaciones basadas en modelos y las realizadas por humanos, con un coeficiente de correlación de 0,82. Además, la evaluación reveló que las respuestas de LFRQA, que integraban información de hasta 80 documentos, fueron preferidas en el 59,1 % de los casos en comparación con las respuestas de los LLM líderes. El marco también destacó una brecha del 25,1 % en el desempeño entre los datos dentro y fuera del dominio, lo que enfatiza la importancia de la evaluación entre dominios para desarrollar sistemas de control de calidad sólidos.

Además de su naturaleza integral, LFRQA incluye métricas de desempeño detalladas que brindan información valiosa sobre la efectividad de los sistemas de control de calidad. Por ejemplo, el conjunto de datos contiene información sobre la cantidad de documentos utilizados para generar respuestas, la coherencia de esas respuestas y su fluidez. Estas métricas ayudan a los investigadores a comprender las fortalezas y debilidades de los diferentes enfoques de control de calidad, lo que orienta las mejoras futuras.

En conclusión, la investigación liderada por AWS AI Labs, Google, Samaya.ai, Orby.ai y la Universidad de California en Santa Bárbara destaca las limitaciones de los métodos de evaluación de control de calidad existentes y presenta LFRQA y RAG-QA Arena como soluciones innovadoras. Estas herramientas ofrecen un punto de referencia más completo y desafiante para evaluar la solidez interdisciplinaria de los sistemas de control de calidad, lo que contribuye significativamente al avance de la investigación en PNL y control de calidad.


Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí


Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.