SynDL: una colección de pruebas sintéticas que utiliza modelos de lenguaje de gran tamaño para revolucionar la evaluación de la recuperación de información y la evaluación de la relevancia a gran escala

La recuperación de información (IR) es un aspecto fundamental de la informática, que se centra en la localización eficiente de información relevante dentro de grandes conjuntos de datos. A medida que los datos crecen exponencialmente, la necesidad de sistemas de recuperación avanzados se vuelve cada vez más crítica. Estos sistemas utilizan algoritmos sofisticados para hacer coincidir las consultas de los usuarios con documentos o pasajes relevantes. Los avances recientes en aprendizaje automático, en particular en procesamiento del lenguaje natural (PLN), han mejorado significativamente las capacidades de los sistemas de IR. Al emplear técnicas como la recuperación de pasajes densos y la expansión de consultas, los investigadores buscan mejorar la precisión y la relevancia de los resultados de búsqueda. Estos avances son fundamentales en campos que van desde la investigación académica hasta los motores de búsqueda comerciales, donde la capacidad de recuperar información de manera rápida y precisa es esencial.

Un desafío persistente en la recuperación de información es la creación de colecciones de prueba a gran escala que puedan modelar con precisión las relaciones complejas entre consultas y documentos. Las colecciones de prueba tradicionales a menudo dependen de evaluadores humanos para juzgar la relevancia de los registros, un proceso que no solo requiere mucho tiempo sino que también es costoso. Esta dependencia del juicio humano limita la escala de las colecciones de prueba y obstaculiza el desarrollo y la evaluación de sistemas de recuperación más avanzados. Por ejemplo, las colecciones existentes como MS MARCO incluyen más de un millón de preguntas, pero para cada consulta, solo un promedio de 10 pasajes se consideran relevantes, lo que deja aproximadamente 8,8 millones de pasajes como no relevantes. Este desequilibrio significativo resalta la dificultad de capturar la complejidad total de las relaciones entre consultas y documentos, en particular en grandes conjuntos de datos.

Los investigadores han explorado métodos para mejorar la eficacia de los sistemas IR. Un enfoque utiliza modelos de lenguaje grandes (LLM), que han demostrado ser prometedores en la generación de juicios de relevancia que se alinean estrechamente con las evaluaciones humanas. Los TREC Deep Learning Tracks, organizados entre 2019 y 2023, han sido fundamentales para avanzar en esta investigación. Estos tracks han proporcionado colecciones de pruebas que incluyen consultas con distintos grados de etiquetas de relevancia. Sin embargo, incluso estos esfuerzos se han visto limitados por el número limitado de consultas, solo 82 en el track de 2023, utilizadas para la evaluación. Esta limitación ha despertado el interés en desarrollar nuevos métodos para escalar el proceso de evaluación manteniendo al mismo tiempo una alta precisión y relevancia.

Investigadores del University College de Londres, la Universidad de Sheffield, Amazon y Microsoft presentaron una nueva colección de pruebas denominada SinDLSynDL representa un avance significativo en el campo de las relaciones entre instituciones al aprovechar los LLM para generar un conjunto de datos sintéticos a gran escala. Esta colección amplía los TREC Deep Learning Tracks existentes al incorporar más de 1900 consultas de prueba y generar 637 063 pares de consultas-pasajes para la evaluación de la relevancia. El proceso de desarrollo de SynDL implicó la agregación de consultas iniciales de los cinco años de TREC Deep Learning Tracks, incluidas 500 consultas sintéticas generadas por los modelos GPT-4 y T5. Estas consultas sintéticas permiten un análisis más extenso de las relaciones entre consultas y documentos y brindan un marco sólido para evaluar el rendimiento de los sistemas de recuperación.

La innovación principal de SynDL radica en el uso de LLM para anotar pares de consultas y pasajes con etiquetas de relevancia detalladas. A diferencia de las colecciones anteriores, SynDL ofrece una evaluación de relevancia profunda y amplia al asociar cada consulta con un promedio de 320 pasajes. Este enfoque aumenta la escala de la evaluación y proporciona una comprensión más matizada de la relevancia de cada pasaje para una consulta determinada. SynDL cierra de manera efectiva la brecha entre los juicios de relevancia generados por humanos y por máquinas al aprovechar las capacidades avanzadas de comprensión del lenguaje natural de los LLM. El uso de GPT-4 para la anotación ha sido particularmente notable, ya que permite una alta granularidad en el etiquetado de pasajes como irrelevantes, relacionados, altamente relevantes o perfectamente relevantes.

La evaluación de SynDL ha demostrado su eficacia a la hora de proporcionar clasificaciones de sistemas fiables y consistentes. En estudios comparativos, SynDL mostró una alta correlación con los juicios humanos, con coeficientes Tau de Kendall de 0,8571 para NDCG@10 y 0,8286 para NDCG@100. Además, los sistemas de mayor rendimiento de los TREC Deep Learning Tracks mantuvieron sus clasificaciones cuando se evaluaron utilizando SynDL, lo que indica la solidez del conjunto de datos sintéticos. La inclusión de consultas sintéticas también permitió a los investigadores analizar posibles sesgos en el texto generado por LLM, en particular en lo que respecta al uso de modelos de lenguaje similares tanto en la generación de consultas como en la evaluación del sistema. A pesar de estas preocupaciones, SynDL exhibió un entorno de evaluación equilibrado, en el que los sistemas basados ​​en GPT no recibieron ventajas indebidas.

En conclusión, SynDL representa un avance importante en la recuperación de información al abordar las limitaciones de las colecciones de pruebas existentes. A través del uso innovador de grandes modelos de lenguaje, SynDL proporciona un conjunto de datos sintéticos a gran escala que mejora la evaluación de los sistemas de recuperación. Con sus etiquetas de relevancia detalladas y su amplia cobertura de consultas, SynDL ofrece un marco más integral para evaluar el rendimiento de los sistemas de recuperación de información. La correlación exitosa con los juicios humanos y la inclusión de consultas sintéticas hacen de SynDL un recurso valioso para futuras investigaciones.


Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasionan la ciencia de datos y el aprendizaje automático, y cuenta con una sólida formación académica y experiencia práctica en la resolución de desafíos reales interdisciplinarios.