Screenshot 2024 02 09 At 2.59.14 Am.png

Los modelos de lenguaje de recuperación aumentada a menudo recuperan solo fragmentos cortos de un corpus, lo que limita el contexto general del documento. Esto disminuye su capacidad para adaptarse a los cambios en el estado mundial e incorporar conocimientos de cola larga. También es necesario corregir los enfoques existentes de recuperación aumentada. El problema que abordamos es que la mayoría de los métodos existentes recuperan sólo unos pocos fragmentos de texto cortos y contiguos, lo que limita su capacidad para representar y aprovechar la estructura del discurso a gran escala. Esto es particularmente relevante para preguntas temáticas que requieren integrar conocimientos de múltiples partes del texto, como comprender un libro completo.

Los desarrollos recientes en modelos de lenguaje grande (LLM) demuestran su eficacia como almacenes de conocimiento independientes, codificando hechos dentro de sus parámetros. El ajuste de las tareas posteriores mejora aún más su rendimiento. Sin embargo, surgen desafíos al actualizar los LLM con el conocimiento mundial en evolución. Un enfoque alternativo implica indexar texto en un sistema de recuperación de información y presentar la información recuperada a los LLM para obtener conocimientos actuales específicos del dominio. Los métodos de recuperación aumentada existentes se limitan a recuperar solo fragmentos de texto cortos y contiguos, lo que dificulta la representación de la estructura del discurso a gran escala, lo cual es crucial para preguntas temáticas y una comprensión integral de textos como en el conjunto de datos NarrativeQA.

Los investigadores de la Universidad de Stanford proponen RAPTORun innovador sistema de indexación y recuperación diseñado para abordar las limitaciones de los métodos existentes. RAPTOR Utiliza una estructura de árbol para capturar los detalles de alto y bajo nivel de un texto. Agrupa fragmentos de texto, genera resúmenes para grupos y construye un árbol de abajo hacia arriba. Esta estructura permite cargar diferentes niveles de fragmentos de texto en el contexto de LLM, lo que facilita la respuesta eficiente y efectiva de preguntas en varios niveles. La contribución clave es el uso de resúmenes de texto para aumentar la recuperación, mejorando la representación del contexto en diferentes escalas, como se demuestra en experimentos con colecciones de documentos extensos.

RAPTOR aborda la lectura de profundidad semántica y problemas de conexión mediante la construcción de una estructura de árbol recursiva que captura tanto una comprensión temática amplia como detalles granulares. El proceso implica segmentar el corpus de recuperación en fragmentos, incrustarlos usando SBERT y agruparlos con un algoritmo de agrupamiento suave basado en modelos de mezcla gaussiana (GMM) y proyección y aproximación de colector uniforme (UMAP). La estructura de árbol resultante permite realizar consultas eficientes mediante un recorrido de árbol o un enfoque de árbol colapsado, lo que permite la recuperación de información relevante en diferentes niveles de especificidad.

RAPTOR supera a los métodos de referencia en tres conjuntos de datos de respuesta a preguntas: NarrativeQA, QASPER y QuALITY. Las comparaciones de control utilizando UnifiedQA 3B como lector muestran una superioridad constante de RAPTOR sobre BM25 y DPR. Emparejado con GPT-4, RAPTOR logra resultados de última generación en conjuntos de datos QASPER y QuALITY, lo que demuestra su eficacia en el manejo de consultas temáticas y de múltiples saltos. Se valida la contribución de la estructura de árbol, lo que demuestra la importancia de los nodos de nivel superior para capturar una comprensión más amplia y mejorar las capacidades de recuperación.

En conclusión, los investigadores de la Universidad de Stanford presentan RAPTORun innovador sistema de recuperación basado en árboles que mejora el conocimiento de grandes modelos de lenguaje con información contextual en diferentes niveles de abstracción. RAPTOR construye una estructura de árbol jerárquica a través de agrupamiento recursivo y resumen, facilitando la síntesis efectiva de información de diversas secciones de corpus de recuperación. Muestra de experimentos controlados RAPTOR superioridad sobre los métodos tradicionales, estableciendo nuevos puntos de referencia en diversas tareas de respuesta a preguntas. En general, RAPTOR demuestra ser un enfoque prometedor para mejorar las capacidades de los modelos de lenguaje a través de una recuperación contextual mejorada.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.