ERARAG: un sistema de recuperación basado en gráficos de múltiples capas escalables para corpus dinámicos y crecientes

Los modelos de idiomas grandes (LLM) han revolucionado muchas áreas de procesamiento del lenguaje natural, pero aún enfrentan limitaciones críticas al tratar con hechos actualizados, información específica de dominio o un razonamiento complejo de múltiples saltos. Los enfoques de generación de recuperación de la generación (RAG) tienen como objetivo abordar estas brechas permitiendo que los modelos de idiomas recuperen e integren información de fuentes externas. Sin embargo, la mayoría de los sistemas de RAG basados en gráficos existentes están optimizados para los corpus estáticos y la lucha con la eficiencia, la precisión y la escalabilidad cuando los datos están creciendo continuamente, como en las noticias, repositorios de investigación o contenido en línea generado por el usuario.

Introducción de ERARAG: actualizaciones eficientes para la evolución de los datos

Reconociendo estos desafíos, los investigadores de Huawei, la Universidad de Ciencia y Tecnología de Hong Kong, y Webank han desarrollado Eraragun nuevo marco de generación de generación de recuperación de recuperación diseñada especialmente para corpus dinámicos y en constante expansión. En lugar de reconstruir toda la estructura de recuperación cada vez que llegan nuevos datos, ERARAG se basa en actualizaciones localizadas y selectivas que solo tocan aquellas partes del gráfico de recuperación afectados por los cambios.

Características centrales:

Hashosto sensible a la localidad (LSH) basada en hiperplées:
Cada corpus está fragmentado en pequeños pasajes de texto que están incrustados como vectores. ERARAG luego utiliza hiperplanos muestreados aleatoriamente para proyectar estos vectores en códigos hash binarios, un proceso que agrupa fragmentos semánticamente similares en el mismo “cubo”. Este enfoque basado en LSH mantiene tanto la coherencia semántica como la agrupación eficiente.
Construcción de gráficos jerárquicos de múltiples capas:
La estructura de recuperación del núcleo en ERARAG es un gráfico de múltiples capas. En cada capa, los segmentos (o cubos) de texto similar se resumen utilizando un modelo de lenguaje. Los segmentos que son demasiado grandes se dividen, mientras que los demasiado pequeños se fusionan, lo que afecta tanto la consistencia semántica como la granularidad equilibrada. Las representaciones resumidas en capas superiores permiten una recuperación eficiente para consultas de grano fino y abstracto.
Actualizaciones incrementales localizadas:
Cuando llegan los nuevos datos, su incrustación se hashan utilizando los hiperplanos originales, lo que garantiza la consistencia con la construcción de gráficos iniciales. Solo los cubos/segmentos directamente afectados por nuevas entradas se actualizan, se fusionan, se dividen o se vuelven a sumarizar, mientras que el resto del gráfico permanece intacto. La actualización se propaga la jerarquía de gráficos, pero siempre permanece localizada en la región afectada, ahorrando costos significativos y costos de tokens.
Reproducibilidad y determinismo:
A diferencia de la agrupación estándar de LSH, ERARAG conserva el conjunto de hiperplanos utilizados durante el hashing inicial. Esto hace que la asignación de deseos sea determinista y reproducible, lo cual es crucial para actualizaciones consistentes y eficientes con el tiempo.

Rendimiento e impacto

Experimentos exhaustivos sobre una variedad de puntos de referencia de respuesta a preguntas demuestran que ERARAG:

Reduce los costos de actualización: Logra una reducción de hasta un 95% en el tiempo de reconstrucción de gráficos y el uso de tokens en comparación con los principales métodos de RAG basados en gráficos (por ejemplo, Graphrag, Raptor, Hipporag).
Mantiene alta precisión: ERARAG supera constantemente otras arquitecturas de recuperación tanto en precisión como en el recuerdo: tareas de respuesta estática, creciente y abstracta de respuesta, con un compromiso mínimo en la calidad de la recuperación o en las capacidades de razonamiento de múltiples saltos.
Admite necesidades de consulta versátiles: El diseño de gráficos de múltiples capas permite a ERARAG recuperar de manera eficiente los detalles fácticos o resúmenes semánticos de alto nivel, adaptando su patrón de recuperación a la naturaleza de cada consulta.

Implicaciones prácticas

ERARAG ofrece un marco de recuperación escalable y robusto ideal para la configuración del mundo real donde los datos se agregan continuamente, como noticias en vivo, archivos académicos o plataformas impulsadas por el usuario. Se logra un equilibrio entre la eficiencia de recuperación y la adaptabilidad, lo que hace que las aplicaciones respaldadas por LLM sean más objetivas, receptivas y confiables en entornos de cambio rápido.

Mira el Papel y Github. Todo el crédito por esta investigación va a los investigadores de este proyecto | Conoce al boletín de AI Dev leído 40k+ desarrolladores e investigadores de Nvidia, Openai, DeepMind, Meta, Microsoft, JP Morgan Chase, Amgen, Aflac, Wells Fargo y 100 más [SUBSCRIBE NOW]

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

ERARAG: un sistema de recuperación basado en gráficos de múltiples capas escalables para corpus dinámicos y crecientes

ByEquipo de 7 minutos

Introducción de ERARAG: actualizaciones eficientes para la evolución de los datos

Características centrales:

Rendimiento e impacto

Implicaciones prácticas

By Equipo de 7 minutos

Related Post

NVIDIA lanza Nemotron-Labs-TwoTower: un modelo de lenguaje de difusión de peso abierto construido sobre una columna vertebral autorregresiva congelada Nemotron-3-Nano-30B-A3B

Simplifique el acceso de múltiples cuentas a los modelos de Amazon Bedrock con derechos administrados

CUP (Python útil común): creación de flujos de trabajo de Python confiables con el kit de herramientas de utilidad de Baidu

You missed

NVIDIA lanza Nemotron-Labs-TwoTower: un modelo de lenguaje de difusión de peso abierto construido sobre una columna vertebral autorregresiva congelada Nemotron-3-Nano-30B-A3B

Una poderosa erupción solar de clase X provoca apagones de radio en toda América del Norte

El control del Senado está en juego

Elle: Todos los huevos de Pascua legalmente rubios