Graph-R1: un marco de Graprag de agente para razonamiento estructurado de múltiples vueltas con aprendizaje de refuerzo

Introducción

Los modelos de idiomas grandes (LLM) han establecido nuevos puntos de referencia en el procesamiento del lenguaje natural, pero su tendencia a la alucinación, que genera salidas inexactas, se mantiene un problema crítico para las aplicaciones intensivas en conocimiento. Los marcos de generación de recuperación de la generación (RAG) intentan resolver esto incorporando el conocimiento externo en la generación de idiomas. Sin embargo, los enfoques tradicionales de RAG dependen de la recuperación basada en fragmentos, lo que limita su capacidad para representar relaciones semánticas complejas. Los métodos de RAG basados en gráficos de la crelación de entidad (Graphrag) abordan algunas limitaciones estructurales, pero aún enfrentan un alto costo de construcción, inflexibilidad de recuperación de un solo disparo y dependencia del razonamiento de contexto largo y las indicaciones cuidadosamente diseñadas.

Investigadores de la Universidad Tecnológica de Nanyang, la Universidad Nacional de Singapur, el Instituto de Tecnología y Aplicación de Computación de Beijing, y Beijing Anzhen Hospital han introducido Gráfico-R1un marco de Graprag agente impulsado por el aprendizaje de refuerzo de extremo a extremo.

Fuente de la imagen: https://arxiv.org/pdf/2507.21892v1

Innovaciones centrales de Graph-R1

1. Construcción de hipergrafías de conocimiento liviano

Graph-R1 construye el conocimiento como un hipergrafo, donde cada segmento de conocimiento se extrae utilizando la extracción de relación N-ARY impulsada por LLM. Este enfoque codifica relaciones más ricas y semánticamente fundadas, lo que aumenta las capacidades de razonamiento de agente mientras mantiene los costos manejables y los requisitos computacionales.

  • Eficiencia: Solo 5.69s y $ 2.81 por 1,000 tokens para la construcción (frente a $ 3.35 para Graphrag y $ 4.14 para Hypergragrag), mientras se genera gráficos semánticamente ricos con 120,499 nodos y 98,073 bordes.

2. Proceso de recuperación de agente múltiple

Graph-R1 modela la recuperación como un bucle de interacción múltiple (“Generado de re-retrato de pensamiento”), lo que permite al agente consultar y refinar adaptativamente su ruta de conocimiento, a diferencia de los métodos anteriores que utilizan la recuperación de un disparo.

  • Razonamiento dinámico: El agente decide en cada paso si continuar explorando o terminando con una respuesta. La recuperación de hiperedas directas y basada en la entidad se fusiona a través de la agregación de rango recíproco, lo que mejora las posibilidades de recuperar el conocimiento más relevante.

3. Optimización de aprendizaje de refuerzo de extremo a extremo

Graph-R1 utiliza la optimización de políticas relativas del grupo (GRPO) para RL de extremo a extremo, integrando recompensas para la adherencia al formato, relevancia y corrección de respuestas. Esta recompensa unificada guía a los agentes para desarrollar estrategias de razonamiento generalizables estrechamente alineadas con la estructura de conocimiento y la calidad de la producción.

  • Mecanismo de recompensa dirigido por los resultados: Combina recompensas de formato (coherencia estructural) y recompensas de respuesta (precisión semántica) para una optimización efectiva, solo respuestas gratificantes integradas en trayectorias de razonamiento estructuralmente válidas.

Hallazgos clave

Benchmarking en tareas de QA de trapo

Graph-R1 se evaluó en seis conjuntos de datos de control de calidad (2wikimultihopqa, hotpotqa, musique, preguntas naturales, popqa, triviaqa).

Método Avg. F1 (Qwen2.5-7b)
Argumento ingenuo 13.87
Standardrag 15.89
Gráfica 24.87
Hipergrafrag 29.40
Búsqueda-r1 46.19
Buscador R1 42.29
Gráfico-R1 57.82
  • Graph-R1 logra hasta 57.82 F1 promedio con Qwen2.5-7b, superando todas las líneas de base anteriores por un amplio margen. Los modelos base más grandes amplifican sus ganancias de rendimiento.

Análisis de ablación

La ablación por componentes demuestra que la eliminación de la construcción del hipergrafio, el razonamiento múltiple o la optimización RL reduce drásticamente el rendimiento, validando la necesidad de cada módulo dentro de Graph-R1.

Recuperación y eficiencia

  • La recuperación Graph-R1 es más concisa y efectiva. Logra puntajes F1 altos con longitudes de contenido promedio moderadas (~ 1200-1500 tokens por intercambio), y admite más giros de interacción (promedio 2.3-2.5), facilitando la extracción de conocimiento estable y precisa.2507.21892V1.PDF
  • El costo de generación es mínimo: A pesar de la representación más rica, el tiempo de respuesta de Graph-R1 por consulta (7.0S) y el costo por Querta ($ 0) supera a los competidores basados en Graph como Hypergragrag (9.6s, $ 8.76) .2507.21892v1.pdf

Calidad de generación

La calidad de la generación de Graph-R1 se evalúa en siete dimensiones (competencia, conocimiento, corrección, relevancia, diversidad, coherencia lógica, hecho, y consistentemente supera a todas las líneas basadas en RL basadas en RL, logrando puntajes principales en la corrección (86.9), relevancia (95.2) y coherencia (88.5).

Generalización

La validación cruzada en la configuración fuera de distribución (OOD) revela que Graph-R1 mantiene un rendimiento robusto en los conjuntos de datos, con relaciones OOD/IID a menudo por encima del 85%, demostrando fuertes propiedades de generalización de dominio.

Garantías teóricas

Graph-R1 es compatible con los análisis teóricos de información:

  • Conocimiento estructurado con gráficos Proporciona una mayor densidad de información por recuperación y una convergencia más rápida para corregir las respuestas en comparación con la recuperación basada en el fragmento.
  • Interacción múltiple Permite al agente lograr una mayor eficiencia de recuperación enfocándose dinámicamente en regiones gráficas de alto impacto.
  • Optimización de RL de extremo a extremo puente evidencia estructurada con gráficos y generación de idiomas, reduciendo la entropía de salida y las tasas de error.

Flujo de trabajo algorítmico (alto nivel)

  1. Extracción de hipergrafías de conocimiento: LLM extrae relaciones n-ary para construir conjuntos de entidad e hiperedge.
  2. Razonamiento de agente múltiple: El agente alterna entre el pensamiento reflexivo, la consulta, la recuperación de hipergrafías (entidad e hiperedge dual rutas) y síntesis.
  3. Optimización de GRPO: La política RL se actualiza utilizando trayectorias muestreadas y la normalización de recompensas, la estructura de aplicación y la corrección de respuestas.

Conclusión

Graph-R1 demuestra que la integración de la representación del conocimiento basada en hipervrafías, el razonamiento de giro múltiple de agente y el RL de extremo a extremo ofrecen ganancias sin precedentes en el rendimiento de control de calidad, la eficiencia de recuperación y la calidad de la generación, registrando la ruta para los sistemas LLM agentes y de conocimiento de la próxima generación.


Preguntas frecuentes 1: ¿Cuál es la innovación clave de Graph-R1 en comparación con los sistemas GraphRag y Rag anteriores?

Graph-R1 presenta un marco de agente donde la recuperación se modela como una interacción múltiple en lugar de un solo proceso de un solo disparo. Sus principales innovaciones son:

  • Representación del conocimiento del hipergrafo: En lugar de gráficos simples de relación de entidad o fragmentos de texto, Graph-R1 construye un hipergrafo semántico que permite relaciones más expresivas y de N-ARY entre entidades.
  • Bucle de razonamiento múltiple: El agente opera en ciclos repetidos de “pensar, volver a creer – retrasar – generarse” sobre el hipergrafo, enfocando dinámicamente consultas en lugar de recuperar todo a la vez.
  • Aprendizaje de refuerzo de extremo a extremo (RL): El agente está entrenado con una función de recompensa que simultáneamente optimiza para el razonamiento lógico gradual y la corrección de respuestas finales, permitiendo una alineación más estrecha entre el conocimiento estructurado y las respuestas del lenguaje natural.

Preguntas frecuentes 2: ¿Cómo se compara la recuperación de Graph-R1 y la eficiencia de generación con los métodos anteriores?

Graph-R1 es significativamente más eficiente y efectivo tanto en la generación de recuperación como en la generación de respuestas:

  • Costo de construcción y recuperación más bajo: Para construir el hipergrafio de conocimiento, Graph-R1 toma solo 5.69 segundos y cuesta $ 2.81 por 1,000 tokens (en el conjunto de datos 2Wiki), superando los métodos similares basados en gráficos.
  • Generación más rápida y barata: Los tiempos de respuesta de consulta (promedio de 7 segundos por consulta) y los costos de generación ($ 0 por consulta) son mejores que los sistemas anteriores de gráficos, como Hypergragg.
  • Concisión y robustez: Las respuestas Graph-R1 son más concisas (generalmente 1,200–1,500 fichas) y más precisas debido a la interacción múltiple, con puntajes F1 de vanguardia en seis conjuntos de datos de control de calidad.

Preguntas frecuentes 3: ¿En qué escenarios o dominios es el marco gráfico-R1 más aplicable?

Graph-R1 es ideal para aplicaciones complejas intensivas en conocimiento que exigen tanto la precisión objetiva como la transparencia de razonamiento, como:

  • Salud y IA médica: Donde el razonamiento multi-salto, la trazabilidad y la confiabilidad son esenciales.
  • Dominios legales y regulatorios: Que requieren respuestas fundamentadas precisas y razonamiento interpretable de varios pasos.
  • Automatización de conocimiento empresarial: Para tareas que necesitan consulta y recuperación de dinámica escalable en documentos grandes o corpus de datos.
    La arquitectura del modelo también permite una fácil adaptación a otros campos que se benefician de la búsqueda de conocimiento de giro múltiple de agente anclada en representaciones estructuradas.

Mira el Papel aquí y Página de Github. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos.

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.