Kggen: extracción de gráficos de conocimiento avanzado con modelos de lenguaje y técnicas de agrupación

Los gráficos de conocimiento (KG) son la base de las aplicaciones de inteligencia artificial, pero son incompletos y escasos, lo que afecta su efectividad. Los KG bien establecidos como Dbpedia y Wikidata carecen de relaciones de entidad esenciales, disminuyendo su utilidad en la generación de recuperación acuática (TRAPO) y otras tareas de aprendizaje automático. Es probable que los métodos de extracción tradicionales proporcionen gráficos escasos con conexiones importantes ausentes o representaciones ruidosas y redundantes. Por lo tanto, es difícil obtener un conocimiento estructurado de alta calidad del texto no estructurado. Superar estos desafíos es fundamental para permitir una mejor recuperación de conocimiento, razonamiento y ideas con la ayuda de la inteligencia artificial.

Los métodos de vanguardia para extraer KGS del texto sin procesar son la extracción de información abierta (Openie) y Graphrag. Openie, una técnica de análisis de dependencia, produce triples estructurados (sujeto, relación, objeto) pero produce nodos extremadamente complejos y redundantes, reduciendo la coherencia. Graphrag, que combina modelos de recuperación y lenguaje basados ​​en gráficos, mejora la vinculación de la entidad pero no produce gráficos densamente conectados, restringiendo los procesos de razonamiento aguas abajo. Ambas técnicas están plagadas de consistencia de baja resolución de entidad, escasez en la conectividad y la pobre generalización, lo que las hace ineficaces para la extracción de kg de alta calidad.

Investigadores de la Universidad de Stanford, la Universidad de Toronto y FAR IA presentan Kggen, un nuevo generador de texto a kg que aprovecha los modelos de lenguaje y los algoritmos de agrupación para extraer el conocimiento estructurado del texto plano. A diferencia de los métodos anteriores, KGGEN introduce un método de agrupación iterativo basado en LM que mejora el gráfico extraído fusionando entidades sinónimas y relaciones de agrupación. Esto mejora la escasez y la redundancia, ofreciendo un KG más coherente y bien conectado. Kggen también introduce la mina (medida de información en nodos y bordes), el primer punto de referencia para el rendimiento de extracción de texto a kg, lo que permite la medición estandarizada de los métodos de extracción.

KGGEN opera a través de un paquete de pitón modular con módulos para la extracción de entidad y relación, agregación y agrupación de entidad y borde. El módulo para la extracción de entidad y relación emplea GPT-4O para obtener triples estructurados (sujeto, predicado, objeto) del texto no estructurado. El módulo de agregación combina triples extraídos de diferentes fuentes en un gráfico de conocimiento unificado (kg), lo que garantiza una representación homogénea de entidades. El módulo para la agrupación de entidad y borde utiliza un algoritmo de agrupación iterativo para desambiguar entidades sinónimos, clúster bordes similares y mejorar la conectividad gráfica. A través de la aplicación de restricciones estrictas en el modelo de lenguaje que usa DSPY, KGGEN permite el logro de extracciones estructuradas y de alta fidelidad. El gráfico de conocimiento de salida se distingue por su densa conectividad, relevancia semántica y optimización para fines de inteligencia artificial.

Los resultados de la evaluación comparativa indican el éxito del método en la extracción del conocimiento estructurado de las fuentes de texto. Kggen obtiene una tasa de precisión del 66.07%, que es significativamente mayor que Graphrag en 47.80%y Openie al 29.84%. El sistema facilita la capacidad de extraer y estructurar el conocimiento sin redundancia y mejorar la conectividad y la coherencia. El análisis comparativo confirma una mejora del 18% en la fidelidad de extracción sobre los métodos existentes, destacando su capacidad para generar gráficos de conocimiento bien estructurados. Las pruebas también demuestran que los gráficos producidos son más densos y más informativos, lo que los hace particularmente adecuados en el contexto de tareas de recuperación de conocimiento y razonamiento basado en IA.

KGGEN es un avance en el campo de la extracción de gráficos de conocimiento porque combina el reconocimiento de entidades basado en modelos de lenguaje con técnicas de agrupación iterativa para generar datos estructurados de mayor calidad. Al lograr una precisión radicalmente mejorada en el punto de referencia de la mina, eleva la barra para transformar el texto no estructurado en representaciones impactantes. Este avance tiene implicaciones de largo alcance para la recuperación de conocimiento artificial basada en la inteligencia, las operaciones de razonamiento y el aprendizaje basado en la incrustación, allanando el camino para un mayor desarrollo de gráficos de conocimiento más grandes y más completos. El desarrollo futuro se centrará en refinar técnicas de agrupación y en expansión de las pruebas de referencia para cubrir conjuntos de datos más grandes.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Aswin AK es un pasante de consultoría en MarktechPost. Está persiguiendo su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.