La síntesis de Knowledge Graph (KG) está ganando terreno en la investigación de inteligencia artificial porque puede construir representaciones de conocimiento estructuradas a partir de datos de texto expansivos y no estructurados. Estos gráficos estructurados tienen aplicaciones fundamentales en áreas que requieren recuperación y razonamiento de información, como respuesta a preguntas, resumen de datos complejos y generación de recuperación aumentada (RAG). Los KG vinculan y organizan información de manera efectiva, lo que permite que los modelos procesen y respondan consultas complejas con mayor precisión. A pesar de estas ventajas, crear KG de alta calidad a partir de grandes conjuntos de datos sigue siendo un desafío debido a la necesidad de cobertura y eficiencia, que se vuelven cada vez más difíciles de mantener con los métodos tradicionales cuando se manejan cantidades masivas de datos.
Uno de los problemas centrales en la síntesis de KG es reducir la ineficiencia en la generación de gráficos completos, especialmente para corpus de gran escala que requieren representaciones de conocimiento complejas. Las técnicas de extracción de KG existentes suelen emplear modelos de lenguaje grandes (LLM) capaces de realizar un procesamiento avanzado, pero también pueden ser computacionalmente prohibitivos. Estos métodos generalmente utilizan enfoques basados en solicitudes de disparo cero o de pocos disparos para estructurar KG, lo que a menudo implica extensas llamadas API y altos costos. Estos enfoques deben revisarse para manejar documentos extensos de manera integral, lo que genera problemas como una representación de datos incompleta y una pérdida significativa de información. Esto crea una brecha entre la creciente demanda de métodos efectivos de síntesis de datos y las herramientas de construcción de KG disponibles, que necesitan una mayor especialización para la evaluación y evaluación comparativa de KG sin ontologías.
En la práctica actual, los métodos tradicionales de construcción de KG dependen en gran medida de las indicaciones de LLM para derivar tripletes de conocimientos. Este enfoque de aprendizaje en contexto de un solo paso presenta varias limitaciones. Por ejemplo, la demanda computacional aumenta a medida que crece el corpus, y cada llamada API adicional para procesar datos aumenta los costos. Además, es necesario que exista un conjunto de datos estandarizado o una métrica de evaluación para evaluar los KG libres de ontologías a nivel de documento, lo que crea más desafíos para los investigadores que buscan comparar la efectividad de sus modelos. Teniendo en mente las aplicaciones a gran escala, existe una necesidad imperiosa de modelos que puedan gestionar el procesamiento de documentos detallados de manera eficiente sin comprometer la calidad de los datos.
Los investigadores de Salesforce e Intel Labs presentaron sintetizadorkgun flujo de trabajo de construcción de KG de varios pasos que mejora la cobertura y la eficiencia. SynthKG divide el procesamiento de documentos en etapas manejables, asegurando que la información permanezca intacta fragmentando los documentos y luego procesando cada segmento para identificar entidades, relaciones y propuestas relevantes. Un modelo destilado, Distill-SynthKGse desarrolló aún más ajustando un LLM más pequeño utilizando KG generados a partir de SynthKG. Esta destilación reduce el flujo de trabajo de varios pasos a un proceso de un solo paso, lo que reduce significativamente los requisitos computacionales. Con Distill-SynthKG, se minimiza la necesidad de indicaciones repetidas de LLM, lo que permite la generación de KG de alta calidad con una fracción de los recursos requeridos por los enfoques convencionales.
El flujo de trabajo de SynthKG implica la segmentación de documentos, que divide cada documento de entrada en fragmentos independientes y semánticamente completos. Durante este proceso de fragmentación, se aplica la desambiguación de entidades para mantener una referencia coherente para cada entidad en todos los segmentos. Por ejemplo, si se presenta a una persona por su nombre completo en un fragmento, todas las menciones futuras se actualizan para garantizar la precisión contextual. Este enfoque mejora la coherencia de cada segmento al tiempo que evita la pérdida de relaciones importantes entre entidades. La siguiente etapa implica la extracción de relaciones, donde las entidades y sus tipos se identifican y vinculan en función de proposiciones predefinidas. Cada segmento de KG se enriquece aún más con un formato cuádruple, lo que proporciona una unidad intermedia indexable para una mejor precisión de recuperación. Al estructurar cada fragmento de forma independiente, SynthKG evita la redundancia y mantiene la integridad de los datos de alta calidad durante todo el proceso de construcción de KG.
Distill-SynthKG ha mostrado mejoras sustanciales con respecto a los modelos de referencia en entornos experimentales. Por ejemplo, el modelo generó más del 46,9 % de cobertura en MuSiQue y el 58,2 % en 2WikiMultiHopQA en términos de cobertura triplete, superando a los modelos más grandes por un margen de hasta el 6,26 % en términos absolutos en varios conjuntos de datos de prueba. En cuanto a las tareas de recuperación y respuesta de preguntas, Distill-SynthKG superó consistentemente el rendimiento de modelos pares ocho veces más grandes al reducir los costos computacionales y al mismo tiempo mejorar la precisión de la recuperación. Esta eficiencia es evidente en el recuperador Graph+LLM, donde el modelo KG demostró una mejora absoluta del 15,2 % en las tareas de recuperación, particularmente al responder preguntas de razonamiento de múltiples saltos. Estos resultados confirman la eficacia de un enfoque estructurado de varios pasos para maximizar la cobertura de KG y mejorar la precisión sin depender de LLM de gran tamaño.
Los resultados experimentales resaltan el éxito de Distill-SynthKG al ofrecer síntesis KG de alto rendimiento con menor demanda computacional. Al entrenar modelos más pequeños en pares documento-KG de alta calidad de SynthKG, los investigadores lograron una precisión semántica mejorada, lo que resultó en densidades de tripletes consistentes en documentos de diversas longitudes. Además, el modelo SynthKG produjo KG con mayor densidad triplete, manteniéndose estable en documentos de hasta 1200 palabras, lo que demuestra la escalabilidad del flujo de trabajo. Evaluadas en puntos de referencia como MuSiQue y HotpotQA, las mejoras del modelo se validaron utilizando nuevas métricas de cobertura de KG, que incluían cobertura de triplete proxy y puntuaciones de coincidencia semántica. Estas métricas confirmaron aún más la idoneidad del modelo para tareas de KG a gran escala y sin ontologías, ya que sintetizó con éxito KG detallados que admitían tareas de recuperación de alta calidad y de respuesta a preguntas de múltiples saltos.
Conclusiones clave de la investigación:
- Eficiencia: Distill-SynthKG reduce la necesidad de realizar repetidas llamadas a LLM al consolidar la construcción de KG en un modelo de un solo paso, lo que reduce los costos computacionales.
- Cobertura mejorada: Logró una cobertura triple del 46,9 % en MuSiQue y del 58,2 % en 2WikiMultiHopQA, superando a los modelos más grandes en un 6,26 % en promedio en todos los conjuntos de datos.
- Precisión de recuperación mejorada: Una mejora del 15,2 % en la precisión de la recuperación de preguntas y respuestas de múltiples saltos con la recuperación Graph+LLM.
- Escalabilidad: Mantuvo una densidad tripleta constante en documentos de diferentes longitudes, lo que demuestra su idoneidad para grandes conjuntos de datos.
- Aplicaciones más amplias: El modelo admite la generación eficiente de KG para diversos dominios, desde atención médica hasta finanzas, al acomodar con precisión KG libres de ontologías.
![](https://www.marktechpost.com/wp-content/uploads/2024/10/Screenshot-2024-10-28-at-12.42.26-PM-1024x415.png)
En conclusión, los hallazgos de la investigación enfatizan el impacto de un proceso de síntesis de KG optimizado que priorice la cobertura, la precisión y la eficiencia computacional. Distill-SynthKG no solo establece un nuevo punto de referencia para la generación de KG, sino que también presenta una solución escalable que se adapta a varios dominios, allanando el camino para marcos de recuperación y respuesta de preguntas más eficientes. Este enfoque podría tener amplias implicaciones para mejorar la capacidad de la IA para generar y estructurar representaciones de conocimiento a gran escala y, en última instancia, mejorar la calidad de las aplicaciones basadas en el conocimiento en todos los sectores.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)
Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.