La construcción de grafos de conocimiento (KG) a partir de datos no estructurados es una tarea compleja debido a las dificultades que supone extraer y estructurar información significativa a partir de texto sin formato. Los datos no estructurados suelen contener entidades no resueltas o duplicadas y relaciones inconsistentes, lo que complica su transformación en un grafo de conocimiento coherente. Además, la enorme cantidad de datos no estructurados disponibles en diversos campos enfatiza aún más la necesidad de métodos escalables para procesar, extraer y estructurar automáticamente estos datos en KG. Abordar con éxito estos desafíos es crucial para permitir un razonamiento, una inferencia y una toma de decisiones basadas en datos eficientes en campos que van desde la investigación científica hasta el análisis de datos web.
Los métodos tradicionales para crear KG a partir de texto no estructurado se basan principalmente en técnicas como el reconocimiento de entidades con nombre, la extracción de relaciones y la resolución de entidades. Estos enfoques suelen verse limitados por la necesidad de tipos de entidades y relaciones predefinidos, que a menudo dependen de ontologías específicas del dominio. Además, suelen implicar un aprendizaje supervisado, que requiere grandes cantidades de datos anotados. Una limitación importante de estos métodos es su tendencia a generar gráficos inconsistentes con entidades duplicadas o no resueltas, lo que da lugar a redundancias y ambigüedades que requieren un posprocesamiento extenso. Además, muchas soluciones existentes dependen de temas, lo que limita su aplicabilidad en diferentes dominios, lo que restringe su escalabilidad y adaptabilidad a nuevos casos de uso.
Investigadores del INSA Lyon, del CNRS y de la Universidad Claude Bernard Lyon 1 presentan iText2KGun método independiente del tema y de cero disparos para construir de forma incremental gráficos de conocimiento (KG) a partir de datos no estructurados sin necesidad de ontologías predefinidas ni posprocesamiento. Este marco consta de cuatro módulos distintos:
- Destilador de documentos:Reforma documentos sin procesar en bloques semánticos utilizando modelos de lenguaje grandes (LLM) guiados por un esquema flexible definido por el usuario.
- Extractor de entidades incrementales: Extrae entidades únicas de los bloques semánticos, garantizando que no haya duplicaciones ni ambigüedades semánticas.
- Extractor de relaciones incrementales:Identifica y extrae relaciones semánticamente únicas entre entidades.
- Integrador de gráficos:Visualiza las entidades y relaciones en un KG utilizando Neo4j, lo que permite una representación estructurada de datos.
Este diseño modular separa las tareas de extracción de entidades y relaciones, lo que mejora la precisión y la coherencia. Además, el uso de un paradigma de aprendizaje de cero disparos garantiza la adaptabilidad en varios dominios sin necesidad de realizar ajustes ni volver a entrenar, lo que lo convierte en una solución flexible, precisa y escalable para la construcción de KG.
iText2KG procesa documentos de forma incremental al pasarlos por sus cuatro módulos principales. En primer lugar, el Destilador de documentos El módulo reestructura el texto sin formato en bloques semánticos según un esquema flexible definido por el usuario, que se puede adaptar a distintos tipos de documentos, como artículos científicos, CV o sitios web. Estos bloques semánticos se introducen luego en el Extractor de entidades incrementalesque identifica y garantiza que cada entidad sea única al resolver posibles ambigüedades utilizando medidas de similitud como la similitud del coseno.
El Extractor de relaciones incrementales Luego, extrae las relaciones entre las entidades identificadas, aprovechando los contextos de documentos locales y globales para garantizar la precisión de las relaciones. Por último, Integrador de gráficos consolida estas entidades y relaciones en un gráfico de conocimiento visual mediante Neo4j, lo que proporciona una representación coherente y estructurada de los datos. El rendimiento del sistema se probó en una variedad de tipos de documentos, lo que demuestra su versatilidad en diferentes casos de uso sin necesidad de volver a entrenar.
iText2KG mostró un rendimiento superior en comparación con los métodos de referencia, particularmente en la coherencia del esquema, la precisión de la extracción de tripletes y la resolución de entidades/relaciones. El sistema logró una alta coherencia en la estructuración de la información de varios tipos de documentos, como artículos científicos, sitios web y CV. La precisión en la extracción de relaciones relevantes fue notablemente alta cuando se utilizaron entidades locales, lo que garantizó errores mínimos en el gráfico de conocimiento. Además, el enfoque demostró una baja tasa de descubrimientos falsos en la resolución de entidades y relaciones, particularmente con documentos estructurados como artículos científicos. En general, iText2KG demostró ser eficaz en la construcción de gráficos de conocimiento precisos y coherentes en múltiples dominios, adaptándose a diferentes tipos de datos sin la necesidad de un ajuste fino extenso o un posprocesamiento.
En conclusión, iText2KG ofrece un avance significativo en la construcción de KG al proporcionar un enfoque flexible y de cero disparos capaz de estructurar datos no estructurados en gráficos de conocimiento consistentes e independientes del tema. Al modularizar las tareas de extracción de entidades y relaciones y adoptar un proceso incremental, el método supera las limitaciones clave de los enfoques tradicionales, como la dependencia de ontologías predefinidas y el posprocesamiento extenso. Con un sólido rendimiento en una variedad de tipos de documentos, iText2KG muestra un inmenso potencial para una amplia aplicación en campos que requieren conocimiento estructurado a partir de texto no estructurado, ofreciendo una solución confiable, escalable y eficiente para la construcción de KG.
Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasionan la ciencia de datos y el aprendizaje automático, y cuenta con una sólida formación académica y experiencia práctica en la resolución de desafíos reales interdisciplinarios.