La extracción automática de información de las notas radiológicas presenta importantes desafíos en el campo de la informática médica. Los investigadores están tratando de desarrollar sistemas que puedan extraer e interpretar con precisión datos médicos complejos de los informes radiológicos, centrándose especialmente en el seguimiento de la progresión de la enfermedad a lo largo del tiempo. El principal desafío radica en la disponibilidad limitada de datos etiquetados adecuadamente que puedan capturar la información matizada contenida en estos informes. Las metodologías actuales a menudo tienen dificultades para representar los aspectos temporales de las condiciones del paciente, especialmente cuando se trata de comparaciones con exámenes anteriores, que son cruciales para comprender la trayectoria de atención médica de un paciente.
Para superar las limitaciones en la captura de cambios temporales en los informes de radiología, los investigadores han desarrollado Gráfico radial 2un esquema jerárquico mejorado para entidades y relaciones. Este nuevo enfoque se basa en el esquema RadGraph original, ampliando sus capacidades para representar varios tipos de cambios observados en las condiciones del paciente a lo largo del tiempo. RadGraph2 se desarrolló a través de un proceso iterativo, que implicó la retroalimentación continua de los médicos para garantizar su cobertura, fidelidad y confiabilidad. El esquema mantiene los principios de diseño originales de maximizar la información clínicamente relevante y, al mismo tiempo, preservar la simplicidad para un etiquetado eficiente. Este método permite la captura de información detallada sobre los hallazgos y los cambios descritos en los informes de radiología, centrándose particularmente en las comparaciones con exámenes anteriores.
El método RadGraph2 emplea un modelo de extracción de información de gráficos jerárquicos (HGIE) para anotar automáticamente los informes de radiología. Este enfoque utiliza la organización estructurada de etiquetas para mejorar el rendimiento de la extracción de información. El núcleo del sistema es un componente de reconocimiento jerárquico (HR) que utiliza una taxonomía de entidades, que reconoce las relaciones inherentes entre las distintas entidades utilizadas en el etiquetado de gráficos. Por ejemplo, las entidades como CHAN-CON-WOR y CHAN-CON-AP se clasifican según los cambios en las condiciones del paciente. El sistema HR utiliza un modelo basado en BERT como columna vertebral, que extrae 12 resultados escalares correspondientes a las categorías de entidades. Estos resultados representan probabilidades condicionales de que las entidades sean verdaderas, dada la veracidad de su padre en la jerarquía de entidades.
El esquema de información de RadGraph2 define tres tipos de entidades principales: “anatomía”, “observación” y “cambio”, junto con tres tipos de relación: “modificar”, “ubicado en” y “sugestivo de”. Los tipos de entidad se dividen a su vez en subtipos, formando una estructura jerárquica. Las entidades de cambio (CHAN) son una incorporación clave al esquema original de RadGraph, que abarca subtipos como Sin cambio (CHAN-NC), Cambio en la condición médica (CHAN-CON) y Cambio en dispositivos médicos (CHAN-DEV). Cada uno de estos subtipos se clasifica a su vez para capturar aspectos específicos del cambio, como la apariencia, el empeoramiento, la mejora o la resolución de la condición. Las entidades de anatomía (ANAT) y las entidades de observación (OBS) se conservan del esquema original, y las OBS se dividen a su vez en subtipos definitivamente presente, incierto y ausente. Esta estructura jerárquica permite una representación más matizada de la información contenida en los informes de radiología, enfatizando particularmente los aspectos temporales y los cambios en las condiciones del paciente.
El esquema de RadGraph2 define tres tipos de relaciones como bordes dirigidos entre entidades:
1. Modificar relaciones (modificar):
• Indicar que la primera entidad modifica a la segunda entidad
• Conectar tipos de entidad: (OBS-*, OBS-*), (ANAT-DP, ANAT-DP), (CHAN-*, *) y (OBS-*, CHAN-*)
• Ejemplo: “derecho” → “pulmón” en “pulmón derecho”
2. Ubicado en relaciones (ubicado_en):
• Conectar entidades anatómicas y de observación.
• Indicar que la observación está relacionada con la anatomía.
• Conectar tipos de entidades: (OBS-*, ANAT-DP)
• Ejemplo: “clear” → “lungs” en “lungs are clear”
3. Sugerente de relaciones (suggestive_of):
• Indicar que el estado de la segunda entidad se deriva de la primera entidad
• Conectar tipos de entidad: (OBS-*, OBS-*), (CHAN-*, OBS-*) y (OBS-*, CHAN-*)
• Ejemplo: “opacidad” → “neumonía” en “La opacidad puede indicar neumonía”
Estas relaciones permiten a RadGraph2 capturar las relaciones complejas entre diferentes entidades en los informes de radiología, incluidas las modificaciones, las asociaciones anatómicas y las inferencias diagnósticas. La estructura relacional del esquema permite una representación más completa de la información contenida en los informes, lo que facilita una mejor comprensión de las interconexiones entre las observaciones, las estructuras anatómicas y los cambios en las condiciones del paciente.
El conjunto de datos de RadGraph2 está organizado en tres particiones principales:
1. Conjunto de entrenamiento:
• Contiene 575 informes etiquetados manualmente
• Se utiliza para el entrenamiento y la optimización de modelos.
2. Conjunto de desarrollo:
• Consta de 75 informes etiquetados manualmente
• Se utiliza para la validación de modelos y el ajuste de hiperparámetros.
3. Conjunto de prueba:
• Incluye 150 informes etiquetados manualmente
• Se utiliza para la evaluación del modelo final.
Características clave del conjunto de datos:
• Desunión de pacientes: los informes en cada partición provienen de conjuntos distintos de pacientes.
• Coherencia con RadGraph original: mantiene la ubicación del informe del conjunto de datos original
• Desidentificación: Se elimina toda la información de salud protegida en los informes.
Componente adicional del conjunto de datos:
• Más de 220 000 informes etiquetados automáticamente:
– Anotado por el modelo de mejor desempeño (HGIE)
– Proporciona un recurso a gran escala para futuras investigaciones y desarrollo de modelos.
Esta estructura de conjunto de datos garantiza un marco de evaluación sólido para RadGraph2, manteniendo la integridad de los datos y la privacidad del paciente al tiempo que ofrece un corpus sustancial para entrenar y probar modelos avanzados de extracción de información en el dominio de la radiología.
RadGraph2 publica un conjunto completo de archivos para ayudar a los investigadores y desarrolladores. El paquete de conjunto de datos incluye un archivo README.md que proporciona una breve descripción general, junto con los archivos train.json, dev.json y test.json que contienen informes etiquetados de MIMIC-CXR-JPG y CheXpert. Además, dos archivos de inferencia grandes, inference-chexpert.json e inference-mimic.json, contienen informes etiquetados por el modelo de referencia. El formato de archivo sigue una estructura similar al conjunto de datos original de RadGraph, utilizando un formato JSON con una estructura de diccionario jerárquica. Cada informe se identifica mediante una clave única y contiene metadatos como el texto completo, la división de datos, la fuente de datos y una bandera que indica si fue parte del conjunto de datos original de RadGraph. La clave «entidades» dentro del diccionario de cada informe encapsula información detallada sobre las etiquetas de entidad y relación, incluidos tokens, tipos de etiquetas, índices de tokens y relaciones con otras entidades. Este formato estructurado permite un procesamiento y análisis de datos eficiente, lo que permite a los investigadores utilizar la rica información contenida en los informes de radiología para diversas tareas de procesamiento de lenguaje natural y aplicaciones de informática médica.
RadGraph2 es un método avanzado para la extracción automática de información de los informes de radiología, que aborda los desafíos del seguimiento de la progresión de la enfermedad a lo largo del tiempo. Los aspectos clave de RadGraph2 incluyen:
1. Esquema jerárquico mejorado: basado en el RadGraph original, introduce nuevos tipos de entidades para representar diversos tipos de cambios en las condiciones del paciente.
2. Modelo de extracción de información de gráficos jerárquicos: utiliza una organización estructurada de etiquetas y un componente de reconocimiento jerárquico con una estructura principal basada en BERT.
3. Tipos de entidades integrales: incluye entidades de anatomía, observación y cambio, con otros subtipos para capturar información matizada.
4. Tipos de relación: define relaciones modify, located_at y suggestive_of para representar relaciones complejas entre entidades.
5. Estructura del conjunto de datos: incluye conjuntos de entrenamiento (575 informes), desarrollo (75 informes) y prueba (150 informes), además de más de 220 000 informes etiquetados automáticamente.
6. Formato de archivo: utiliza la estructura JSON con metadatos detallados e información de entidad para cada informe.
RadGraph2 tiene como objetivo proporcionar una representación más completa de los cambios temporales en los informes de radiología, lo que permite un mejor seguimiento de la progresión de la enfermedad y las trayectorias de atención al paciente. El conjunto de datos y el esquema ofrecen a los investigadores un marco sólido para desarrollar modelos avanzados de procesamiento del lenguaje natural en el ámbito médico.
Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios
Encuentra lo próximo Seminarios web sobre IA aquí
Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.