D-Rax: mejora de la precisión radiológica mediante modelos de visión y lenguaje integrados por expertos

Los VLM como LLaVA-Med han avanzado significativamente y ofrecen capacidades multimodales para el análisis de imágenes y datos biomédicos, lo que podría ayudar a los radiólogos. Sin embargo, estos modelos enfrentan desafíos, como alucinaciones e imprecisiones en las respuestas, que conducen a posibles diagnósticos erróneos. Con los departamentos de radiología experimentando mayores cargas de trabajo y los radiólogos enfrentando el agotamiento, la necesidad de herramientas para mitigar estos problemas es apremiante. Los VLM pueden ayudar a interpretar imágenes médicas y brindar respuestas en lenguaje natural, pero sus problemas de generalización y facilidad de uso obstaculizan su adopción clínica. Una herramienta especializada de “Asistente de radiología” podría abordar estas necesidades al mejorar la redacción de informes y facilitar la comunicación sobre imágenes y diagnóstico.

Investigadores del Instituto Sheikh Zayed para la Innovación en Cirugía Pediátrica, la Universidad George Washington y NVIDIA han desarrollado D-Rax, una herramienta especializada para la asistencia radiológica. D-Rax mejora el análisis de radiografías de tórax mediante la integración de IA avanzada con capacidades de respuesta visual a preguntas. Está diseñado para facilitar las interacciones en lenguaje natural con imágenes médicas, mejorando la capacidad de los radiólogos para identificar y diagnosticar afecciones con precisión. Este modelo aprovecha las predicciones de IA de expertos para entrenarse en un rico conjunto de datos, incluidos los datos de imágenes MIMIC-CXR y los resultados de diagnóstico. D-Rax tiene como objetivo agilizar la toma de decisiones, reducir los errores de diagnóstico y apoyar a los radiólogos en sus tareas diarias.

La llegada de los VLM ha hecho avanzar significativamente el desarrollo de herramientas de IA multimodales. Flamingo es un ejemplo temprano que integra el procesamiento de imágenes y texto a través de indicaciones y razonamiento multilineal. De manera similar, LLaVA combina datos visuales y textuales utilizando una arquitectura multimodal inspirada en CLIP, que vincula imágenes con texto. BioMedClip es un VLM fundamental en biomedicina para tareas como la clasificación de imágenes y la respuesta visual a preguntas. LLaVA-Med, una versión de LLaVA adaptada para aplicaciones biomédicas, ayuda a los médicos a interactuar con imágenes médicas utilizando lenguaje conversacional. Sin embargo, muchos de estos modelos enfrentan desafíos como alucinaciones e imprecisiones, lo que resalta la necesidad de herramientas especializadas en radiología.

Los métodos de este estudio implican la utilización y mejora de conjuntos de datos para entrenar un VLM específico de dominio llamado D-Rax, diseñado para radiología. El conjunto de datos de referencia comprende imágenes MIMIC-CXR y pares de preguntas y respuestas de Medical-Diff-VQA derivados de radiografías de tórax. Los datos mejorados incluyen predicciones de modelos de IA expertos para afecciones como enfermedades, datos demográficos de pacientes y vistas de rayos X. El entrenamiento de D-Rax emplea una arquitectura multimodal con el modelo de lenguaje Llama2 y un codificador visual CLIP entrenado previamente. El proceso de ajuste fino integra predicciones de expertos y datos de seguimiento de instrucciones para mejorar la precisión del modelo y reducir las alucinaciones en la interpretación de imágenes radiológicas.

Los resultados demuestran que la integración de instrucciones mejoradas por expertos mejora significativamente el desempeño de D-Rax en ciertas preguntas radiológicas. Para preguntas de anormalidad y presencia, tanto abiertas como cerradas, los modelos entrenados con datos mejorados muestran mejoras notables. Sin embargo, el desempeño sigue siendo similar entre los datos básicos y mejorados para preguntas sobre ubicación, nivel y tipo. Las evaluaciones cualitativas resaltan la capacidad de D-Rax para identificar correctamente problemas como derrame pleural y cardiomegalia. Los modelos mejorados también manejan consultas complejas mejor que los modelos expertos simples, que se limitan a preguntas sencillas. Las pruebas extendidas en un conjunto de datos más grande refuerzan estos hallazgos, lo que demuestra la solidez de las capacidades de D-Rax.

D-Rax tiene como objetivo mejorar la precisión y reducir los errores en las respuestas de los VLM a través de un enfoque de entrenamiento especializado que integra predicciones de expertos. El modelo logra resultados más precisos y similares a los humanos al incorporar conocimiento experto sobre la enfermedad, la edad, la raza y la vista en las instrucciones de análisis de radiografías de tórax. El uso de conjuntos de datos como MIMIC-CXR y Medical-Diff-VQA garantiza información específica del dominio, lo que reduce las alucinaciones y mejora la precisión de las respuestas para preguntas abiertas y cerradas. Este enfoque facilita un mejor razonamiento diagnóstico, mejora la comunicación entre los médicos, ofrece información más clara para los pacientes y tiene el potencial de elevar significativamente la calidad de la atención clínica.


Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios


Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.