Microsoft AI Researchers Release Llava-Rad: un modelo de base de código abierto ligero para la generación avanzada de informes de radiología clínica

Los grandes modelos de base han demostrado un potencial notable en aplicaciones biomédicas, ofreciendo resultados prometedores en varios puntos de referencia y permitiendo una rápida adaptación a tareas aguas abajo con requisitos de datos etiquetados mínimos. Sin embargo, los desafíos significativos persisten en la implementación de estos modelos en entornos clínicos. Incluso los modelos avanzados como GPT-4V muestran brechas de rendimiento considerables en aplicaciones biomédicas multimodales. Además, las barreras prácticas, como la accesibilidad limitada, los altos costos operativos y la complejidad de los procesos de evaluación manual, crean obstáculos sustanciales para los médicos que intentan utilizar estos modelos de vanguardia con datos privados de pacientes.

Los desarrollos recientes en la IA generativa multimodal han ampliado aplicaciones biomédicas para manejar el texto y las imágenes simultáneamente, lo que muestra prometedor en tareas como la respuesta a las preguntas visuales y la generación de informes de radiología. Sin embargo, estos modelos plantean desafíos en su implementación clínica. Los requisitos de recursos de los modelos grandes plantean desafíos de implementación en los costos computacionales y el impacto ambiental. Pequeños modelos multimodales (SMM), aunque más eficientes, aún muestran brechas de rendimiento significativas en comparación con las contrapartes más grandes. Además, la falta de modelos accesibles de código abierto y métodos de evaluación confiables para la corrección objetiva, particularmente en relación con la detección de alucinación, crea barreras sustanciales para la adopción clínica.

Investigadores de Microsoft Research, la Universidad de Washington, la Universidad de Stanford, la Universidad del Sur de California, la Universidad de California Davis y la Universidad de California en San Francisco han propuesto Llava-Rad, un nuevo modelo multimodal (SMM) nuevo, junto con Chexprompt, Una métrica de puntuación automática para la corrección objetiva. El sistema se centra en las imágenes de rayos X de tórax (CXR), el examen de imágenes médicas más comunes para generar automáticamente informes de radiología de alta calidad. Llava-Rad está capacitado en un conjunto de datos de 697,435 pares de informes de imágenes de radiología de siete fuentes diversas, utilizando GPT-4 para la síntesis de informes cuando solo estaban disponibles etiquetas estructuradas. El sistema demuestra un rendimiento eficiente, que requiere solo una GPU V100 para inferencia y completar la capacitación en un día usando un clúster 8-A100.

La arquitectura de Llava-Rad representa un enfoque novedoso para los pequeños modelos multimodales (SMM), lo que alcanza un rendimiento superior a pesar de ser significativamente más pequeño que los modelos como Med-Palm M. La filosofía de diseño del modelo se centra en descomponer el proceso de entrenamiento en fases distintas: previagración unimodal y de peso transversal liviano -La aprendizaje moderno. La arquitectura utiliza un mecanismo de adaptador eficiente para tierra modalidades de no texto en el espacio de incrustación de texto. El proceso de capacitación se desarrolla en tres etapas: pretruento, alineación y ajuste fino. Este enfoque modular utiliza un conjunto de datos diverso de 697,000 imágenes de rayos X de tórax deshidratizados e informes de radiología asociados de 258,639 pacientes en siete conjuntos de datos diferentes, lo que permite un desarrollo de modelo unimodal robusto y una adaptación intermodal efectiva.

Llava-Rad muestra un rendimiento excepcional en comparación con modelos de tamaño similar (parámetros 7b) como Llava-Med, Chexagent y Maira-1. A pesar de ser sustancialmente más pequeño, supera el modelo principal Med-Palm M en métricas críticas, logrando una mejora del 12.1% en Rouge-L y 10.1% en el RADGRAPH F1 para la evaluación de texto de radiología. El modelo mantiene un rendimiento superior consistente en múltiples conjuntos de datos, incluidos CHEXPERT y Open-I, incluso cuando se prueba en datos previamente invisibles. Este rendimiento se atribuye al diseño modular de Llava-Rad y a la arquitectura de eficiencia de datos. Mientras que Med-Palm M muestra resultados marginalmente mejores (<1% de mejora) en Métricas de Chexbert F1-5, el rendimiento general y la eficiencia computacional de Llava-Rad lo hacen más práctico para las aplicaciones del mundo real.

En este documento, los investigadores introdujeron Llava-Rad, que representa un avance significativo en hacer que los modelos de base sean prácticos para entornos clínicos, ofreciendo una solución de código abierto y liviano que logra el rendimiento de vanguardia en la generación de informes de radiología. El éxito del modelo proviene de su capacitación integral en 697,000 imágenes de rayos X de tórax con informes asociados, utilizando GPT-4 para el procesamiento de conjuntos de datos e implementando un nuevo método de entrenamiento curricular de tres etapas. Además, la introducción de Chexprompt resuelve el desafío crucial de la evaluación automática, proporcionando una evaluación de precisión comparable a los radiólogos expertos. Estos desarrollos marcan un paso significativo para cerrar la brecha entre las capacidades tecnológicas y las necesidades clínicas.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco múltiple de código abierto para evaluar el complejo sistema de IA conversacional(Promocionado)


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.