A pesar del avance de la inteligencia artificial en el campo de la ciencia médica, estos sistemas tienen una aplicación limitada. Esta limitación crea una brecha en el desarrollo de soluciones de IA para tareas específicas. Investigadores de la Escuela de Medicina de Harvard, EE.UU.; Instituto Jawaharlal de Investigación y Educación Médica de Postgrado, India; y el Scripps Research Translational Institute, de EE. UU., propusieron MedVersa para abordar los desafíos de los sistemas de inteligencia artificial médica, que obstaculizan su adopción generalizada en la práctica clínica. El enfoque de tareas específicas de los modelos existentes es la cuestión clave que provoca su incapacidad para adaptarse a las diversas y complejas necesidades de los entornos sanitarios. MedVersa, un estudiante generalista capaz de interpretar imágenes médicas multifacéticas, tiene como objetivo resolver estos desafíos.
Los sistemas médicos de IA actuales están diseñados predominantemente para tareas específicas, como identificar patologías torácicas o clasificar enfermedades de la piel. Sin embargo, estos enfoques de tareas específicas limitan su adaptabilidad y usabilidad en escenarios clínicos del mundo real. Por el contrario, MedVersa, la solución propuesta, es un alumno generalista que aprovecha un modelo de lenguaje grande como un orquestador que se puede aprender. La arquitectura única de MedVersa le permite aprender de la supervisión visual y lingüística, admitiendo entradas multimodales y especificación de tareas en tiempo real. A diferencia de los modelos anteriores de IA médica generalista que se centran únicamente en la supervisión del lenguaje natural, MedVersa integra capacidades centradas en la visión, lo que le permite realizar tareas como la detección y segmentación cruciales para la interpretación de imágenes médicas.
El método de MedVersa implica tres componentes clave: el coordinador de entrada multimodal, el orquestador de aprendizaje basado en modelos de lenguaje grande y varios módulos de visión que se pueden aprender. El coordinador de entrada multimodal procesa entradas visuales y textuales, mientras que el modelo de lenguaje grande organiza la ejecución de tareas utilizando módulos de lenguaje y visión. Esta arquitectura permite a MedVersa sobresalir tanto en tareas de visión y lenguaje, como generar informes de radiología, como en desafíos centrados en la visión, incluida la detección de estructuras anatómicas y la segmentación de imágenes médicas. Para entrenar el modelo, los investigadores combinaron más de 10 conjuntos de datos médicos disponibles públicamente para diversas tareas, como MIMIC-CXR, Chest ImaGenome y Medical-Diff-VQA, en un conjunto de datos multimodal, MedInterp.
MedVersa emplea una coordinación de entrada multimodal avanzada utilizando codificadores de visión distintos y un orquestador optimizado para tareas médicas. Para los codificadores de visión 2D y 3D, los investigadores utilizaron la versión base del Swin Transformer previamente entrenado en ImageNet y la arquitectura del codificador de 3D UNet, respectivamente. Recortaron entre el 50% y el 100% de las imágenes originales, las redimensionaron a 224 x 224 píxeles con tres canales y aplicaron además varios aumentos para tareas específicas. Además, el sistema implementa dos proyectores lineales distintos para datos 2D y 3D. MedVersa utiliza la estrategia de Adaptación de bajo rango (LoRA) para capacitar al orquestador. LoRA utiliza la idea de descomposición de matrices de bajo rango para lograr la proximidad a una matriz de gran peso en las capas de la red neuronal. Al establecer los valores de rango y alfa de LoRA en 16, el método garantiza un entrenamiento eficiente y modifica solo una fracción de los parámetros del modelo.
MedVersa supera la tecnología de punta existente en múltiples tareas, en áreas como la generación de informes radiológicos y la clasificación de patologías torácicas. La capacidad de MedVersa para adaptarse a especificaciones de tareas improvisadas, así como su desempeño consistente en cohortes externas, indican su solidez y generalización. MedVersa demuestra un rendimiento superior sobre DAM en la clasificación de patología torácica, con una puntuación F1 promedio de 0,615, notablemente superior a la de 0,580 de DAM. Para las tareas de detección, MedVersa supera a YOLOv5 en la detección de una variedad de estructuras anatómicas, con la mayoría de las puntuaciones de IoU en ciertas estructuras, especialmente en la detección de zonas pulmonares. Al incorporar el entrenamiento centrado en la visión junto con el entrenamiento de visión y lenguaje, el modelo logró una mejora promedio del 4,1 % en comparación con los modelos entrenados únicamente con datos de visión y lenguaje.
En conclusión, el estudio presenta un modelo de IA médica generalista (GMAI) de última generación para admitir entradas y salidas multimodales y la especificación de tareas sobre la marcha. Al integrar la supervisión visual y lingüística en sus procesos de aprendizaje, MedVersa demuestra un desempeño superior en una amplia gama de tareas y modalidades. Su adaptabilidad y versatilidad lo convierten en un recurso importante en la IA médica, allanando el camino para una toma de decisiones clínicas asistida por IA más exhaustiva y eficiente.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA
Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.