Google Research ha ampliado su programa Health AI Developer Foundations (HAI-DEF) con el lanzamiento de MedGemma-1.5. El modelo se lanza como punto de partida abierto para los desarrolladores que quieran crear sistemas de imágenes médicas, texto y voz y luego adaptarlos a los flujos de trabajo y las regulaciones locales.
MedGemma 1.5, pequeño modelo multimodal para datos clínicos reales
MedGemma es una familia de modelos generativos médicos construidos sobre Gemma. La nueva versión, MedGemma-1.5-4B, está dirigida a desarrolladores que necesitan un modelo compacto que aún pueda manejar datos clínicos reales. El modelo anterior MedGemma-1-27B sigue estando disponible para casos de uso con mucho texto más exigentes.
MedGemma-1.5-4B es multimodal. Acepta texto, imágenes bidimensionales, volúmenes de grandes dimensiones e imágenes de patología en diapositivas completas. El modelo es parte del programa Health AI Developer Foundations, por lo que está pensado como una base para realizar ajustes, no como un dispositivo de diagnóstico listo para usar.
Soporte para CT, MRI y patología de alta dimensión
Un cambio importante en MedGemma-1.5 es la compatibilidad con imágenes de alta dimensión. El modelo puede procesar volúmenes tridimensionales de CT y MRI como conjuntos de cortes junto con un mensaje en lenguaje natural. También puede procesar portaobjetos de histopatología de gran tamaño trabajando sobre parches extraídos del portaobjetos.
En los puntos de referencia internos, MedGemma-1.5 mejora los hallazgos de la TC relacionados con la enfermedad de un 58 % a un 61 % de precisión y los hallazgos de la enfermedad de MRI de un 51 % a un 65 % de precisión cuando se promedian los hallazgos. Para histopatología, la puntuación ROUGE L en casos de portaobjetos individuales aumenta de 0,02 a 0,49. Esto coincide con la puntuación ROUGE L de 0,498 del modelo PolyPath específico de la tarea.
Puntos de referencia de extracción de informes y imágenes
MedGemma-1.5 también mejora varios puntos de referencia que se acercan más a los flujos de trabajo de producción.
En el punto de referencia Chest ImaGenome para localización anatómica en radiografías de tórax, mejora la intersección sobre la unión del 3 % al 38 %. En el punto de referencia MS-CXR-T para la comparación de radiografías longitudinales de tórax, la precisión macrométrica aumenta del 61% al 66%.
En los puntos de referencia internos de una sola imagen que cubren radiografía de tórax, dermatología, histopatología y oftalmología, la precisión promedio va del 59 % al 62 %. Estas son tareas simples de una sola imagen, útiles como comprobaciones de cordura durante la adaptación del dominio.
MedGemma-1.5 también apunta a la extracción de documentos. En los informes de laboratorio médico, el modelo mejora la macro F1 del 60 % al 78 % al extraer el tipo, el valor y las unidades del laboratorio. Para los desarrolladores, esto significa menos análisis basado en reglas personalizadas para informes de texto o PDF semiestructurados.
Las aplicaciones implementadas en Google Cloud ahora pueden funcionar directamente con DICOM, que es el formato de archivo estándar utilizado en radiología. Esto elimina la necesidad de un preprocesador personalizado para muchos sistemas hospitalarios.
Razonamiento de textos médicos con MedQA y EHRQA
MedGemma-1.5 no es sólo un modelo de imágenes. También mejora el rendimiento básico en tareas de textos médicos.
En MedQA, un punto de referencia de opción múltiple para responder preguntas médicas, el modelo 4B mejora la precisión del 64% al 69% en relación con el MedGemma-1 anterior. En EHRQA, un punto de referencia de respuesta a preguntas de registros médicos electrónicos basado en texto, la precisión aumenta del 68 % al 90 %.
Estos números son importantes si planea utilizar MedGemma-1.5 como columna vertebral para herramientas como el resumen de gráficos, la base de directrices o la recuperación de generación aumentada de notas clínicas. El tamaño 4B mantiene el ajuste fino y el costo de servicio a un nivel práctico.
MedASR, un modelo de reconocimiento de voz adaptado al dominio
Los flujos de trabajo clínicos contienen una gran cantidad de discurso dictado. MedASR es el nuevo modelo médico de reconocimiento de voz automatizado lanzado junto con MedGemma-1.5.
MedASR utiliza una arquitectura basada en Conformer que está previamente entrenada y ajustada para audio clínico. Se centra en tareas como el dictado de radiografías de tórax, informes radiológicos y notas médicas generales. El modelo está disponible a través del mismo canal Health AI Developer Foundations en Vertex AI y Hugging Face.
En evaluaciones con Whisper-large-v3, un modelo ASR general, MedASR reduce la tasa de error de palabras para el dictado de radiografías de tórax del 12,5% al 5,2%. Esto corresponde a un 58% menos de errores de transcripción. En un punto de referencia de dictado médico interno más amplio, MedASR alcanza una tasa de error de palabras del 5,2%, mientras que Whisper-large-v3 tiene un 28,2%, lo que corresponde a un 82% menos de errores.
Conclusiones clave
MedGemma-1.5-4B es un modelo médico multimodal compacto que maneja texto, imágenes 2D, volúmenes de CT y MRI 3D y patología de diapositivas completa, lanzado como parte del programa Health AI Developer Foundations para la adaptación a casos de uso locales. En los puntos de referencia de imágenes, MedGemma-1.5 mejora los hallazgos de enfermedades por tomografía computarizada del 58 % al 61 %, los hallazgos de enfermedades por resonancia magnética del 51 % al 65 % y el ROUGE-L de histopatología de 0,02 a 0,49, igualando el rendimiento del modelo PolyPath. Para tareas de estilo clínico posteriores, MedGemma-1.5 aumenta la intersección del ImaGenoma del tórax sobre la unión del 3 % al 38 %, la precisión macro de MS-CXR-T del 61 % al 66 % y la macro F1 de extracción de informes de laboratorio del 60 % al 78 % mientras se mantiene el tamaño del modelo en los parámetros 4B. MedGemma-1.5 también fortalece el razonamiento textual, aumentando la precisión de MedQA del 64 % al 69 % y la precisión de EHRQA del 68 % al 90 %, lo que lo hace adecuado como columna vertebral para el resumen de gráficos y los sistemas de respuesta a preguntas de EHR. MedASR, un modelo ASR médico basado en Conformer en el mismo programa, reduce la tasa de error de palabras en el dictado de rayos X de tórax del 12,5 % al 5,2 % y en un punto de referencia de dictado médico amplio del 28,2 % al 5,2 % en comparación con Whisper-large-v3, proporcionando una interfaz de voz optimizada para el dominio para flujos de trabajo centrados en MedGemma.
Consulte los pesos del modelo y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.