Investigadores de Stanford presentan BIOMEDICA: un marco de IA escalable para avanzar en modelos biomédicos de visión y lenguaje con conjuntos de datos multimodales a gran escala

El desarrollo de VLM en el dominio biomédico enfrenta desafíos debido a la falta de conjuntos de datos multimodales a gran escala, anotados y de acceso público en diversos campos. Si bien los conjuntos de datos se han construido a partir de literatura biomédica, como PubMed, a menudo se centran estrictamente en dominios como la radiología y la patología, descuidando áreas complementarias como la biología molecular y la farmacogenómica que son fundamentales para la comprensión clínica holística. Las preocupaciones sobre la privacidad, la complejidad de las anotaciones a nivel de expertos y las limitaciones logísticas impiden aún más la creación de conjuntos de datos completos. Los enfoques anteriores, como ROCO, MEDICAT y PMC-15M, se han basado en filtrado de dominio específico y modelos supervisados ​​para extraer millones de pares de imágenes y leyendas. Sin embargo, estas estrategias a menudo no logran capturar la diversidad más amplia de conocimientos biomédicos necesarios para promover los VLM biomédicos generalistas.

Además de las limitaciones de los conjuntos de datos, la capacitación y evaluación de VLM biomédicos presentan desafíos únicos. Los enfoques de aprendizaje contrastivo, como PMC-CLIP y BiomedCLIP, se han mostrado prometedores al aprovechar conjuntos de datos basados ​​en literatura y modelos de transformadores de visión para la alineación de imagen y texto. Sin embargo, su rendimiento está limitado por conjuntos de datos más pequeños y recursos computacionales limitados en comparación con los VLM generales. Además, los protocolos de evaluación actuales, centrados principalmente en tareas de radiología y patología, carecen de estandarización y de una aplicabilidad más amplia. La dependencia de parámetros adicionales que se pueden aprender y conjuntos de datos limitados socava la confiabilidad de estas evaluaciones, lo que destaca la necesidad de conjuntos de datos escalables y marcos de evaluación sólidos que puedan abordar las diversas demandas de las aplicaciones biomédicas de visión y lenguaje.

Investigadores de la Universidad de Stanford presentaron BIOMEDICA, un marco de código abierto diseñado para extraer, anotar y organizar todo el subconjunto de PubMed Central Open Access en un conjunto de datos fácil de usar. Este archivo incluye más de 24 millones de pares de imagen y texto de 6 millones de artículos enriquecidos con metadatos y anotaciones de expertos. También lanzaron BMCA-CLIP, un conjunto de modelos estilo CLIP previamente entrenados en BIOMEDICA vía streaming, eliminando la necesidad de almacenamiento local de 27 TB de datos. Estos modelos logran un rendimiento de vanguardia en 40 tareas, incluidas radiología, dermatología y biología molecular, con una mejora promedio del 6,56 % en la clasificación de disparo cero y requisitos computacionales reducidos.

El proceso de curación de datos de BIOMEDICA implica la extracción de conjuntos de datos, el etiquetado de conceptos y la serialización. Los artículos y archivos multimedia se descargan del servidor NCBI, extrayendo metadatos, subtítulos y referencias de figuras de archivos nXML y la API de Entrez. Las imágenes se agrupan mediante incrustaciones DINOv2 y se etiquetan mediante una taxonomía jerárquica refinada por expertos. Las etiquetas se asignan mediante votación mayoritaria y se propagan entre los grupos. El conjunto de datos, que contiene más de 24 millones de pares de imágenes y títulos y metadatos extensos, se serializa en formato WebDataset para una transmisión eficiente. Con 12 conceptos de imágenes globales y 170 locales, la taxonomía cubre categorías como imágenes clínicas, microscopía y visualizaciones de datos, enfatizando la escalabilidad y la accesibilidad.

La evaluación del entrenamiento previo continuo en el conjunto de datos de BIOMEDICA utilizó 39 tareas de clasificación biomédica establecidas y un nuevo conjunto de datos de recuperación de Flickr, que abarca 40 conjuntos de datos. El punto de referencia de clasificación incluye tareas de patología, radiología, biología, cirugía, dermatología y oftalmología. Se emplearon métricas como la precisión promedio para la clasificación y la recuperación (en 1, 10 y 100). El filtrado de conceptos, que excluye temas sobrerrepresentados, funcionó mejor que el equilibrio de conceptos o el entrenamiento previo del conjunto de datos completo. Los modelos entrenados en BIOMEDICA lograron resultados de última generación, superando significativamente a los métodos anteriores, con un rendimiento mejorado en las tareas de clasificación, recuperación y microscopía utilizando menos datos y cálculos.

En conclusión, BIOMEDICA es un marco integral que transforma el subconjunto PubMed Central Open Access (PMC-OA) en el mayor conjunto de datos listo para aprendizaje profundo, con 24 millones de pares de imágenes y leyendas enriquecidos con 27 campos de metadatos. Diseñado para abordar la falta de conjuntos de datos biomédicos diversos y anotados, BIOMEDICA proporciona una solución escalable de código abierto para extraer y anotar datos multimodales de más de 6 millones de artículos. A través del entrenamiento previo continuo de modelos de estilo CLIP utilizando BIOMEDICA, el marco logra una clasificación de disparo cero y una recuperación de imágenes y texto de última generación en 40 tareas biomédicas, lo que requiere 10 veces menos computación y 2,5 veces menos datos. Todos los recursos, incluidos modelos, conjuntos de datos y códigos, están disponibles públicamente.


Verificar el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 Recomendar plataforma de código abierto: Parlant es un marco que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.