Los investigadores de ETH y Stanford presentan a Miriad: un conjunto de datos de un par de 5.8m para mejorar la precisión de LLM en la IA médica

Desafíos de los LLM en la toma de decisiones médicas: abordar las alucinaciones a través de la recuperación de conocimiento

Los LLM están configurados para revolucionar la atención médica a través del apoyo de decisiones inteligente y los asistentes adaptables basados ​​en el chat. Sin embargo, un desafío importante es su tendencia a producir información médica fácticamente incorrecta. Para abordar esto, una solución común es TRAPOdonde el conocimiento médico externo se divide en piezas de texto más pequeñas que los LLM pueden recuperar y usar durante la generación. Si bien son prometedores, los métodos actuales de RAG dependen del contenido médico no estructurado que a menudo es ruidoso, sin filtrar y difícil de interpretar de manera efectiva. Existe una clara necesidad de una mejor organización y presentación del conocimiento médico para garantizar que los LLM puedan usarlo de manera más confiable y precisa.

Limitaciones de los enfoques de RAG actuales en la AI de la atención médica

Aunque los LLM se desempeñan de manera impresionante en las tareas del lenguaje general, a menudo se quedan cortos en dominios que requieren conocimientos actualizados y precisos, como la medicina. RAG ofrece una alternativa rentable al costoso ajuste fino mediante modelos de conexión a tierra en literatura externa. Sin embargo, muchos sistemas de RAG actuales se basan en integridades de texto de uso general y bases de datos vectoriales estándar, que no están optimizadas para el contenido médico. A diferencia de los dominios generales, el campo de la medicina carece de grandes conjuntos de datos de alta calidad que combinan preguntas médicas con respuestas relevantes. Los conjuntos de datos existentes, como PubMedqa o Medqa, son demasiado pequeños, demasiado estructurados (por ejemplo, opción múltiple) o carecen del tipo de respuestas abiertas y del mundo real necesarias para construir sistemas de recuperación médica fuertes.

Conjunto de datos de Miriad: estructuración de control de calidad médico con conexión a tierra revisada por pares

Investigadores de ETH Zurich, Stanford, la Clínica Mayo y otras instituciones han desarrollado Miriad, un conjunto de datos a gran escala que comprende más de 5,8 millones de pares de instrucción médica de alta calidad. Cada par se reforma cuidadosamente y se basa en la literatura revisada por pares a través de un proceso semiautomático que involucra LLM, filtros y revisión de expertos. A diferencia de los conjuntos de datos no estructurados anteriores, MiriAd ofrece conocimiento médico estructurado y recuperable, impulsando la precisión de LLM en tareas de control de control médicos complejos hasta en un 6.7% y mejorando la detección de alucinación en un 22.5–37%. También lanzaron Miriad-Atlas, una herramienta visual que abarca 56 campos médicos, lo que permite a los usuarios explorar e interactuar con este rico recurso, mejorando así la IA confiable en la atención médica.

Tubería de datos: filtrado y estructuración de literatura médica utilizando LLMS y clasificadores

Para construir Miriad, los investigadores filtraron 894,000 artículos médicos del Corpus S2ORC y los dividieron en pasajes limpios basados ​​en oraciones, excluyendo contenido demasiado largo o ruidoso. Utilizaron LLM con indicaciones estructuradas para generar más de 10 millones de pares de respuesta-respuesta, luego refinando esto a 5.8 millones a través del filtrado basado en reglas. Un clasificador personalizado, basado en etiquetas GPT-4, ayudó a reducir aún más a 4.4 millones de pares de alta calidad. Los expertos médicos humanos también validaron una muestra para la precisión, la relevancia y la base. Finalmente, crearon Miriad-Atlas, un mapa 2D interactivo del conjunto de datos, utilizando la reducción de la incrustación y la dimensionalidad al contenido relacionado con clúster por tema y disciplina.

Ganancias de rendimiento: mejora de la precisión del control de calidad y la detección de alucinación utilizando Miriad

El conjunto de datos Miriad mejora significativamente el rendimiento de los grandes modelos de idiomas en las tareas médicas. Cuando se usan en RAG, los modelos lograron una precisión hasta un 6,7% mayor en comparación con el uso de datos no estructurados, incluso con la misma cantidad de contenido recuperado. Miriad también mejoró la capacidad de los modelos para detectar alucinaciones médicas, con mejoras en el puntaje F1 que varían de 22.5% a 37%. Además, los modelos de capacitación de Retriever en Miriad dieron como resultado una mejor calidad de recuperación. La estructura del conjunto de datos, basada en la literatura verificada, permite un acceso más preciso y confiable a la información, lo que respalda una amplia gama de aplicaciones médicas posteriores.

Miriad-Atlas: exploración visual en 56 campos médicos

En conclusión, Miriad es un conjunto de datos grande y estructurado que comprende 5.8 millones de pares de preguntas médicas, basadas en literatura revisada por pares y construida para apoyar una variedad de aplicaciones médicas de IA. Incluye un Atlas interactivo para una fácil exploración e incorpora un control de calidad riguroso a través de filtros automatizados, evaluaciones de LLM y revisiones de expertos. A diferencia de los corpus no estructurados anteriores, Miriad mejora la precisión de la recuperación en la respuesta de las preguntas médicas y puede ayudar a identificar alucinaciones en los modelos de idiomas. Si bien aún no es exhaustivo, sienta una base sólida para futuros conjuntos de datos. Las mejoras continuas podrían permitir una recuperación más precisa, involucrada por el usuario y una mejor integración con herramientas clínicas y sistemas de IA médica.


Mira el Papel, Página de Github y Conjunto de datos en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.