Los modelos de idiomas grandes (LLM) se utilizan ampliamente en medicina, facilitando la toma de decisiones de diagnóstico, la clasificación de los pacientes, los informes clínicos y los flujos de trabajo de investigación médica. Aunque son extremadamente buenos en las pruebas médicas controladas, como el Examen de Licencias Médicas de los Estados Unidos (USMLE), su utilidad para los usos del mundo real aún no está bien probado. La mayoría de las evaluaciones existentes se basan en puntos de referencia sintéticos que no reflejan las complejidades de la práctica clínica. En un estudio el año pasado, encontraron que solo el 5% del análisis de LLM se basa en la información real del paciente mundial, lo que revela una enorme diferencia entre probar la usabilidad del mundo real e indica un problema profundo con la determinación de cuán confiablemente funcionan en la toma de decisiones médicas, por lo tanto, también cuestiona la seguridad y la efectividad para su uso en los entornos clínicos del mundo real.
Los métodos de evaluación de vanguardia obtienen principalmente modelos de lenguaje con conjuntos de datos sintéticos, exámenes de conocimiento estructurado y exámenes médicos formales. Aunque estos exámenes prueban el conocimiento teórico, no reflejan escenarios reales del paciente con interacciones complejas. La mayoría de las pruebas producen resultados métricos únicos, sin atención a detalles críticos, como la corrección de los hechos, la aplicabilidad clínica y la probabilidad de sesgo de respuesta. Además, los conjuntos de datos públicos ampliamente utilizados son homogéneos, comprometiendo la generalización en diferentes especialidades médicas y poblaciones de pacientes. Otro retroceso importante es que la mayoría de los modelos entrenados contra estos puntos de referencia exhiben un sobrecargado para probar paradigmas y, por lo tanto, pierden gran parte de su rendimiento en entornos de atención médica dinámicos. La falta de marcos de todo el sistema que abarca las interacciones de los pacientes del mundo real erosiona la confianza aún más para emplearlos para uso médico práctico.
Los investigadores desarrollaron Medhelm, un marco de evaluación exhaustivo diseñado para probar LLM en tareas médicas reales, evaluación multimétrica y puntos de referencia revisados por expertos para abordar estas brechas. Se basa en la evaluación holística de Stanford de los modelos de idiomas (HELM) e incorpora una evaluación sistemática en cinco áreas principales:
- Apoyo a la decisión clínica
- Generación de notas clínicas
- Comunicación y educación del paciente
- Asistencia de investigación médica
- Administración y flujo de trabajo
Un total de 22 subcategorías y 121 tareas médicas específicas aseguran una amplia cobertura de aplicaciones críticas de salud. En comparación con los estándares anteriores, MedHelm emplea datos clínicos reales, evalúa los modelos tanto por tareas estructuradas como abiertas, y aplica paradigmas de puntuación de múltiples aspectos. La cobertura holística lo hace mejor capaz de no solo medir el recuerdo del conocimiento sino también de la aplicabilidad clínica, la precisión de razonamiento y la utilidad práctica general de todos los días.
Una extensa infraestructura del conjunto de datos respalda el proceso de evaluación comparativa, que comprende un total de 31 conjuntos de datos. Esta colección incluye 11 conjuntos de datos médicos recientemente desarrollados junto con 20 que se han obtenido de los registros clínicos preexistentes. Los conjuntos de datos abarcan varios dominios médicos, lo que garantiza que las evaluaciones representan con precisión los desafíos de salud del mundo real en lugar de escenarios de pruebas artificiales.
La conversión de conjuntos de datos en referencias estandarizadas es un proceso sistemático, que implica:
- Definición de contexto: el segmento de datos específico El modelo debe analizar (por ejemplo, notas clínicas).
- Estrategia de solicitación: un comportamiento del modelo de dirección de instrucción predefinida (por ejemplo, “determinar la puntuación ha llenado del paciente”).
- Respuesta de referencia: una salida clínicamente validada para la comparación (por ejemplo, etiquetas de clasificación, valores numéricos o diagnósticos basados en texto).
- Métricas de puntuación: una combinación de coincidencia exacta, precisión de clasificación, Bleu, Rouge y Bertscore para evaluaciones de similitud de texto.
Un ejemplo de este enfoque es en MedCalc-Bench, que prueba qué tan bien un modelo puede ejecutar cálculos numéricos clínicamente significativos. Cada entrada de datos contiene el historial clínico de un paciente, una pregunta de diagnóstico y una solución verificada por un experto, lo que permite una prueba rigurosa de razonamiento médico y precisión.
Las evaluaciones realizadas en seis LLM de diferentes tamaños revelaron distintas fortalezas y debilidades basadas en la complejidad de la tarea. Modelos grandes como GPT-4O y Gemini 1.5 Pro se desempeñaron bien en el razonamiento médico y las tareas computacionales y mostraron una mayor precisión en tareas como la estimación del riesgo clínico y la identificación de sesgos. Los modelos medianos como Llama-3.3-70B-Instructo se desempeñaron competitivamente en tareas de atención médica predictiva como la predicción del riesgo de reingreso hospitalario. Los modelos pequeños como la instrucción PHI-3.5 mini y QWEN-2.5-7B-Instructo les fue mal en las pruebas de conocimiento intensivas en dominio, especialmente en el asesoramiento de salud mental y el diagnóstico médico avanzado.
Además de la precisión, el cumplimiento de la respuesta a las preguntas estructuradas también fue variada. Algunos modelos no responderían preguntas médicamente sensibles o no responderían en el formato deseado, a expensas de su rendimiento general. La prueba también descubrió las deficiencias en las métricas automatizadas actuales, ya que los mecanismos de puntuación de PNL convencionales tendían a ignorar la precisión clínica real. En la mayoría de los puntos de referencia, la disparidad de rendimiento entre los modelos se mantuvo insignificante al emplear Bertscore-F1 como métrica, lo que indica que los procedimientos de evaluación automatizados actuales podrían no capturar completamente la usabilidad clínica. Los resultados enfatizan la necesidad de procedimientos de evaluación más estrictos que incorporan la puntuación basada en hechos y la retroalimentación clínica inequívoca para garantizar una mayor confiabilidad en la evaluación.
Con el advenimiento de un marco de evaluación multimétrico clínicamente guiado, Medhelm ofrece un método holístico y confiable para evaluar modelos de lenguaje en el dominio de la salud. Su metodología garantiza que los LLM se evaluarán en tareas clínicas reales, pruebas de razonamiento organizadas y conjuntos de datos variados, en lugar de pruebas artificiales o puntos de referencia truncados. Sus principales contribuciones son:
- Una taxonomía estructurada de 121 tareas médicas del mundo real, mejorando el alcance de la evaluación de IA en entornos clínicos.
- El uso de datos reales del paciente para mejorar las evaluaciones de modelos más allá de las pruebas de conocimiento teórico.
- Evaluación rigurosa de seis LLM de última generación, identificando fortalezas y áreas que requieren mejoras.
- Una llamada para mejorar las metodologías de evaluación, enfatizando la puntuación basada en hechos, los ajustes de dominabilidad y la validación directa del clínico.
Los esfuerzos de investigación posteriores se concentrarán en la mejora de Medhelm mediante la introducción de conjuntos de datos más especializados, simplificando los procesos de evaluación e implementando comentarios directos de los profesionales de la salud. Superando limitaciones significativas en la evaluación de inteligencia artificial, este marco establece una base sólida para la integración segura, efectiva y clínicamente relevante de modelos de idiomas grandes en sistemas de salud contemporáneos.
Verificar el Tabla de clasificación completa, Detalles y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Aswin AK es un pasante de consultoría en MarktechPost. Está persiguiendo su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.