Un equipo de investigadores de la Universidad de Stanford ha publicado Bobina de mediciónuna nueva suite de referencia diseñada para evaluar a los agentes del Modelo de Lengua Grande (LLM) en contextos de salud. A diferencia de los conjuntos de datos de preguntas sobre preguntas anteriores, MedagentBench proporciona un entorno de registro de salud electrónica virtual (EHR) donde los sistemas de IA deben interactuar, planificar y ejecutar tareas clínicas de varios pasos. Esto marca un cambio significativo desde la prueba del razonamiento estático a la evaluación de las capacidades de agente en Flujos de trabajo médicos en vivo basados en herramientas.
¿Por qué necesitamos puntos de referencia de agente en la atención médica?
Los LLM recientes se han visto más allá de las interacciones estáticas basadas en el chat hacia comportamiento agente—Interpretar instrucciones de alto nivel, llamar a API, integrar datos de pacientes y automatizar procesos complejos. En medicina, esta evolución podría ayudar a abordar escasez de personal, carga de documentación e ineficiencias administrativas.
Mientras que existen puntos de referencia de agentes de propósito general (por ejemplo, agente bench, agente tablero, bench tau), La atención médica carecía de un punto de referencia estandarizado Eso captura la complejidad de los datos médicos, la interoperabilidad del FHIR y los registros longitudinales de los pacientes. Medagentbench llena este vacío al ofrecer un marco de evaluación reproducible y clínicamente relevante.
¿Qué contiene Medagentbench?
¿Cómo se estructuran las tareas?
Medagentbench consiste en 300 tareas en 10 categoríasescrito por médicos con licencia. Estas tareas incluyen recuperación de información del paciente, seguimiento de resultados de laboratorio, documentación, ordenamiento de pruebas, referencias y gestión de medicamentos. Las tareas promedian 2–3 pasos y flujos de trabajo de espejo encontrados en atención hospitalaria y ambulatoria.
¿Qué datos del paciente respaldan el punto de referencia?
Los apalancamiento de referencia 100 perfiles de pacientes realistas extraído del repositorio de datos Starr de Stanford, que comprende sobre 700,000 registros incluyendo laboratorios, vitales, diagnósticos, procedimientos y órdenes de medicación. Los datos fueron desidentificados y nerviosos para la privacidad al tiempo que preservaba la validez clínica.
¿Cómo se construye el entorno?
El entorno es Fhir compatibleadmitiendo la recuperación (GET) y la modificación (POST) de los datos de EHR. Los sistemas de IA pueden simular interacciones clínicas realistas, como documentar vitales o colocar órdenes de medicamentos. Este diseño hace que el punto de referencia sea directamente traducible a los sistemas EHR en vivo.
¿Cómo se evalúan los modelos?
- Métrico: Tasa de éxito de la tarea (SR), medida con estricto Pase@1 para reflejar los requisitos de seguridad del mundo real.
- Modelos probados: 12 LLM principales que incluyen GPT-4O, Claude 3.5 Sonnet, Gemini 2.0, Deepseek-V3, Qwen2.5 y Llama 3.3.
- Orquestador del agente: Una configuración de orquestación de referencia con nueve funciones FHIR, limitadas a Ocho rondas de interacción por tarea.
¿Qué modelos funcionó mejor?
- Claude 3.5 soneto v2: Mejor en general con 69.67% de éxitoespecialmente fuerte en tareas de recuperación (85.33%).
- GPT-4O: 64.0% de éxito, que muestra la recuperación equilibrada y el rendimiento de la acción.
- Deepseek-v3: 62.67% de éxito, liderando entre modelos de peso abierto.
- Observación: La mayoría de los modelos se destacaron en tareas de consulta Pero luchó con Tareas basadas en la acción requiriendo una ejecución segura de varios pasos.
¿Qué errores cometieron los modelos?
Surgieron dos patrones de falla dominantes:
- Fallas de adhesión de instrucciones – Llamadas de API no válidas o formateo JSON incorrecto.
- Desajuste – Proporcionar oraciones completas cuando se requerían valores numéricos estructurados.
Estos errores resaltan las brechas en precisión y confiabilidadambos críticos en el despliegue clínico.
Resumen
Medagentbench establece el primer punto de referencia a gran escala para evaluar a los agentes de LLM en entornos de EHR realistas, emparejando 300 tareas de Authoricing Authicing con un entorno que cumple con el FHIR y 100 perfiles de pacientes. Los resultados muestran un fuerte potencial pero una confiabilidad limitada (Claude 3.5 Sonnet V2 lidera al 69.67%), iluminando la brecha entre el éxito de la consulta y la ejecución de acción segura. Si bien está limitado por los datos de institución única y el alcance centrado en EHR, MedAgentBench proporciona un marco abierto y reproducible para impulsar la próxima generación de agentes de IA de atención médica confiables
Mira el PAPEL y Blog técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.
