Operai emite HealthBench: un punto de referencia de código abierto para medir el rendimiento y la seguridad de los modelos de idiomas grandes en la atención médica

Operai ha lanzado Banco de saludun marco de evaluación de código abierto diseñado para medir el rendimiento y la seguridad de los modelos de idiomas grandes (LLM) en escenarios de atención médica realistas. Desarrollado en colaboración con 262 médicos en 60 países y 26 especialidades médicas, HealthBench aborda las limitaciones de los puntos de referencia existentes al centrarse en la aplicabilidad del mundo real, la validación de expertos y la cobertura de diagnóstico.

Abordar las brechas de evaluación comparativa en la AI de la atención médica

Los puntos de referencia existentes para la AI de atención médica generalmente dependen de formatos estrechos y estructurados, como exámenes de opción múltiple. Si bien es útil para las evaluaciones iniciales, estos formatos no pueden capturar la complejidad y el matiz de las interacciones clínicas del mundo real. HealthBench cambia hacia un paradigma de evaluación más representativo, incorporando 5,000 conversaciones múltiples de giro entre modelos y usuarios laicos o profesionales de la salud. Cada conversación termina con un mensaje de usuario, y las respuestas del modelo se evalúan utilizando Rúbricas específicas de ejemplo escrito por médicos.

Cada rúbrica consiste en criterios claramente definidos, positivos y negativos, con valores de puntos asociados. Estos criterios capturan atributos de comportamiento, como precisión clínica, claridad de comunicación, integridad y adherencia a la instrucción. HealthBench evalúa sobre 48,000 criterios únicoscon la puntuación manejada por un calificador basado en modelo validado contra el juicio de expertos.

Estructura y diseño de referencia

HealthBench organiza su evaluación en siete temas clave: referencias de emergencia, salud global, tareas de datos de salud, búsqueda de contexto, comunicación con experiencia en experiencia, profundidad de respuesta y respuesta bajo incertidumbre. Cada tema representa un desafío distinto del mundo real en la toma de decisiones médicas y la interacción del usuario.

Además del punto de referencia estándar, OpenAI presenta dos variantes:

  • Consenso de HealthBench: Un subconjunto que enfatiza 34 criterios validados para el médico, diseñados para reflejar aspectos críticos del comportamiento modelo, como asesorar la atención de emergencia o buscar un contexto adicional.
  • Healthbench duro: Un subconjunto más difícil de 1,000 conversaciones seleccionadas por su capacidad para desafiar los modelos fronterizos actuales.

Estos componentes permiten una estratificación detallada del comportamiento del modelo por el tipo de conversación y el eje de evaluación, ofreciendo más información granular sobre las capacidades y las deficiencias del modelo.

Evaluación del rendimiento del modelo

Operai evaluó varios modelos en HealthBench, incluidos GPT-3.5 Turbo, GPT-4O, GPT-4.1 y el modelo O3 más nuevo. Los resultados muestran un progreso marcado: GPT-3.5 logró el 16%, GPT-4O alcanzó el 32%y el O3 alcanzó el 60%en general. Notablemente, GPT-4.1 Nanoun modelo más pequeño y rentable, superó a GPT-4O, al tiempo que reduce el costo de inferencia en un factor de 25.

El rendimiento varió según el tema y el eje de evaluación. Las referencias de emergencia y la comunicación personalizada eran áreas de fuerza relativa, mientras que la búsqueda de contexto y la integridad planteaban mayores desafíos. Un desglose detallado reveló que la integridad era la más correlacionada con la puntuación general, lo que subraya su importancia en las tareas relacionadas con la salud.

OpenAI también comparó las salidas modelo con respuestas escritas médicas. Los médicos no asistidos generalmente produjeron respuestas de menor puntaje que los modelos, aunque podrían mejorar los borradores generados por el modelo, particularmente cuando trabajan con versiones modelo anteriores. Estos hallazgos sugieren un papel potencial para los LLM como herramientas de colaboración en la documentación clínica y el apoyo a la decisión.

Confiabilidad y metaevaluación

HealthBench incluye mecanismos para evaluar la consistencia del modelo. La métrica “peor a K” cuantifica la degradación en el rendimiento en múltiples ejecuciones. Si bien los modelos más nuevos mostraron una mejor estabilidad, la variabilidad sigue siendo un área para la investigación en curso.

Para evaluar la confiabilidad de su calificador automatizado, OpenAI realizó una meta-evaluación utilizando más de 60,000 ejemplos anotados. GPT-4.1, utilizado como el alumno predeterminado, coincidió o excedió el rendimiento promedio de los médicos individuales en la mayoría de los temas, lo que sugiere su utilidad como un evaluador consistente.

Conclusión

HealthBench representa un marco técnicamente riguroso y escalable para evaluar el rendimiento del modelo de IA en contextos de salud complejos. Al combinar interacciones realistas, rúbricas detalladas y validación de expertos, ofrece una imagen más matizada del comportamiento del modelo que las alternativas existentes. Operai ha lanzado HealthBench a través del Repositorio de Github de Evals Simple-Evalsproporcionar a los investigadores herramientas para comparar, analizar y mejorar los modelos destinados a aplicaciones relacionadas con la salud.


Mira el Papel, Page Page de Github y Lanzamiento oficial. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.