Cinco modelos de IA colaboran para superar los exámenes de licencia médica de EE. UU.

Un consejo de cinco sistemas de inteligencia artificial que trabajaron juntos obtuvo una puntuación más alta en el examen de licencia médica de los Estados Unidos que cualquier chatbot probado hasta la fecha, según un nuevo estudio publicado el 9 de octubre de 2025 en PLOS Digital Health.

El equipo, compuesto por múltiples instancias de GPT 4 guiadas por un algoritmo facilitador, alcanzó una precisión del 97 por ciento, 93 por ciento y 94 por ciento en preguntas alineadas con los pasos 1, 2 CK y 3 de USMLE. El resultado sugiere que una deliberación cuidadosa entre agentes de IA independientes puede superar una respuesta rápida y única de un modelo.

Los investigadores reunieron cinco copias del mismo modelo y pidieron a cada una que respondiera las mismas preguntas de opción múltiple. Cuando los agentes no estaban de acuerdo, un facilitador resumió su razonamiento y provocó una nueva ronda de discusión hasta que el grupo llegó a un consenso. En un conjunto de 325 preguntas USMLE disponibles públicamente, el consejo superó consistentemente el desempeño del modelo único y también superó la votación por mayoría simple entre los cinco agentes.

Del desacuerdo al consenso y a una mayor precisión

Los avances más sorprendentes aparecieron cuando los modelos inicialmente no estaban de acuerdo. Aproximadamente una de cada cinco preguntas requirió discusión. En esos casos, el consejo corrigió más de la mitad de los errores de la mayoría inicial, y cuando no hubo un acuerdo unánime al principio, el grupo aun así convergió en la respuesta correcta el 83 por ciento de las veces. El proceso impulsado por el facilitador fue diseñado para recompensar las explicaciones, no solo las elecciones, lo que puede haber reducido la coincidencia superficial de patrones y obligado a cada agente a justificar su elección.

El autor principal, Yahya Shaikh, sostiene que lo importante es la colaboración, no la uniformidad. Enmarca la variabilidad entre modelos como una señal útil que puede extraerse para obtener mejores respuestas, en lugar de un defecto que debe suprimirse.

“En cambio, aceptar la variabilidad a través del trabajo en equipo podría desbloquear nuevas posibilidades para la IA en la medicina y más allá”.

El estudio también señala un límite práctico. El consejo nunca llegó a un consenso correcto cuando todos los miembros comenzaron con respuestas incorrectas. En otras palabras, el proceso puede amplificar la señal cuando al menos un agente tiene razón, pero no evoca la corrección de la nada. Esta advertencia refleja el comportamiento conjunto en otros ámbitos, donde agregar votantes diversos pero competentes generalmente ayuda, y agregar votantes uniformemente débiles no.

Puntuaciones impresionantes, limitaciones importantes.

A pesar de los resultados principales, los autores son cuidadosos con el alcance. El punto de referencia consistió en elementos USMLE de solo texto disponibles públicamente. No se incluyeron imágenes ni tablas. El trabajo no probó la toma de decisiones clínicas con datos de pacientes y el sistema no ha enfrentado presión de tiempo en el mundo real. Las deliberaciones pueden durar varias rondas, lo que añade un coste computacional y una latencia que pueden resultar inaceptables a pie de cama. Los autores sugieren que la paralelización podría mitigar los retrasos, pero se trata de una tarea de ingeniería futura, no de una garantía presente.

También hay preguntas sobre la generalidad. Este experimento utilizó varias instancias de una única familia de modelos. ¿Un consejo mixto, basado en modelos entrenados con diferentes datos y estrategias de alineación, tendría un mejor desempeño, peor o simplemente discutiría más tiempo? El artículo insinúa que la diversidad entre modelos podría agregar valor, pero no llega a probar esa afirmación. Del mismo modo, las ganancias del consejo sobre el GPT 4 de un solo disparo se midieron en un conjunto de preguntas específicas. La replicación en otros puntos de referencia médicos aclararía si el método funciona de manera consistente.

Aún así, para educadores y desarrolladores, el mensaje práctico es claro. Si puede permitirse tokens y segundos adicionales, pedir a varios modelos independientes que muestren su razonamiento y luego incitarlos a reconciliar las diferencias puede generar respuestas más confiables que confiar en una única respuesta segura. Ésa no es una gran teoría de la inteligencia. Es un truco operativo con beneficios mensurables en un examen difícil.

El coautor Zishan Siddiqui subraya ese objetivo, rechazando las exageraciones sobre la destreza de las pruebas en bruto en favor de mejoras en los procesos.

“En cambio, describimos un método que mejora la precisión al tratar la variabilidad de la respuesta natural de la IA como una fortaleza”.

El estudio llega en un momento en el que la IA médica está pasando de demostraciones novedosas a cuestiones de confianza, transparencia y responsabilidad. Un consejo deliberante crea transcripciones que los humanos pueden auditar, destacando dónde convergió el razonamiento y dónde tuvo problemas. Ese registro podría ser tan valioso como la respuesta final, especialmente en las aulas o en entornos de mejora de la calidad. Sin embargo, para uso clínico, los reguladores y profesionales exigirán con razón ensayos prospectivos que prueben no sólo la precisión sino también la seguridad, el costo y la equidad.

Por ahora, el éxito del consejo ofrece un recordatorio práctico. Cuando el conocimiento es complejo y la incertidumbre es alta, las segundas opiniones ayudan, incluso si provienen de máquinas. El trabajo muestra que la IA no necesita ser singular para ser fuerte. Puede ser más fuerte y más digno de confianza cuando primero discute consigo mismo.

PLOS Salud digital: 10.1371/journal.pdig.0000787

No hay muro de pago aquí

Si nuestros informes lo han informado o inspirado, considere hacer una donación. Cada contribución, sin importar el tamaño, nos permite continuar brindando noticias médicas y científicas precisas, atractivas y confiables. El periodismo independiente requiere tiempo, esfuerzo y recursos; su apoyo garantiza que podamos seguir descubriendo las historias que más le importan.

Únase a nosotros para hacer que el conocimiento sea accesible e impactante. ¡Gracias por estar con nosotros!

Cinco modelos de IA colaboran para superar los exámenes de licencia médica de EE. UU.

ByEquipo de 7 minutos

Del desacuerdo al consenso y a una mayor precisión

Puntuaciones impresionantes, limitaciones importantes.

By Equipo de 7 minutos

Related Post

¿Recuerdas los libros ‘Elige tu propia aventura’? Ahora hay una magnífica versión de novela gráfica dirigida a ‘Space and Beyond’ (exclusivo)

La odontología más antigua conocida no fue realizada por nuestra especie: ScienceAlert

Polvo de estrellas en el hielo: cómo los núcleos antárticos están trazando nuestro camino a través de la galaxia

You missed

¿Recuerdas los libros ‘Elige tu propia aventura’? Ahora hay una magnífica versión de novela gráfica dirigida a ‘Space and Beyond’ (exclusivo)

JD Vance se compara con un niño abandonado en un trastornado evento en la Casa Blanca

Blog de chismes deportivos n.° 1 en el mundo

La odontología más antigua conocida no fue realizada por nuestra especie: ScienceAlert