Revelando el panorama del diagnóstico: evaluación de la IA y el desempeño humano en la larga cola de enfermedades raras

Utilizando una gran cantidad de datos etiquetados, los algoritmos de aprendizaje automático supervisados han superado a los expertos humanos en diversas tareas, lo que genera preocupaciones sobre el desplazamiento laboral, particularmente en radiología de diagnóstico. Sin embargo, algunos sostienen que es poco probable que se produzca un desplazamiento laboral a corto plazo, ya que muchos empleos implican una variedad de tareas que van más allá de la mera predicción. Los seres humanos pueden seguir siendo esenciales en las tareas de predicción, ya que pueden aprender de menos ejemplos. En radiología, la experiencia humana es crucial para reconocer enfermedades raras. De manera similar, los automóviles autónomos enfrentan desafíos con escenarios poco comunes, que los humanos pueden manejar utilizando un conocimiento más amplio que va más allá de los datos específicos de la conducción.

Investigadores del MIT y la Facultad de Medicina de Harvard investigaron si los algoritmos de aprendizaje de disparo cero reducen la ventaja diagnóstica de los radiólogos humanos para enfermedades raras. Compararon el rendimiento de CheXzero, un algoritmo de disparo cero para radiografías de tórax, con el de radiólogos humanos y CheXpert, un algoritmo supervisado tradicional. CheXzero, capacitado con el conjunto de datos MIMIC-CXR, predice múltiples patologías mediante aprendizaje contrastivo, mientras que CheXpert, capacitado con radiografías de Stanford, diagnostica doce patologías con etiquetas explícitas. Se recopilaron datos de 227 radiólogos que evaluaron 324 casos de Stanford, excluyendo los casos de datos de entrenamiento, para evaluar la variación del desempeño con la prevalencia de la enfermedad.

El desempeño de la IA y del radiólogo se compara mediante la estadística de concordancia (C), una extensión de AUROC para entornos continuos. La concordancia, Crt, mide la proporción de pares concordantes, calculada por separado para cada radiólogo y patología, y luego promediada para obtener Ct. La concordancia de AI se denota como CAt. La concordancia se elige por su invariancia con la prevalencia y la falta de dependencia de preferencias, lo que la hace adecuada incluso cuando ningún caso tiene una alta probabilidad de consenso. A pesar de ser una medida ordinal, sigue siendo informativa. Otra métrica de desempeño, la desviación de la probabilidad de consenso, es menos efectiva para patologías de baja prevalencia, lo que influye en algunas conclusiones.

El rendimiento de clasificación de los radiólogos humanos se compara con los algoritmos CheXzero y CheXpert. La prevalencia media de patologías es baja, en torno al 2,42%, superando algunas el 15%. Los radiólogos tienen una concordancia promedio de 0,58, inferior a la de ambos algoritmos de IA, y CheXpert supera ligeramente a CheXzero. Sin embargo, las predicciones de CheXpert cubren sólo 12 patologías, mientras que CheXzero cubre 79. Los desempeños humanos y CheXzero están débilmente correlacionados, lo que indica diferentes puntos focales en el análisis de rayos X. El rendimiento de CheXzero varía ampliamente, con una concordancia que oscila entre 0,45 y 0,94, en comparación con el rango más estrecho de 0,52 a 0,72 para los radiólogos humanos.

El estudio ilustra la importancia de la cola larga en la prevalencia de patologías, revelando que las patologías más relevantes no están cubiertas por el algoritmo de aprendizaje supervisado estudiado. Si bien el rendimiento tanto humano como de la IA mejora con la prevalencia de la patología, CheXpert muestra una mejora sustancial en los casos de mayor prevalencia. El desempeño de CheXzero se ve menos afectado por la prevalencia, superando consistentemente a los humanos en todos los niveles de prevalencia. En particular, CheXzero supera a los humanos incluso en patologías de baja prevalencia, desafiando la noción de superioridad humana en tales casos. Sin embargo, evaluar el rendimiento algorítmico general requiere una interpretación cautelosa debido a la complejidad de convertir resultados ordinales en decisiones de diagnóstico, especialmente para patologías raras.

Los algoritmos de aprendizaje automático supervisados han demostrado superioridad en tareas específicas en comparación con los humanos. Sin embargo, los humanos todavía tienen valor debido a su habilidad para manejar casos raros, conocidos como cola larga. Los algoritmos de aprendizaje de disparo cero tienen como objetivo abordar este desafío evitando la necesidad de una gran cantidad de datos etiquetados. El estudio comparó las evaluaciones de los radiólogos con dos algoritmos líderes para diagnosticar patologías torácicas, lo que indica que los algoritmos autosupervisados cierran rápidamente la brecha o superan a los humanos en la predicción de enfermedades raras. Sin embargo, aún es necesario resolver desafíos en la implementación de algoritmos, ya que sus resultados no se traducen directamente en decisiones procesables, lo que sugiere que es más probable que complementen a los humanos en lugar de reemplazarlos.

Más modalidades.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Revelando el panorama del diagnóstico: evaluación de la IA y el desempeño humano en la larga cola de enfermedades raras

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Prime Intellect lanza Verifiers v1: conjuntos de tareas, arneses y tiempos de ejecución componibles para capacitación y evaluaciones de Agentic RL

Un nuevo método tiene como objetivo mantener a los niños a salvo del contenido ilegal generado por IA | Noticias del MIT

Conozca NeuroVFM: un nuevo modelo de base de neuroimagen entrenado con Vol-JEPA en volúmenes clínicos de resonancia magnética y tomografía computarizada no seleccionados

You missed

1 mes hasta el eclipse solar total de 2026: esto es lo que necesita saber

Las leyendas del rock siguen disfrutando de un parche morado « Euro Weekly News

Ari Fletcher y Moneybagg Yo llaman la atención con un viaje de cumpleaños PICANTE

Prime Intellect lanza Verifiers v1: conjuntos de tareas, arneses y tiempos de ejecución componibles para capacitación y evaluaciones de Agentic RL