Por qué es fundamental ir más allá de las métricas de aprendizaje automático excesivamente agregadas | Noticias del MIT

Los investigadores del MIT han identificado ejemplos significativos de fallas en los modelos de aprendizaje automático cuando esos modelos se aplican a datos distintos a aquellos con los que fueron entrenados, lo que plantea dudas sobre la necesidad de realizar pruebas cada vez que se implementa un modelo en un entorno nuevo.

“Demostramos que incluso cuando se entrenan modelos con grandes cantidades de datos y se elige el mejor modelo promedio, en un nuevo entorno este ‘mejor modelo’ podría ser el peor modelo para entre el 6 y el 75 por ciento de los nuevos datos”, dice Marzyeh Ghassemi, profesor asociado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, miembro del Instituto de Ingeniería y Ciencias Médicas e investigador principal del Laboratorio de Sistemas de Información y Decisión.

En un artículo presentado en la conferencia Neural Information Processing Systems (NeurIPS 2025) en diciembre, los investigadores señalan que los modelos entrenados para diagnosticar eficazmente enfermedades en radiografías de tórax en un hospital, por ejemplo, pueden considerarse efectivos en un hospital diferente, en promedio. Sin embargo, la evaluación del desempeño de los investigadores reveló que algunos de los modelos con mejor desempeño en el primer hospital fueron los de peor desempeño en hasta el 75 por ciento de los pacientes en el segundo hospital, aunque cuando se agregan todos los pacientes en el segundo hospital, el alto desempeño promedio oculta este fracaso.

Sus hallazgos demuestran que, aunque se cree que las correlaciones espurias (un ejemplo simple de esto es cuando un sistema de aprendizaje automático, al no haber “visto” muchas vacas fotografiadas en la playa, clasifica una foto de una vaca en la playa como una orca simplemente debido a sus antecedentes) se mitigan simplemente mejorando el rendimiento del modelo en los datos observados, en realidad todavía ocurren y siguen siendo un riesgo para la confiabilidad de un modelo en nuevos entornos. En muchos casos, incluidas áreas examinadas por los investigadores, como radiografías de tórax, imágenes de histopatología del cáncer y detección de discursos de odio, estas correlaciones falsas son mucho más difíciles de detectar.

En el caso de un modelo de diagnóstico médico entrenado en radiografías de tórax, por ejemplo, el modelo puede haber aprendido a correlacionar una marca específica e irrelevante en las radiografías de un hospital con una determinada patología. En otro hospital donde no se utiliza el marcado, esa patología podría pasarse por alto.

Investigaciones anteriores realizadas por el grupo de Ghassemi han demostrado que los modelos pueden correlacionar falsamente factores como la edad, el sexo y la raza con hallazgos médicos. Si, por ejemplo, se ha entrenado un modelo con más radiografías de tórax de personas mayores que tienen neumonía y no se han “visto” tantas radiografías de personas más jóvenes, podría predecir que sólo los pacientes mayores tienen neumonía.

“Queremos que los modelos aprendan a observar las características anatómicas del paciente y luego tomar una decisión basada en eso”, dice Olawale Salaudeen, postdoctorado del MIT y autor principal del artículo, “pero realmente cualquier cosa que esté en los datos que esté correlacionada con una decisión puede ser utilizada por el modelo. Y esas correlaciones podrían no ser realmente sólidas con los cambios en el entorno, lo que hace que las predicciones del modelo sean fuentes poco confiables para la toma de decisiones”.

Las correlaciones espurias contribuyen a los riesgos de una toma de decisiones sesgada. En el artículo de la conferencia NeurIPS, los investigadores demostraron que, por ejemplo, los modelos de rayos X de tórax que mejoraron el rendimiento del diagnóstico general en realidad funcionaron peor en pacientes con afecciones pleurales o agrandamiento del cardiomediastino, es decir, agrandamiento del corazón o de la cavidad torácica central.

Otros autores del artículo fueron los estudiantes de doctorado Haoran Zhang y Kumail Alhamoud, la profesora asistente de EECS Sara Beery y Ghassemi.

Si bien trabajos anteriores generalmente han aceptado que los modelos ordenados de mejor a peor por desempeño preservarán ese orden cuando se apliquen en nuevos entornos, llamados precisión en la línea, los investigadores pudieron demostrar ejemplos de cuando los modelos de mejor rendimiento en un entorno eran los de peor rendimiento en otro.

Salaudeen ideó un algoritmo llamado OODSelect para encontrar ejemplos en los que se rompiera la precisión en la línea. Básicamente, entrenó miles de modelos utilizando datos en distribución, es decir, que los datos procedían de la primera configuración, y calculó su precisión. Luego aplicó los modelos a los datos del segundo escenario. Cuando aquellos con mayor precisión en los datos del primer escenario se equivocaron cuando se aplicaron a un gran porcentaje de ejemplos en el segundo escenario, esto identificó los subconjuntos o subpoblaciones problemáticos. Salaudeen también enfatiza los peligros de las estadísticas agregadas para la evaluación, que pueden oscurecer información más granular y consecuente sobre el desempeño del modelo.

En el curso de su trabajo, los investigadores separaron los “ejemplos más mal calculados” para no confundir correlaciones espurias dentro de un conjunto de datos con situaciones que son simplemente difíciles de clasificar.

El artículo de NeurIPS publica el código de los investigadores y algunos subconjuntos identificados para trabajos futuros.

Una vez que un hospital, o cualquier organización que emplee el aprendizaje automático, identifica los subconjuntos en los que un modelo tiene un rendimiento deficiente, esa información se puede utilizar para mejorar el modelo para su tarea y entorno particulares. Los investigadores recomiendan que el trabajo futuro adopte OODSelect para resaltar los objetivos de evaluación y diseñar enfoques para mejorar el desempeño de manera más consistente.

“Esperamos que el código publicado y los subconjuntos de OODSelect se conviertan en un trampolín”, escriben los investigadores, “hacia puntos de referencia y modelos que enfrenten los efectos adversos de las correlaciones espurias”.