Este documento de IA de Google presenta un marco causal para interpretar la equidad de los subgrupos en las evaluaciones de aprendizaje automático de manera más confiable

Comprender la equidad del subgrupo en el aprendizaje automático ML

Evaluar la equidad en el aprendizaje automático a menudo implica examinar cómo funcionan los modelos en diferentes subgrupos definidos por atributos como raza, género o antecedentes socioeconómicos. Esta evaluación es esencial en contextos como la atención médica, donde el rendimiento desigual del modelo puede conducir a disparidades en recomendaciones de tratamiento o diagnósticos. El análisis de rendimiento a nivel de subgrupos ayuda a revelar sesgos no deseados que pueden integrarse en los datos o el diseño del modelo. Comprender esto requiere una interpretación cuidadosa porque la justicia no se trata solo de la paridad estadística, sino que también se trata de garantizar que las predicciones conduzcan a resultados equitativos cuando se implementan en sistemas del mundo real.

Distribución de datos y sesgo estructural

Un problema importante surge cuando el rendimiento del modelo difiere entre los subgrupos, no debido al sesgo en el modelo en sí, sino debido a las diferencias reales en las distribuciones de datos de subgrupos. Estas diferencias a menudo reflejan desigualdades sociales y estructurales más amplias que dan forma a los datos disponibles para la capacitación y evaluación de modelos. En tales escenarios, insistir en el mismo rendimiento en los subgrupos podría conducir a una mala interpretación. Además, si los datos utilizados para el desarrollo del modelo no son representativos de la población objetivo, debido a un sesgo de muestreo o exclusiones estructurales, entonces los modelos pueden generalizarse mal. El rendimiento inexacto en grupos invisibles o subrepresentados puede introducir o amplificar las disparidades, especialmente cuando se desconoce la estructura del sesgo.

Limitaciones de las métricas tradicionales de equidad

Las evaluaciones actuales de equidad a menudo involucran métricas desglosadas o pruebas de independencia condicional. Estas métricas se utilizan ampliamente para evaluar la equidad algorítmica, incluida la precisión, la sensibilidad, la especificidad y el valor predictivo positivo, en varios subgrupos. Los marcos como la paridad demográfica, las probabilidades igualadas y la suficiencia son puntos de referencia comunes. Por ejemplo, las probabilidades igualadas aseguran que las tasas verdaderas y falsas positivas sean similares entre los grupos. Sin embargo, estos métodos pueden producir conclusiones engañosas en presencia de cambios de distribución. Si la prevalencia de etiquetas difiere entre los subgrupos, incluso los modelos precisos podrían no cumplir con ciertos criterios de equidad, lo que lleva a los profesionales a asumir el sesgo en el que no existe ninguno.

Un marco causal para la evaluación de la equidad

Investigadores de Google Research, Google Deepmind, la Universidad de Nueva York, el Instituto de Tecnología de Massachusetts, el Hospital de Niños Enfermos en Toronto y la Universidad de Stanford introdujeron un nuevo marco que mejora las evaluaciones de equidad. La investigación introdujo modelos gráficos causales que modelan explícitamente la estructura de la generación de datos, incluida la forma en que las diferencias de subgrupos y los sesgos de muestreo influyen en el comportamiento del modelo. Este enfoque evita suposiciones de distribuciones uniformes y proporciona una forma estructurada de comprender cómo varía el rendimiento del subgrupo. Los investigadores proponen la combinación de evaluaciones desglosadas tradicionales con un razonamiento causal, alentando a los usuarios a pensar críticamente sobre las fuentes de disparidades de subgrupos en lugar de depender únicamente de las comparaciones métricas.

Tipos de cambios de distribución modelados

El marco clasifica los tipos de cambios, como el cambio de covariable, el cambio de resultado y el cambio de presentación utilizando gráficos acíclicos dirigidos por causa. Estos gráficos incluyen variables clave como membresía de subgrupos, resultados y covariables. Por ejemplo, el cambio de covariable describe situaciones en las que la distribución de características difiere entre los subgrupos, pero la relación entre el resultado y las características permanece constante. El cambio de resultado, por el contrario, captura casos en los que la relación entre características y resultados cambia por subgrupo. Los gráficos también acomodan los mecanismos de cambio de etiquetas y selección, explicando cómo los datos de subgrupos pueden ser sesgados durante el proceso de muestreo. Estas distinciones permiten a los investigadores predecir cuándo los modelos conscientes de los subgrupos mejorarían la equidad o cuándo no son necesarios. El marco identifica sistemáticamente las condiciones bajo las cuales las evaluaciones estándar son válidas o engañosas.

Evaluación y resultados empíricos

En sus experimentos, el equipo evaluó modelos óptimos de Bayes bajo varias estructuras causales para examinar cuándo las condiciones de equidad, como la suficiencia y la separación, se mantienen. Encontraron que la suficiencia, definida como y ⊥ a | F*(z), se satisface bajo el cambio de covariable pero no bajo otros tipos de cambios, como el resultado o el cambio complejo. En contraste, la separación, definida como F*(z) ⊥ a | Y, solo se mantiene bajo el cambio de etiqueta cuando la membresía del subgrupo no estaba incluida en la entrada del modelo. Estos resultados muestran que los modelos con conocimiento de subgrupos son esenciales en la mayoría de los entornos prácticos. El análisis también reveló que cuando el sesgo de selección depende solo de variables como X o A, los criterios de equidad aún se pueden cumplir. Sin embargo, cuando la selección depende de Y o combinaciones de variables, la equidad de los subgrupos se vuelve más difícil de mantener.

Conclusión e implicaciones prácticas

Este estudio aclara que la equidad no puede juzgarse con precisión solo a través de métricas de subgrupos. Las diferencias en el rendimiento pueden provenir de estructuras de datos subyacentes en lugar de modelos sesgados. El marco causal propuesto equipa a los profesionales con herramientas para detectar e interpretar estos matices. Al modelar las relaciones causales explícitamente, los investigadores proporcionan un camino hacia las evaluaciones que reflejan las preocupaciones estadísticas y del mundo real sobre la equidad. El método no garantiza la equidad perfecta, pero ofrece una base más transparente para comprender cómo las decisiones algorítmicas afectan las diferentes poblaciones.


Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.