ConceptDrift: un método de inteligencia artificial para identificar sesgos utilizando un enfoque de peso-espacio que va más allá de los protocolos tradicionales restringidos de datos

Los conjuntos de datos y los modelos previamente entrenados tienen sesgos intrínsecos. La mayoría de los métodos se basan en detectarlos mediante el análisis de muestras mal clasificadas en una validación semiautomática por computadora humana. Las redes neuronales profundas, normalmente modelos fundamentales afinados, se utilizan ampliamente en sectores como la salud, las finanzas y la justicia penal, donde las predicciones sesgadas pueden tener graves impactos sociales. Estos modelos a menudo funcionan como cajas negras, carentes de transparencia e interpretabilidad, lo que puede ocultar posibles sesgos introducidos durante el ajuste. Estos sesgos surgen de conjuntos de datos y pueden generar resultados perjudiciales al reforzar las desigualdades existentes. Los métodos recientes para abordar los sesgos en escenarios de cambio de subpoblación analizan principalmente los datos de validación sin investigar los procesos internos de toma de decisiones del modelo. Por ejemplo, B2T [13] resalta los sesgos solo dentro del conjunto de validación, sin tener en cuenta si estos sesgos afectan las ponderaciones del modelo. Esta brecha subraya la necesidad de examinar las vías de decisión de los modelos para comprender si los sesgos de los conjuntos de datos influyen en las predicciones.

Los métodos actuales para identificar sesgos a menudo se basan en el análisis de muestras mal clasificadas mediante una validación semiautomática entre humanos y computadoras. Estos métodos proporcionan explicaciones para predicciones erróneas, pero carecen de precisión a la hora de resaltar correlaciones no deseadas. Los modelos de aprendizaje automático a menudo capturan correlaciones o “atajos” que pueden resolver una tarea pero que no son esenciales, lo que genera sesgos que dificultan la generalización fuera de la distribución del entrenamiento. Los métodos anteriores, como B2T, SpLiCE y Lg, han identificado sesgos en los conjuntos de datos mediante el análisis de datos. Las técnicas para eliminar el sesgo se han vuelto esenciales para garantizar la equidad y la precisión, y se utilizan comúnmente enfoques como el submuestreo equilibrado de grupos, la reponderación y el aumento de datos. En los casos sin anotaciones, algunos métodos implican entrenar y refinar un modelo sesgado en función de sus clasificaciones erróneas para reducir el sesgo. La investigación sobre la equidad en el aprendizaje automático es extensa y tiene como objetivo crear resultados éticos y equitativos en todas las subpoblaciones, al mismo tiempo que se superponen con la generalización de dominios y las mejoras en el desempeño del peor grupo. La interpretabilidad es crucial para la equidad, ya que comprender las decisiones del modelo ayuda a mitigar el sesgo. Los enfoques de aprendizaje invariante mejoran la solidez ante los cambios distributivos al hacer cumplir que los modelos permanezcan consistentes en todos los entornos; sin embargo, en casos sin entornos predefinidos, se pueden crear subconjuntos de datos para desafiar las restricciones invariantes, utilizando algoritmos como groupDRO para mejorar la solidez distributiva.

Un equipo de investigadores de la Universidad de Bucarest, el Instituto Rumano de Lógica y Ciencia de Datos y la Universidad de Montreal han ideado ConceptoDerivaun método novedoso diseñado para identificar conceptos críticos para el proceso de toma de decisiones de un modelo. ConceptDrift es el primero en emplear un enfoque de espacio de peso para detectar sesgos en modelos fundamentales ajustados, yendo más allá de las limitaciones de los protocolos actuales restringidos en datos. El método también incorpora una técnica única de puntuación del espacio de incrustación que descubre conceptos con un impacto significativo en la predicción de clases. Además, ConceptDrift ayuda en la investigación de sesgos, revelando sesgos no identificados previamente en cuatro conjuntos de datos: Waterbirds, CelebA, Nico++ y CivilComments. Demuestra mejoras sustanciales en la prevención de sesgos de tiro cero con respecto a los métodos de última generación existentes para la identificación de sesgos. Probado con datos de imágenes y texto, ConceptDrift es muy versátil y puede adaptarse a otras modalidades de datos con un modelo fundamental que incluye capacidades de procesamiento de texto.

El método detecta conceptos vinculados incorrectamente a etiquetas de clase en tareas de clasificación. Utilizando un modelo fundamental, se entrena en una capa lineal de sus representaciones congeladas y se identifican los conceptos textuales que influyen en las predicciones. Al incorporar conceptos y muestras en un espacio compartido, se detecta una alta similitud de cosenos. Los pesos inicializados en los nombres de las clases cambian a través del entrenamiento hacia conceptos discriminativos y se clasifican. Los conceptos se filtran, manteniendo sólo aquellos que distinguen una clase de otras y contribuyen a la detección de sesgos. Un experimento demostró que ConceptDrift mejora constantemente la precisión de la clasificación de disparo cero en todos los conjuntos de datos, superando los métodos de identificación de sesgos de referencia y de última generación.

En conclusión, ConceptDrift ofrece un enfoque novedoso para identificar sesgos ocultos en conjuntos de datos mediante el análisis de la trayectoria de actualización de peso de una sonda lineal. Este método proporciona una identificación más precisa de correlaciones no deseadas, mejorando la transparencia y la interpretabilidad de los modelos fundamentales. La investigación demuestra empíricamente su eficacia en la investigación de sesgos en cuatro conjuntos de datos: Waterbirds, CelebA, Nico++ y CivilComments, revelando sesgos no detectados previamente y logrando mejoras notables en la prevención de sesgos de cero disparos con respecto a los métodos de última generación actuales. Validado en conjuntos de datos de imágenes y texto, con un modelo fundamental también dotado de capacidades de procesamiento de texto, ConceptDrift puede adaptarse a cualquier otra modalidad.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)


Nazmi Syed es pasante de consultoría en MarktechPost y está cursando una licenciatura en Ciencias en el Instituto Indio de Tecnología (IIT) Kharagpur. Tiene una profunda pasión por la ciencia de datos y explora activamente las amplias aplicaciones de la inteligencia artificial en diversas industrias. Fascinada por los avances tecnológicos, Nazmi está comprometida a comprender e implementar innovaciones de vanguardia en contextos del mundo real.