Siete causas comunes de fuga de datos en el aprendizaje automático | por Yu Dong | septiembre, 2024

Pasos clave en el preprocesamiento de datos, la ingeniería de características y la división de pruebas y entrenamiento para evitar fugas de datos

Cuando estaba evaluando herramientas de IA como ChatGPT, Claude y Gemini para casos de uso de aprendizaje automático en Mi último artículoMe encontré con un problema grave: la fuga de datos en el aprendizaje automático. Estos modelos de IA crearon nuevas funciones utilizando todo el conjunto de datos. antes dividirlo en conjuntos de entrenamiento y de prueba, una causa común de fuga de datos. Sin embargo, esto no es solo un error de la IA; los humanos también lo cometen a menudo.

La fuga de datos en el aprendizaje automático se produce cuando la información de fuera del conjunto de datos de entrenamiento se filtra en el proceso de creación de modelos. Esto genera métricas de rendimiento infladas y modelos que no se pueden generalizar a datos no vistos. En este artículo, analizaré siete causas comunes de fuga de datos para que no cometas los mismos errores que la IA 🙂

Imagen de DALL·E

Para explicar mejor la fuga de datos, consideremos un caso de uso hipotético de aprendizaje automático:

Imagínese que es un científico de datos en una importante empresa de tarjetas de crédito como American Express. Cada día se procesan millones de transacciones y, inevitablemente, algunas de ellas son fraudulentas. Su trabajo consiste en crear un modelo que pueda detectar el fraude en tiempo real…