Detectar multicolinealidad en conjuntos de datos es un paso importante pero también un desafío. Demostraré cómo detectar variables con comportamiento similar en conjuntos de datos mixtos y cómo examinar más profundamente las relaciones con gráficos interactivos.
Comprender la fuerza de las relaciones entre las variables en un conjunto de datos es importante porque las variables con comportamiento estadísticamente similar pueden afectar la confiabilidad de los modelos. Para eliminar la llamada multicolinealidad podemos utilizar medidas de correlación para variables continuas. Sin embargo, cuando también tenemos variables categóricas y, por tanto, conjuntos de datos mixtos, resulta aún más difícil probar la multicolinealidad. Las pruebas estadísticas, como las pruebas hipergeométricas y la prueba U de Mann-Whitney, se pueden utilizar para probar asociaciones entre variables en conjuntos de datos mixtos. Aunque esto es excelente, requiere varios pasos intermedios, como la tipificación de variables, codificación one-hot y múltiples correcciones de prueba, entre otros. Todo este proceso se implementa fácilmente en un método llamado HNET. En este blog, demostraré cómo detectar variables con comportamiento similar para que la multicolinealidad pueda detectarse fácilmente.
Los datos del mundo real a menudo contienen mediciones con valores tanto continuos como discretos. Necesitamos observar cada variable y usar el sentido común para determinar si las variables pueden estar relacionadas entre sí. Pero cuando hay decenas (o más) variables, donde cada variable puede tener múltiples estados por categoría, verificar manualmente todas las variables lleva mucho tiempo y es propenso a errores. Podemos automatizar esta tarea realizando pasos intensivos de preprocesamiento, junto con métodos de prueba estadísticos. Aquí viene HNET [1, 2] en juego que utiliza pruebas estadísticas para determinar las relaciones significativas entre todas las variables en un conjunto de datos. Le permite ingresar sus datos sin procesar y no estructurados en el modelo y luego genera una red que arroja luz sobre las relaciones complejas entre variables. Pasemos a la siguiente sección donde explicaré cómo detectar variables con comportamiento similar usando estadísticas.…