Detección de multicolinealidad en conjuntos de datos mediante pruebas estadísticas. | de Erdogan Taskesen

Detectar multicolinealidad en conjuntos de datos es un paso importante pero también un desafío. Demostraré cómo detectar variables con comportamiento similar en conjuntos de datos mixtos y cómo examinar más profundamente las relaciones con gráficos interactivos.

11 minutos de lectura

hace 12 horas

Comprender la fuerza de las relaciones entre las variables en un conjunto de datos es importante porque las variables con comportamiento estadísticamente similar pueden afectar la confiabilidad de los modelos. Para eliminar la llamada multicolinealidad podemos utilizar medidas de correlación para variables continuas. Sin embargo, cuando también tenemos variables categóricas y, por tanto, conjuntos de datos mixtos, resulta aún más difícil probar la multicolinealidad. Las pruebas estadísticas, como las pruebas hipergeométricas y la prueba U de Mann-Whitney, se pueden utilizar para probar asociaciones entre variables en conjuntos de datos mixtos. Aunque esto es excelente, requiere varios pasos intermedios, como la tipificación de variables, codificación one-hot y múltiples correcciones de prueba, entre otros. Todo este proceso se implementa fácilmente en un método llamado HNET. En este blog, demostraré cómo detectar variables con comportamiento similar para que la multicolinealidad pueda detectarse fácilmente.

Los datos del mundo real a menudo contienen mediciones con valores tanto continuos como discretos. Necesitamos observar cada variable y usar el sentido común para determinar si las variables pueden estar relacionadas entre sí. Pero cuando hay decenas (o más) variables, donde cada variable puede tener múltiples estados por categoría, verificar manualmente todas las variables lleva mucho tiempo y es propenso a errores. Podemos automatizar esta tarea realizando pasos intensivos de preprocesamiento, junto con métodos de prueba estadísticos. Aquí viene HNET [1, 2] en juego que utiliza pruebas estadísticas para determinar las relaciones significativas entre todas las variables en un conjunto de datos. Le permite ingresar sus datos sin procesar y no estructurados en el modelo y luego genera una red que arroja luz sobre las relaciones complejas entre variables. Pasemos a la siguiente sección donde explicaré cómo detectar variables con comportamiento similar usando estadísticas.…

Detección de multicolinealidad en conjuntos de datos mediante pruebas estadísticas. | de Erdogan Taskesen | octubre de 2023

ByEquipo de 7 minutos

Detectar multicolinealidad en conjuntos de datos es un paso importante pero también un desafío. Demostraré cómo detectar variables con comportamiento similar en conjuntos de datos mixtos y cómo examinar más profundamente las relaciones con gráficos interactivos.

By Equipo de 7 minutos

Related Post

La decodificación especulativa de DFlash elabora bloques de tokens completos en paralelo para lograr un rendimiento hasta 15 veces mayor en NVIDIA Blackwell

MIT en los medios: Explorando cómo la ciencia impulsada por la curiosidad es un ingrediente esencial en el éxito de Estados Unidos | Noticias del MIT

DeepReinforce lanza Ornith-1.0: una familia de modelos de codificación de código abierto que aprende sus propios andamios de RL

You missed

Retumbos en las profundidades de Marte insinúan un vasto y antiguo sistema de magma: ScienceAlert

Dimite el coordinador autonómico de Podemos en Asturias por “motivos personales”

Orihuela busca cancelar el contrato de residuos ‘amañado’ vinculado al caso Brugal y bloquear una reclamación de 10,9 millones de euros – The Leader

La invitación marca el regreso de Olivia Wilde después del escándalo de Don’t Worry Darling