1agmlcfxgjwegu5qcgbrnaw.jpeg

Una guía paso a paso para comprender el concepto de dependencia y cómo aplicarlo para validar gráficos acíclicos dirigidos usando Python

Foto por Ana Municio en desempaquetar

La inferencia causal es una rama emergente de la ciencia de datos que se ocupa de determinar la relación de causa y efecto entre eventos y resultados y tiene el potencial de aumentar significativamente el valor que el aprendizaje automático puede generar para las organizaciones.

Por ejemplo, un algoritmo tradicional de aprendizaje automático puede predecir qué clientes de préstamos tienen probabilidades de incumplir, permitiendo así una intervención proactiva con los clientes. Sin embargo, aunque este algoritmo será útil para reducir los incumplimientos de los préstamos, no tendrá idea de por qué ocurrieron y, si bien la intervención proactiva es útil, conocer las razones de los incumplimientos permitiría abordar la causa subyacente. En este mundo, la intervención proactiva tal vez ya no sea necesaria porque los factores que conducen al incumplimiento se han solucionado permanentemente.

Ésta es la promesa de la inferencia causal y la razón por la que tiene el potencial de generar impactos y resultados significativos para aquellas organizaciones que puedan aprovechar ese potencial.

Hay varios enfoques diferentes, pero el enfoque más común generalmente comienza aumentando los datos con un «gráfico acíclico dirigido» que encapsula y visualiza las relaciones causales en los datos y luego utiliza técnicas de inferencia causal para formular preguntas del tipo «qué pasaría si». .

El problema

Un gráfico acíclico dirigido (DAG) que encapsula las relaciones causales en los datos generalmente lo construyen manualmente (o semimanualmente) científicos de datos y expertos en el dominio que trabajan juntos. Por lo tanto, el DAG podría estar equivocado, lo que invalidaría cualquier cálculo causal que conduzca a conclusiones erróneas y decisiones potencialmente incorrectas.

La oportunidad

Existe una variedad de técnicas para la «Validación Causal» (el proceso de validar el DAG con los datos) y, si estas técnicas funcionan, pueden minimizar o eliminar errores en el DAG, asegurando así que…