Comience a preguntarles a los datos por qué | Introducción a la causalidad

Para simplificar, examinaremos la paradoja de Simpson centrándonos en dos cohortes, hombres y mujeres adultos.

Resultado del ensayo terapéutico imaginario, similar al anterior pero centrado en los adultos. Cada símbolo es un paciente de la cohorte de edad y sexo correspondiente y la línea roja indica la tendencia de la población ingenua.

Examinando estos datos podemos hacer tres afirmaciones sobre tres variables de interés:

El género es una variable independiente (no “escucha” a las otras dos)
El tratamiento depende del género (como podemos ver, en este contexto el nivel administrado depende del género; por alguna razón, a las mujeres se les ha administrado una dosis más alta).
El resultado depende tanto del género como del tratamiento.

De acuerdo a esto podemos dibujar el gráfico causal como el siguiente

Modelo gráfico de la paradoja de Simpson donde el género es una variable de confusión entre el tratamiento y el resultado

Observe cómo cada flecha contribuye a comunicar las afirmaciones anteriores. Igualmente importante es que la falta de una flecha que apunte hacia el género transmite que se trata de una variable independiente.

También observamos que al tener flechas que apuntan desde Género hasta Tratamiento y Resultado se considera un causa común Entre ellos.

La esencia de la paradoja de Simpson es que, aunque el resultado se ve afectado por los cambios en el tratamiento, como se esperaba, también hay una camino de puerta trasera Flujo de información a través del género.

La solución a esta paradoja, como habrás adivinado a estas alturas, es que la causa común El género es una variable de confusión que necesita ser considerada. revisado.

Controlar una variable, en términos de un gráfico causal, significa eliminar la relación entre Género y Tratamiento.

Esto se puede hacer de dos maneras:

Recopilación previa de datos: configuración de una Ensayo de control aleatorio (ECA) en el que a los participantes se les administrará una dosis independientemente de su género.
Recopilación de datos posteriores: como en este escenario inventado, los datos ya se han recopilado y, por lo tanto, debemos abordar lo que se conoce como Datos de observación.

Tanto en la recopilación de datos previa como posterior, la eliminación de la dependencia del género del tratamiento (es decir, el control del género) se puede realizar modificando el gráfico de modo que la flecha entre ellos se elimine de la siguiente manera:

Una versión modificada del modelo gráfico de la paradoja de Simpson. El nodo oscuro significa que controlamos el género.

La aplicación de esta “cirugía gráfica” implica modificar las dos últimas afirmaciones (para mayor comodidad escribiré las tres):

El género es una variable independiente
El tratamiento es una variable independiente
El resultado depende del género y del tratamiento (pero sin una vía alternativa)

Esto permite obtener la relación causal de interés: podemos evaluar el impacto directo de la modificación del tratamiento sobre el resultado.

El proceso de controlar un factor de confusión, es decir, la manipulación del proceso de generación de datos, se conoce formalmente como aplicación de un intervenciónEs decir, ya no somos observadores pasivos de los datos, sino que asumimos un papel activo en su modificación para evaluar su impacto causal.

¿Cómo se manifiesta esto en la práctica?

En el caso de los ensayos controlados aleatorios, el investigador debe asegurarse de controlar las variables de confusión importantes. Aquí limitamos el análisis al género (pero en situaciones del mundo real se pueden imaginar otras variables como la edad, el estatus social y cualquier otra que pueda ser relevante para la salud de una persona).

Los RCT se consideran el estándar de oro para el análisis causal en muchos entornos experimentales gracias a su práctica de confundir las variables. Dicho esto, tiene muchos inconvenientes:

Puede ser caro Reclutar individuos puede ser complicado. logísticamente
La intervención objeto de investigación no podrá ser físicamente posible o ético llevar a cabo (por ejemplo, no se puede pedir a personas seleccionadas al azar que fumen o no fumen durante diez años)
El entorno artificial de un laboratorio no es un entorno natural real hábitat de la población

Por otra parte, los datos de observación están mucho más disponibles en la industria y en el mundo académico y, por lo tanto, son mucho más baratos y podrían ser más representativos de los hábitos reales de los individuos. Pero, como se ilustra en el diagrama de Simpson, puede haber variables de confusión que es necesario controlar.

Aquí es donde las soluciones ingeniosas desarrolladas en la comunidad causal en las últimas décadas están ganando terreno. Detallarlas queda fuera del alcance de este artículo, pero al final menciono brevemente cómo aprender más.

Para resolver esta paradoja de Simpson con los datos de observación dados, uno

Calcula para cada cohorte el impacto del cambio del tratamiento en el resultado.
Calcula una contribución promedio ponderada de cada cohorte en la población.

Aquí nos centraremos en la intuición, pero en una próxima entrada describiremos las matemáticas detrás de esta solución.

Estoy seguro de que muchos analistas, como yo, han detectado el efecto Simpson en algún momento de sus datos y, con suerte, lo han corregido. Ahora ya conocen el nombre de este efecto y, con suerte, empiezan a apreciar la utilidad de las herramientas causales.

Dicho esto… estar confundido en esta etapa está bien. 😕

Seré el primero en admitir que me costó entender este concepto y me llevó tres fines de semana de profundizar en ejemplos para internalizarlo. Esta fue la droga de entrada a la causalidad para mí. Parte de mi proceso para comprender las estadísticas es jugar con los datos. Para este propósito creé Una aplicación web interactiva alojada en Streamlit A la que llamo la Calculadora de Simpson 🧮. Escribiré una publicación aparte sobre esto en el futuro.

Incluso si estás confundido, las principales conclusiones de la paradoja de Simpson son que:

Es una situación en la que pueden existir tendencias en subgrupos pero revertirse para el conjunto.
Se puede resolver identificando variables de confusión entre el tratamiento y las variables de resultado y controlándolas.

Esto plantea la pregunta: ¿deberíamos controlar todas las variables excepto el tratamiento y el resultado? Tengamos esto en cuenta al resolver la paradoja de Berkson.

Comience a preguntarles a los datos por qué | Introducción a la causalidad | Eyal Kazin

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Anthropic lanza Claude Opus 4.7: una importante actualización para codificación agente, visión de alta resolución y tareas autónomas a largo plazo

Cómo aprender Python para ciencia de datos rápidamente en 2026 (sin perder tiempo)

Una guía de codificación para pruebas basadas en propiedades utilizando hipótesis con diseño de pruebas con estado, diferenciales y metamórficas

You missed

La impresionante física del Proyecto Hail Mary se remonta a la antigua China

cinco oficinas móviles de la Generalitat recorrerán 200 municipios de la Cataluña rural

Colecciones de taquilla de Bhooth Bangla: el protagonista de Akshay Kumar crece con fuerza el sábado, Netts Rs. 34 Cr en 2 días

Los ríos en el cielo provocan inundaciones devastadoras, pero pueden ser más predecibles de lo esperado