Cuando nos metimos en la ciencia de datos, había una frase que todos habíamos escuchado; Todo el mundo lo sabe, jóvenes y mayores:
“La correlación no implica causalidad”.
Es una frase pegadiza y definitivamente la has dicho una o dos veces, e incluso podrías haber asentido con confianza cuando alguien más la dijo. ¡Especialmente para conjuntos de datos que no se relacionan entre sí, pero donde es divertido e intrigante implicar causalidad!
Aquí hay dos datos muy interesantes:
Los países que comen más pizza tienden a tener puntuaciones más altas en matemáticas. Cuantas más gafas de sol se venden, más ataques de tiburones se producen.
Ahora bien, si esa fuera toda la información que tienes… ¿qué deberías concluir?
¿Comer pizza te hace mejor en matemáticas? ¿Comprar un nuevo par de gafas de sol provocará un ataque de tiburón?
Aunque es gracioso pensar en ello, la respuesta a esas preguntas es “probablemente no”.
Y, sin embargo, estos son ejemplos de algo muy real: la correlación.
La pregunta que vale la pena hacerse ahora es: si correlación no es igual a causalidad, ¿qué significa entonces?
Ahí es donde las cosas se ponen confusas.
Debido a que tendemos a tratar la correlación como una idea vaga, pensamos que significa “Están relacionados” o “Se mueven juntos de alguna manera”. Pero la correlación no es sólo un sentimiento; es una medida matemática precisa de cómo dos variables se mueven juntas.
En lugar de limitarnos a repetir la advertencia, comprendamos el concepto. Una vez que lo haces, esos ejemplos extraños dejan de ser sorprendentes y empiezan a tener sentido.
Entonces, ¡entremos en ello!
¿Qué es la correlación?
Cuando la gente dice que dos cosas están “correlacionadas”, normalmente se refieren a una de tres cosas:
“Esas dos cosas parecen relacionadas”. “Esas dos cosas van juntas”. “Existe alguna conexión entre esas dos cosas”.
A nivel superficial, los tres no están equivocados, pero les faltan algunos matices.
La correlación no es una vibra. ¡Es una medida! Y como cualquier medición, responde a una pregunta muy específica.
Dando un paso atrás, imagine que recopila datos sobre cuántas horas estudiaron los estudiantes y sus calificaciones en los exámenes.
Lo trazas y ves algo como esto:
Cada punto representa un estudiante. El eje x es cuánto tiempo estudiaron y el eje y es su puntuación.
Cuando observa este gráfico, observa que los puntos tienden a moverse hacia arriba. Entonces concluyes: “A medida que aumenta el tiempo de estudio, las puntuaciones también tienden a aumentar”, que es lo que llamamos una correlación positiva.
Pero, ¿es esto sólo una tendencia o los datos dicen algo más?
En este ejemplo, la relación que acabas de trazar es: cuando una variable está por encima de su promedio, la otra tiende a estar por encima de su promedio también.
Ésa es la idea clave que la mayoría de la gente pasa por alto: la correlación no se trata de valores brutos, sino de cómo se mueven las variables en relación con sus promedios.
Entonces, las respuestas a la pregunta de correlación son:
¿Dos variables se mueven juntas de manera consistente?
Esa pregunta tiene una de tres respuestas:
Arriba + arriba → correlación positiva Arriba + abajo → correlación negativa Sin patrón consistente → sin correlación
Las matemáticas detrás de la correlación
Intentemos hacer que pensar en la correlación sea más intuitivo. Eso lo haremos usando el coeficiente de correlación de Pearson, que podemos definir como:
r=cov(X,Y)σX.σYr = \frac{cov(X, Y)}{ \sigma_{X}.\sigma_{Y}}
Bien, sé que esa ecuación no es en lo que nadie piensa cuando digo “intuitiva”… Pero quédense conmigo y analicémosla sin convertirla en una conferencia.
Paso 1: Covarianza (también conocido como ¿Se mueven juntos?)
La covarianza analiza cómo se mueven dos variables en relación con sus promedios. Por ejemplo, si ambas variables están por encima de sus promedios, obtenemos una covarianza positiva; si uno está arriba y el otro abajo, obtenemos covarianza negativa.
Básicamente, la covarianza responde: “¿Están alineadas estas variables en cuanto a cómo se desvían de sus promedios?”
Paso 2: normalízalo
La covarianza por sí sola es difícil de interpretar porque depende de la escala. Para superar eso, dividimos por las desviaciones estándar: σX\sigma_{X} y σY\sigma_{Y}. Esto reescala todo en un rango limpio: -1 a 1. Eso nos da un terreno común para comparar valores variables.
Después de estos dos pasos, ¡ahora podemos calcular el coeficiente de Pearson! Si obtenemos:
+1 → relación positiva perfecta. 0 → sin relación lineal. -1 → relación negativa perfecta.
Este código simplemente mide qué tan consistentemente estas dos variables se mueven juntas; no qué tan grandes son, sino qué tan bien alineadas están.
Cómo se ven las diferentes correlaciones
Izquierda: fuerte correlación positiva → claro patrón ascendente Medio: sin correlación → dispersión aleatoria Derecha: fuerte correlación negativa → patrón descendente
La correlación mide la consistencia del movimiento, no solo si dos variables están relacionadas.
Lo que realmente te dice la correlación
La correlación te dice: estas variables se mueven juntas de forma estructurada. Nos dice que aquí hay un patrón al que prestar atención.
Pero NO le dice por qué ni cómo lo hacen, ni si uno causa el otro.
El ejemplo clásico de correlación es que las ventas de helados y los incidentes de ahogamiento están correlacionados.
De hecho, podemos trazar el número de ventas de helados y de incidentes de ahogamiento para obtener:
Podemos ver una clara relación ascendente entre estas dos variables… ¿más ventas de helados provocan más ahogamientos?…
Pero eso es engañoso. Porque el verdadero factor determinante es la temperatura: el clima cálido significa más ventas de helados, más gente yendo a la playa y más natación.
Entonces, aunque podemos ver claramente que la correlación es real, la explicación está oculta.
Correlación y no linealidad
Consideremos ahora esta relación:
y = x²
Esta es claramente una relación fuerte, a medida que x aumenta o disminuye, ¡y aumenta! Pero si calculas la correlación:
np.corrcoef(x, y)[0,1]
Obtendrás algo cercano a 0.
Esto se debe a que la correlación sólo mide: qué tan bien se ajusta una línea recta a la relación. Esta es una limitación crucial. Si la relación es curva, la correlación puede fallar, incluso cuando existe una relación fuerte.
Entonces, en lugar de pensar: “Correlación = relación”, es mejor pensar: “Correlación = qué tan bien una línea recta explica la relación”.
El malentendido
La vaguedad del concepto de correlación y la forma en que se nos enseña da lugar a algunos malentendidos. Tres muy comunes son:
Suponiendo causalidad: el hecho de que dos variables se muevan juntas no significa que una cause la otra. Ignorar variables ocultas: puede haber un tercer factor que impulse ambos. Faltan relaciones no lineales: la correlación solo ve patrones de línea recta.
Ahora te estarás preguntando, si correlación es un término muy simple que no nos dice mucho, ¿por qué sigue siendo importante?
Porque es increíblemente útil como primera señal. Te dice:
“Algo interesante podría estar sucediendo aquí”.
A partir de ahí, investigas más. La correlación mide la alineación; Una investigación más profunda proporciona una explicación.
Conclusión final
“La correlación no implica causalidad”. Eso es cierto. Pero aquí está el problema: la gente escucha esto y piensa: “La correlación no tiene sentido”. ¡Eso no es verdad!
La correlación mide cómo las variables se mueven juntas; varía de -1 a 1, captura relaciones lineales, pero NO implica causalidad.
La correlación no es engañosa. Simplemente esperamos demasiado de él cuando no intenta explicar el mundo. Es solo una señal que indica:
“Oye… esto parece interesante”.
Ahora comienza el verdadero trabajo, mientras investigamos por qué esto es realmente interesante.