¿Qué significa el valor p?

un segundo: como científico de datos, usted ha pasado por este escenario (lo más probable es que más de una vez). Alguien te detuvo en mitad de la conversación y te preguntó: “¿Qué significa exactamente un valor p?” También estoy muy seguro de que su respuesta a esa pregunta fue diferente cuando comenzó su viaje en ciencia de datos, un par de meses después o un par de años después.

Pero lo que tengo curiosidad ahora es que la primera vez que te hicieron esa pregunta, ¿pudiste dar una respuesta clara y segura? ¿O dijiste algo como: “Es… la probabilidad de que el resultado sea aleatorio?” (¡no necesariamente con esas palabras exactas!)

La verdad es que no estás solo. Muchas personas que utilizan los valores p con regularidad no entienden realmente lo que significan. Y para ser justos, las clases de estadística y matemáticas no lo han hecho precisamente fácil. Ambos enfatizaron la importancia de los valores p, pero ninguno relacionó su significado con esa importancia.

Esto es lo que la gente piensa que significa un valor p: Apuesto a que has escuchado algo como “Hay un 5% de probabilidad de que mi resultado se deba a la aleatoriedad”, “Hay un 95% de probabilidad de que mi hipótesis sea correcta”, o quizás la más frecuente, “menor valor p = más verdadero/mejores resultados”.

Sin embargo, aquí está la cuestión: todos estos están mal. No es un error leve, sino fundamentalmente incorrecto. Y la razón es bastante sutil: estamos haciendo la pregunta equivocada. Necesitamos saber cómo hacer la pregunta correcta porque comprender los valores p es muy importante en muchos campos:

Pruebas A/B en tecnología: decidir si una nueva función realmente mejora la participación del usuario o si el resultado es solo ruido. Medicina y ensayos clínicos: determinar si un tratamiento tiene un efecto real frente a un placebo. Economía y ciencias sociales: probar relaciones entre variables, como ingresos y educación. Psicología: evaluar si las conductas o intervenciones observadas son estadísticamente significativas. Análisis de marketing: medir si las campañas realmente impactan en las conversiones.

En todos estos casos, el objetivo es el mismo:
para descubrir si lo que estamos viendo es una señal… o simplemente suerte pretendiendo ser importante.

Entonces, ¿qué es un valor p?

Imagen del autor (realizada con Canva)

Ya es hora de que hagamos esta pregunta. Esta es la forma más clara de pensarlo:

Un valor p mide qué tan sorprendentes serían sus datos si no sucediera nada real.

O incluso más simplemente:

“Si todo fuera al azar… ¿qué tan extraño es lo que acabo de ver?”

Imagine que sus datos viven en un espectro. La mayoría de las veces, si no sucede nada, los resultados rondarán “sin diferencia”. Pero a veces la aleatoriedad produce resultados extraños.

Si su resultado llega muy lejos en la cola, usted pregunta:

“¿Con qué frecuencia veo algo tan extremo por pura casualidad?”

Esa probabilidad es su valor p. Intentemos describirlo con un ejemplo:

Imagina que diriges una pequeña panadería. Has creado una nueva receta de galletas y crees que es mejor que la anterior. Pero como empresario inteligente, necesita datos que respalden esa hipótesis. Entonces, haces una prueba simple:

Dale a 100 clientes la galleta antigua. Dale a 100 clientes la nueva galleta. Pregunte: “¿Te gusta esto?”

Lo que observas:

Galleta vieja: al 52% le gustó. Nueva galleta: al 60% le gustó.

Bueno, ¡lo tenemos! ¡El nuevo tiene una mejor calificación de los clientes! ¿O lo hicimos nosotros?

Pero aquí es donde las cosas se ponen un poco complicadas: “¿La nueva receta de galletas es realmente mejor… o simplemente tuve suerte con el grupo de clientes?” ¡Los valores p nos ayudarán a responder eso!

Paso 1: suponga que no pasa nada

Se comienza con la hipótesis nula: “No existe una diferencia real entre las cookies”. En otras palabras, ambas cookies son igualmente buenas y cualquier diferencia que veamos es solo una variación aleatoria.

Paso 2: simular un “mundo aleatorio”.

Ahora imagina repetir este experimento miles de veces: si las galletas fueran realmente iguales, a veces a un grupo le gustarían más, a veces al otro. Después de todo, así es como funciona la aleatoriedad.

En lugar de fórmulas matemáticas, estamos haciendo algo muy intuitivo: pretender que ambas cookies son igualmente buenas, simular miles de experimentos bajo esa suposición y luego preguntar:

“¿Con qué frecuencia veo una diferencia de hasta el 8% simplemente por suerte?”

Saquémoslo.

Según el código, valor p = 0,2.

Eso significa que si las cookies fueran realmente iguales, vería una diferencia así de grande aproximadamente el 20% de las veces. Aumentar el número de clientes a los que solicitamos una prueba de sabor cambiará significativamente ese valor p.

Observe que no necesitábamos demostrar que la nueva cookie es mejor; en cambio, basándonos en los datos, llegamos a la conclusión de que “este resultado sería bastante extraño si no estuviera pasando nada”. Eso es suficiente para empezar a dudar de las hipótesis nulas.

Ahora, imagina que realizas la prueba de cookies no una, sino 200 veces diferentes, cada una con nuevos clientes. Para cada experimento, preguntas:

“¿Cuál es la diferencia entre cuánto le gustó a la gente la galleta nueva y la anterior?”

Lo que a menudo se pasa por alto

Esta es la parte que hace tropezar a todos (incluyéndome a mí cuando tomé una clase de estadística por primera vez). Un valor p responde a esta pregunta:

“Si la hipótesis nula es cierta, ¿qué probabilidad tienen estos datos?”

Pero lo que queremos es:

“Teniendo en cuenta estos datos, ¿qué probabilidad hay de que mi hipótesis sea cierta?”

Esos no son lo mismo. Es como preguntar: “Si está lloviendo, ¿qué probabilidades hay de que vea calles mojadas?”
vs “Si veo calles mojadas, ¿qué probabilidad hay de que esté lloviendo?”

Debido a que nuestro cerebro funciona al revés, cuando vemos datos, queremos inferir la verdad. Pero los valores p van en sentido contrario: suponga un mundo → evalúe qué tan extraños son sus datos en ese mundo.

Entonces, en lugar de pensar: “p = 0,03 significa que hay un 3 % de posibilidades de que me equivoque”, pensamos “Si no sucediera nada real, vería algo tan extremo sólo el 3 % de las veces”.

¡Eso es todo! Ninguna mención de verdad o corrección.

¿Por qué es importante comprender los valores p?

Comprender mal el significado de los valores p genera problemas reales cuando se intenta comprender el comportamiento de los datos.

Falsa confianza

La gente piensa: “p < 0,05 → es verdad”. Eso no es exacto; simplemente significa "improbable según las hipótesis nulas".

Reaccionar exageradamente al ruido

Un valor p pequeño aún puede ocurrir por casualidad, especialmente si realiza muchas pruebas.

Ignorar el tamaño del efecto (o el contexto de los datos)

Un resultado puede ser estadísticamente significativo, pero prácticamente carecer de significado. Por ejemplo, una mejora del 0,1% con p < 0,01 podría ser técnicamente “significativa”, pero es prácticamente inútil.

Piense en un valor p como una “puntuación de rareza”.

Valor p alto → “Esto parece normal”. Valor p bajo → “Esto parece raro”.

Y los datos extraños te hacen cuestionar tus suposiciones. Eso es todo lo que hacen las pruebas de hipótesis.

¿Por qué 0,05 es el número mágico?

Probablemente hayas visto en algún momento esta regla:

“Si p < 0,05, el resultado es estadísticamente significativo".

El umbral de 0,05 se hizo popular gracias a Ronald Fisher, una de las primeras figuras de la estadística moderna. Sugirió el 5% como un límite razonable para cuando los resultados comiencen a parecer “lo suficientemente raros” como para cuestionar la suposición de aleatoriedad.

No porque sea matemáticamente óptimo o universalmente correcto, sólo porque era… práctico. Y con el tiempo, se convirtió en la opción predeterminada. p < 0,05 significa que si no sucediera nada, vería algo tan extremo menos del 5% de las veces.

Elegir 0,05 consistió en equilibrar dos tipos de errores:

Falsos positivos → pensar que algo está sucediendo cuando no es así. Falsos negativos → falta un efecto real.

Si hace que el umbral sea más estricto (digamos, 0,01), reducirá las falsas alarmas, pero perderá más efectos reales. Por otro lado, si lo aflojas (digamos, 0,10), captarás más efectos reales, pero te arriesgas a tener más ruido. Entonces, 0,05 se sitúa en algún punto intermedio.

La comida para llevar

Si deja este artículo con una sola cosa, sea que un valor p no le indica que su hipótesis es verdadera; ¡tampoco te da la probabilidad de que estés equivocado! Le indica lo sorprendentes que son sus datos bajo el supuesto de que no tienen ningún efecto.

La razón por la que la mayoría de las personas se confunden con los valores p al principio no es que sean complicados, sino porque a menudo se explican al revés. Entonces, en lugar de preguntar: “¿Pasé 0,05?”, pregunte: “¿Qué tan sorprendente es este resultado?”

Y para responder a eso, es necesario pensar en los valores p como un espectro:

0,4 → completamente normal 0,1 → medianamente interesante 0,03 → algo sorprendente 0,001 → muy sorprendente

No es un interruptor binario; más bien, es un gradiente de evidencia.

Una vez que cambies tu forma de pensar de “¿Es esto cierto?” hasta “¿Qué tan extraño sería esto si no sucediera nada?”, todo comienza a encajar. Y lo que es más importante, empezará a tomar mejores decisiones con sus datos.