Una mirada detallada a los defectos de la herramienta favorita de la ciencia
La importancia estadística es como el autoservicio del mundo de la investigación. Acércate al estudio, toma tu “comida importante” y boom: tienes una sabrosa conclusión para compartir con todos tus amigos. Y no sólo es conveniente para el lector, sino que también facilita la vida de los investigadores. ¿Por qué hacer la venta difícil cuando en su lugar puedes decir dos palabras?
Pero hay un problema.
¿Esas ecuaciones sofisticadas y detalles esenciales que hemos evitado convenientemente? Son el verdadero meollo del asunto. Y cuando los investigadores y lectores confían demasiado en una herramienta estadística, podemos terminar cometiendo un error enorme, como el que casi rompe las leyes de la física.
En 2011, los físicos del renombrado laboratorio CERN anunciaron un descubrimiento impactante: Los neutrinos podrían viajar más rápido que la velocidad de la luz.. El hallazgo amenazaba con anular la teoría de la relatividad de Einstein, una piedra angular de la física moderna. Los investigadores confiaron en sus resultados y superaron el riguroso umbral de significación estadística de la física del 99,9999998%. Caso cerrado, ¿verdad?
No exactamente. Mientras otros científicos examinaban el experimento, encontraron fallas en la metodología y finalmente no se pudieron replicar los resultados. El hallazgo original, a pesar de su impresionante “importancia estadística”, resultó ser falso.
En este artículo, profundizaremos en cuatro razones fundamentales por las que no debería confiar instintivamente en un hallazgo estadísticamente significativo. Además, ¿por qué no deberías descartar habitualmente los resultados que no sean estadísticamente significativos?
Los cuatro defectos clave de la significación estadística:
- esta hecho: Con demasiada frecuencia, la línea de significación estadística/no significancia se extrae de la nada o se toma perezosamente de la línea general del 95% de confianza.
- No significa lo que (la mayoría) de la gente cree que significa.: La significación estadística no significa «Existe un Y% de probabilidad de que X sea cierto».
- Es fácil de piratear (y frecuentemente lo es): La aleatoriedad se etiqueta con frecuencia como estadísticamente significativa debido a los experimentos masivos.
- No tiene nada que ver con lo importante que sea el resultado.: La significancia estadística no está relacionada con la significancia de la diferencia.
La significación estadística es simplemente una línea en la arena que los humanos han creado con cero soporte matemático. Piensa en eso por un segundo. Algo que generalmente se considera una medida objetiva es, en esencia, completamente subjetivo.
La parte matemática se proporciona un paso antes de decidir la significancia, mediante una medida numérica de confianza. La forma más común utilizada en prueba de hipótesis se llama el valor p. Esto proporciona la probabilidad matemática real de que los resultados de los datos de la prueba no se debieron simplemente a la aleatoriedad.
Por ejemplo, un valor p de 0,05 significa que hay un 5 % de posibilidades de ver estos puntos de datos (o más extremos) debido al azar, o que tenemos un 95 % de confianza en que el resultado no se debió al azar. Por ejemplo, supongamos que cree que una moneda es injusta a favor de cara, es decir, la probabilidad de que caiga cara es superior al 50%. Lanzas la moneda 5 veces y cae cara cada vez. Hay una probabilidad de 1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 3,1% de que haya sucedido simplemente por casualidad, si la moneda era justa.
¿Pero es esto suficiente para decir que es estadísticamente significativo? Depende a quién le preguntes.
A menudo, quien esté a cargo de determinar dónde se trazará la línea de importancia tiene más influencia sobre si un resultado es significativo que los datos subyacentes en sí.
Dado este paso final subjetivo, a menudo en mi propio análisis le proporcionaba al lector del estudio el nivel de porcentaje de confianza, en lugar del resultado binario de significancia/no significancia. El paso final simplemente se basa demasiado en opiniones.
Escéptico: “Pero existen estándares para determinar la significancia estadística.«
Escucho mucho el argumento en respuesta al argumento anterior (hablo bastante de esto, para deleite de mi novia investigadora académica). A lo cual respondo con algo como:
A mí: “Por supuesto, si hay un estándar específico que debe cumplir, como por motivos regulatorios o de publicación de una revista académica, entonces no tiene más opción que seguir el estándar. Pero si ese no es el caso entonces no hay razón para no hacerlo.«
Escéptico: “Pero hay un estándar general. Es un 95% de confianza.«
En ese punto de la conversación hago lo mejor que puedo para no poner los ojos en blanco. Decidir que el punto de significancia estadística de su prueba es del 95%, simplemente porque esa es la norma, es francamente una pereza. No tiene en cuenta el contexto de lo que se está probando.
En mi trabajo diario, si veo a alguien que utiliza el umbral de significancia del 95% para un experimento sin una explicación contextual, se activa una señal de alerta. Sugiere que la persona no comprende las implicaciones de su elección o no le importan las necesidades comerciales específicas del experimento.
Un ejemplo puede explicar mejor por qué esto es tan importante.
Supongamos que trabaja como científico de datos para una empresa de tecnología y el equipo de UI quiere saber: «¿Deberíamos usar el color rojo o azul en nuestro botón ‘suscribir’ para maximizar la tasa de clics (CTR)?». El equipo de UI no prefiere ningún color, pero debe elegir uno antes del final de la semana. Después de algunas pruebas A/B y análisis estadísticos, tenemos nuestros resultados:
El científico de datos que sigue los estándares puede regresar al equipo de UI y anunciar: «Desafortunadamente, el experimento no encontró ninguna diferencia estadísticamente significativa entre la tasa de clics del botón rojo y azul.«
Este es un análisis horrendo, debido únicamente al paso subjetivo final. Si el científico de datos hubiera tomado la iniciativa de comprender el contexto, de manera crítica, de que «el equipo de UI no prefiere ningún color, pero debe elegir uno antes del final de la semana», entonces debería haber establecido el punto de significancia en un valor p muy alto. , posiblemente 1.0, es decir, el análisis estadístico no importa, el equipo de UI estará feliz de elegir el color que tenga el CTR más alto.
Dado el riesgo de que los científicos de datos y similares no tengan el contexto completo para determinar el mejor punto de importancia, es mejor (y más sencillo) darle la responsabilidad a quienes tienen el contexto empresarial completo; en este ejemplo, el equipo de UI. En otras palabras, el científico de datos debería haber anunciado al equipo de UI: «El experimento dio como resultado que el botón azul recibiera una tasa de clics más alta, con una confianza del 94% de que esto no se atribuía al azar.“El paso final para determinar la importancia debe realizarlo el equipo de UI. Por supuesto, esto no significa que el científico de datos no deba educar al equipo sobre lo que “cconfianza del 94%” significa, además de explicar claramente por qué Es mejor dejarles a ellos la significación estadística.
Supongamos que vivimos en un mundo un poco más perfecto, donde el punto uno ya no es un problema. La línea en la figura de arena siempre es perfecta, ¡huzza! Digamos que queremos realizar un experimento, con la línea de significancia establecida en un 99% de confianza. Pasan algunas semanas y por fin tenemos nuestros resultados y el análisis estadístico encuentra que es estadísticamente significativo, ¡huzza otra vez!… Pero, ¿qué significa eso realmente?
La creencia común, en el caso de la prueba de hipótesis, es que existe un 99% de posibilidades de que la hipótesis sea correcta. Esto es dolorosamente incorrecto. Todo lo que significa es que hay un 1% de posibilidades de observar datos tan extremos o más extremos por aleatoriedad. para este experimento.
La significación estadística no tiene en cuenta si el experimento en sí es exacto. A continuación se muestran algunos ejemplos de cosas que la significación estadística no puede capturar:
- Calidad del muestreo: la población muestreada podría estar sesgada o no ser representativa.
- Calidad de los datos: no se abordan los errores de medición, los datos faltantes ni otros problemas de calidad de los datos.
- Validez de los supuestos: los supuestos de la prueba estadística (como normalidad, independencia) podrían violarse.
- Calidad del diseño del estudio: controles experimentales deficientes, no controlar las variables de confusión, probar múltiples resultados sin ajustar los niveles de significancia.
Volviendo al ejemplo mencionado en la introducción. Después de no poder replicar de forma independiente el hallazgo inicial, los físicos del experimento original de 2011 anunciaron que habían encontrado un error en el reloj maestro de su dispositivo de medición, es decir, un problema de calidad de los datos, lo que resultó en una retractación total de su estudio inicial.
La próxima vez que escuche un descubrimiento estadísticamente significativo que vaya en contra de la creencia común, no se apresure a creerlo.
Dado que la significación estadística tiene que ver con la probabilidad de que algo haya ocurrido debido a la aleatoriedad, un experimentador que esté más interesado en lograr un resultado estadísticamente significativo que en descubrir la verdad puede fácilmente engañar al sistema.
Las probabilidades de sacar dos unos de dos dados son (1/6 × 1/6) = 1/36, o 2,8%; un resultado tan raro que muchas personas lo clasificarían como estadísticamente significativo. ¿Pero qué pasa si tiro más de dos dados? Naturalmente, las probabilidades de al menos dos aumentarán:
- 3 dados: ≈ 7,4%
- 4 dados: ≈ 14,4%
- 5 dados: ≈ 23%
- 6 dados: ≈ 32,4%
- 7 dados: ≈ 42%
- 8 dados: ≈ 51%
- 12 dados: ≈ 80%*
*Al menos dos dados tirando un uno es el equivalente a: 1 (es decir, 100%, seguro), menos la probabilidad de obtener cero unos, menos la probabilidad de sacar solo uno uno
P(cero unos) = (5/6)^n
P(exactamente uno uno) = n * (1/6) * (5/6)^(n-1)
n es el número de dados
Entonces la fórmula completa es: 1 — (5/6)^n — n*(1/6)*(5/6)^(n-1)
Digamos que realizo un experimento simple, con una teoría inicial que uno tiene más probabilidades que otros números de salir. Tiro 12 dados de diferentes colores y tamaños. Aquí están mis resultados:
Desafortunadamente, mis esperanzas (calculadas) de conseguir al menos dos unos han sido destrozados… En realidad, ahora que lo pienso, realmente no quería dos. Estaba más interesado en las probabilidades de los grandes dados rojos. Creo que hay muchas posibilidades de obtener seis de ellos. ¡Ah! Parece que mi teoría es correcta, ¡los dos grandes dados rojos han sacado seis! Sólo hay un 2,8% de posibilidades de que esto suceda por casualidad. Muy interesante. Ahora escribiré un artículo sobre mis hallazgos y trataré de publicarlo en una revista académica que acepte mi resultado como estadísticamente significativo.
Esta historia puede parecer descabellada, pero la realidad no está tan alejada de esto como cabría esperar, especialmente en el prestigioso campo de la investigación académica. De hecho, este tipo de cosas suceden con suficiente frecuencia como para hacerse un nombre, p-piratería.
Si se sorprende, profundizar en el sistema académico aclarará por qué prácticas que parecen abominables para el método científico ocurren con tanta frecuencia dentro del ámbito de la ciencia.
Es excepcionalmente difícil tener una carrera exitosa en la academia. Por ejemplo, solo en materias STEM El 0,45% de los estudiantes de doctorado se convierten en profesores. Por supuesto, algunos estudiantes de doctorado no quieren una carrera académica, pero la mayoría sí (67% según este encuesta). Entonces, en términos generales, tienes un 1% de posibilidades de llegar a ser profesor si has completado un doctorado y quieres hacer de la academia tu carrera. Dadas estas probabilidades, debes considerarte bastante excepcional, o más bien, necesitas que otras personas piensen eso, ya que no puedes contratarte a ti mismo. Entonces, ¿cómo se mide lo excepcional?
Tal vez no sea sorprendente que la medida más importante del éxito de un académico sea su impacto de la investigación. Las medidas comunes del impacto del autor incluyen el índice h, el índice g y el índice i10. Lo que todos tienen en común es que se centran en gran medida en las citas, es decir, cuántas veces se ha mencionado su trabajo publicado en otro trabajo publicado. Sabiendo esto, si queremos tener un buen desempeño académico, debemos centrarnos en publicar investigaciones que probablemente obtengan citas.
estas lejos Es más probable que lo citen si publica su trabajo en una revista académica altamente calificada.. Y, desde El 88% de los artículos de las principales revistas son estadísticamente significativos.es mucho más probable que lo acepten en estas revistas si su investigación es estadísticamente significativa. Esto empuja a muchos académicos bien intencionados, pero impulsados por su carrera, por una pendiente resbaladiza. Comienzan con una metodología científica para producir artículos de investigación como este: