Por qué es posible que sus experimentos nunca alcancen importancia

Foto por Andrik Langfield en desempaquetar

Los experimentos generalmente comparan la frecuencia de un evento (o alguna otra métrica de suma) después de la exposición (tratamiento) o la no exposición (control) a alguna intervención. Por ejemplo: podríamos comparar la cantidad de compras, los minutos dedicados a ver contenido o la cantidad de clics en una llamada a la acción.

Si bien esta configuración puede parecer sencilla, estándar y común, es sólo «común». Es un problema de análisis espinoso. a menos que Limitamos el período de tiempo posterior a la exposición en el que calculamos la métrica.

En general, para las métricas que simplemente resumen una métrica posterior a la exposición (“métricas ilimitadas”), las siguientes afirmaciones NO son ciertas:

  • Si realizo el experimento por más tiempo, eventualmente alcanzaré significado si el experimento tiene algún efecto.
  • El efecto promedio del tratamiento está bien definido.
  • Al calcular el tamaño de la muestra, puedo utilizar cálculos normales del tamaño de la muestra para calcular la duración del experimento.

Para ver por qué, supongamos que tenemos una métrica Y esa es la suma acumulada de INCÓGNITA, una métrica definida en una sola unidad de tiempo. Por ejemplo, X podría ser el número de minutos vistos hoy e Y sería el total de minutos vistos durante los últimos t días. Suponga tiempo discreto:

Dónde Y es la métrica del experimento descrita anteriormente, un recuento de eventos, t es el tiempo actual del experimento, y i indexa la unidad individual.

Supongamos que el tráfico llega a nuestro experimento a un ritmo constante. r:

dónde t es el número de períodos de tiempo que nuestro experimento ha estado activo.

Supongamos que cada X(yo,s) es independiente y tiene una varianza idéntica (por simplicidad; el mismo problema aparece en mayor o menor medida dependiendo de la autocorrelación, etc.) pero no necesariamente con una media constante. Entonces:

Empezamos a ver el problema. La varianza de nuestra métrica no es constante en el tiempo. De hecho, está creciendo cada vez más.

En un experimento típico, construimos una prueba t para la hipótesis nula de que el efecto del tratamiento es 0 y buscamos evidencia en contra de esa hipótesis nula. Si lo encontramos, diremos que el experimento es una ganancia o una pérdida estadísticamente significativa.

Entonces, ¿cómo se ve el t-stat en este caso, digamos para la hipótesis de que la media de Y es cero?

Conectando norte = rtpodemos escribir la expresión en términos de t,

Como ocurre con cualquier prueba de hipótesis, queremos que cuando la hipótesis nula no sea cierta, el estadístico de prueba aumente a medida que aumenta el tamaño de la muestra, de modo que rechacemos la hipótesis nula y optemos por la alternativa. Una implicación de este requisito es que, bajo la alternativa, la media del estadístico t debería divergir hasta el infinito. Pero…

La media del estadístico t en el momento t es solo la media de la métrica hasta el momento t veces una constante que no varía con el tamaño de la muestra o la duración del experimento. Por lo tanto, la única forma en que puede divergir hasta el infinito es si E[Y