Los experimentos generalmente comparan la frecuencia de un evento (o alguna otra métrica de suma) después de la exposición (tratamiento) o la no exposición (control) a alguna intervención. Por ejemplo: podríamos comparar la cantidad de compras, los minutos dedicados a ver contenido o la cantidad de clics en una llamada a la acción.
Si bien esta configuración puede parecer sencilla, estándar y común, es sólo «común». Es un problema de análisis espinoso. a menos que Limitamos el período de tiempo posterior a la exposición en el que calculamos la métrica.
En general, para las métricas que simplemente resumen una métrica posterior a la exposición (“métricas ilimitadas”), las siguientes afirmaciones NO son ciertas:
- Si realizo el experimento por más tiempo, eventualmente alcanzaré significado si el experimento tiene algún efecto.
- El efecto promedio del tratamiento está bien definido.
- Al calcular el tamaño de la muestra, puedo utilizar cálculos normales del tamaño de la muestra para calcular la duración del experimento.
Para ver por qué, supongamos que tenemos una métrica Y esa es la suma acumulada de INCÓGNITA, una métrica definida en una sola unidad de tiempo. Por ejemplo, X podría ser el número de minutos vistos hoy e Y sería el total de minutos vistos durante los últimos t días. Suponga tiempo discreto:
Dónde Y es la métrica del experimento descrita anteriormente, un recuento de eventos, t es el tiempo actual del experimento, y i indexa la unidad individual.
Supongamos que el tráfico llega a nuestro experimento a un ritmo constante. r:
dónde t es el número de períodos de tiempo que nuestro experimento ha estado activo.
Supongamos que cada X(yo,s) es independiente y tiene una varianza idéntica (por simplicidad; el mismo problema aparece en mayor o menor medida dependiendo de la autocorrelación, etc.) pero no necesariamente con una media constante. Entonces:
Empezamos a ver el problema. La varianza de nuestra métrica no es constante en el tiempo. De hecho, está creciendo cada vez más.
En un experimento típico, construimos una prueba t para la hipótesis nula de que el efecto del tratamiento es 0 y buscamos evidencia en contra de esa hipótesis nula. Si lo encontramos, diremos que el experimento es una ganancia o una pérdida estadísticamente significativa.
Entonces, ¿cómo se ve el t-stat en este caso, digamos para la hipótesis de que la media de Y es cero?
Conectando norte = rtpodemos escribir la expresión en términos de t,
Como ocurre con cualquier prueba de hipótesis, queremos que cuando la hipótesis nula no sea cierta, el estadístico de prueba aumente a medida que aumenta el tamaño de la muestra, de modo que rechacemos la hipótesis nula y optemos por la alternativa. Una implicación de este requisito es que, bajo la alternativa, la media del estadístico t debería divergir hasta el infinito. Pero…
La media del estadístico t en el momento t es solo la media de la métrica hasta el momento t veces una constante que no varía con el tamaño de la muestra o la duración del experimento. Por lo tanto, la única forma en que puede divergir hasta el infinito es si E[Y