Qué hacen las interacciones, por qué son como cualquier otro cambio en el entorno después del experimento, y cierta tranquilidad
Los experimentos no ejecutan uno a la vez. En cualquier momento, cientos o miles de experimentos se ejecutan en un sitio web maduro. Aparece la pregunta: ¿qué pasa si estos experimentos interactúan entre sí? ¿Es eso un problema? Como con muchas preguntas interesantes, la respuesta es “Sí y no”. ¡Siga leyendo para obtener aún más definido, procesable, completamente claro y seguro, toma así!
Definiciones: experimentos interactuar Cuando el efecto del tratamiento para un experimento depende de a qué variante de otro experimento se asigna la unidad.
Por ejemplo, supongamos que tenemos un experimento que prueba un nuevo modelo de búsqueda y otra prueba de un nuevo modelo de recomendación, impulsando un módulo “personas también compró”. Ambos experimentos se tratan de ayudar a los clientes a encontrar lo que quieren comprar. Las unidades asignadas al algoritmo de recomendación mejor pueden tener un efecto de tratamiento menor en el experimento de búsqueda porque es menos probable que se vean influenciadas por el algoritmo de búsqueda: hicieron su compra debido a la mejor recomendación.
Alguna evidencia empírica sugiere que los efectos típicos de interacción son pequeño. Tal vez no encuentres esto particularmente reconfortante. Tampoco estoy seguro de hacerlo. Después de todo, el tamaño de los efectos de interacción depende de los experimentos que ejecutamos. Para su organización en particular, los experimentos pueden interactuar más o menos. Puede ser el caso de que los efectos de interacción son mayores en su contexto que en las empresas típicamente perfiladas en este tipo de análisis.
Entonces, esta publicación de blog no es un argumento empírico. Es teórico. Eso significa que incluye matemáticas. Entonces va. Intentaremos comprender los problemas con las interacciones con un modelo explícito sin referencia a los datos de una empresa en particular. Incluso si los efectos de interacción son relativamente grandes, encontraremos que rara vez son importantes para Toma de decisiones. Los efectos de interacción deben ser masivos y tener un patrón peculiar para afectar qué experimento gana. El objetivo del blog es traerte tranquilidad.
Supongamos que tenemos dos experimentos A/B. Deje que Z = 1 indique el tratamiento en el primer experimento y W = 1 indique el tratamiento en el segundo experimento. Y es la métrica de interés.
El efecto del tratamiento en el Experimento 1 es:
Descompuestos estos términos para ver cómo la interacción afecta el efecto del tratamiento.
El cubo para un experimento aleatorizado es independiente del cubo en otro experimento aleatorizado, entonces:
Entonces, el efecto del tratamiento es:
O, más sucintamente, el efecto del tratamiento es el promedio ponderado del efecto del tratamiento dentro de las poblaciones W = 1 y W = 0:
Una de las mejores cosas de simplemente escribir las matemáticas es que hace que nuestro problema sea concreto. Podemos ver exactamente la forma que tomará el sesgo de la interacción y lo que determinará su tamaño.
El problema es este: solo w = 1 o w = 0 se lanzará después de que termine el segundo experimento. Por lo tanto, el entorno durante el primer experimento no será el mismo que el entorno después de él. Esto introduce el siguiente sesgo en el efecto del tratamiento:
Supongamos que W = W se lanza, entonces el efecto del tratamiento posterior al experimento para el primer experimento, TE (W = W), no se agota por el efecto del tratamiento del experimento, TE, lo que lleva al sesgo:
Si hay una interacción entre el segundo experimento y el primero, entonces te (w = 1-w)-te (w = w)! = 0, por lo que hay un sesgo.
Entonces, Sílas interacciones causan un sesgo. El sesgo es directamente proporcional al tamaño del efecto de interacción.
Pero Las interacciones no son especiales. Cualquier cosa Eso difiere entre el entorno del experimento y el entorno futuro que afecta el efecto del tratamiento conduce a un sesgo con la misma forma. ¿Su producto tiene demanda estacional? ¿Hubo un gran shock de suministro? ¿La inflación aumentó bruscamente? ¿Qué pasa con las mariposas en Corea? ¿Follaron sus alas?
Los experimentos en línea son no Experimentos de laboratorio. No podemos controlar el entorno. La economía no está bajo nuestro control (lamentablemente). Siempre enfrentamos prejuicios como este.
Por lo tanto, los experimentos en línea no se tratan de estimar los efectos del tratamiento que tienen a la perpetuidad. Ellos son sobre Tomar decisiones. ¿Es mejor que B? Es poco probable que esa respuesta cambie debido a un efecto de interacción por la misma razón por la que generalmente no nos preocupamos por el volteo porque ejecutamos el experimento en marzo en lugar de algún otro mes del año.
Para que las interacciones importen para la toma de decisiones, necesitamos, digamos, TE ≥ 0 (por lo que lanzaríamos B en el primer experimento) y TE (W = W) <0 (pero deberíamos haber lanzado un hecho lo que sucedió en el segundo experimento).
Te ≥ 0 si y solo si:
Tomando la asignación típica PR (W = W) = 0.50, esto significa:
Porque te (w = w) <0, esto solo puede ser cierto si te (w = 1-w)> 0. Lo que tiene sentido. Para que las interacciones sean un problema para la toma de decisiones, el efecto de interacción debe ser lo suficientemente grande como para que un experimento que sea negativo bajo un tratamiento sea positivo bajo el otro.
El efecto de interacción tiene que ser extremo a las asignaciones típicas de 50–50. Si el efecto del tratamiento es de +$ 2 por unidad bajo un tratamiento, el tratamiento debe ser inferior a $ 2 por unidad bajo la otra para interacciones para afectar la toma de decisiones. Para tomar la decisión equivocada del efecto de tratamiento estándar, tendríamos que ser maldecidos con efectos de interacción masivos que cambian el signo del tratamiento y ¡Mantenga la misma magnitud!
Es por eso que no nos preocupa las interacciones y todos esos otros factores (estacionalidad, etc.) que no podemos mantener lo mismo durante y después del experimento. El cambio en el entorno tendría que alterar radicalmente la experiencia del usuario de la función. Probablemente no lo haga.
Siempre es una buena señal cuando su última toma incluye “probablemente”.