Una guía para estimar los efectos a largo plazo en las pruebas A/B |  de Kseniia Baidina |  febrero de 2024

Abordar la complejidad de identificar y medir efectos a largo plazo en experimentos en línea

Foto por Isaac Smith en desempaquetar

Imagina que eres analista en una tienda online. Usted y su equipo pretenden comprender cómo la oferta de entrega gratuita afectará la cantidad de pedidos en la plataforma, por lo que decide realizar una prueba A/B. El grupo de prueba disfruta de entrega gratuita, mientras que el grupo de control se apega a la tarifa de entrega habitual. En los primeros días del experimento, observará que más personas completan pedidos después de agregar artículos a sus carritos. Pero el impacto real es a largo plazo: es más probable que los usuarios del grupo de prueba regresen para futuras compras en su plataforma porque saben que ofrece entrega gratuita.

En esencia, ¿cuál es la conclusión clave de este ejemplo? El impacto de la entrega gratuita en los pedidos tiende a aumentar gradualmente. Probarlo solo por un período corto puede significar que se pierda toda la historia, y este es un desafío que pretendemos abordar en este artículo.

En general, podría haber múltiples razones por las que los efectos a corto plazo del experimento difieren de los efectos a largo plazo. [1]:

Efecto del tratamiento heterogéneo

  • El impacto del experimento puede variar para los usuarios frecuentes y ocasionales del producto. A corto plazo, los usuarios frecuentes podrían influir desproporcionadamente en el resultado del experimento, introduciendo un sesgo en el efecto promedio del tratamiento.

Aprendizaje del usuario

  • Efecto de novedad: imagínese esto: introduce una nueva mecánica de gamificación en su producto. Inicialmente, los usuarios sienten curiosidad, pero este efecto tiende a disminuir con el tiempo.
  • Efecto de primacía: piense en cuando Facebook cambió su algoritmo de clasificación de cronológico a recomendaciones. Inicialmente, puede haber una disminución en el tiempo dedicado al feed ya que los usuarios no pueden encontrar lo que esperan, lo que genera frustración. Sin embargo, con el tiempo, es probable que la participación se recupere a medida que los usuarios se acostumbren al nuevo algoritmo y descubran publicaciones interesantes. Los usuarios pueden inicialmente reaccionar negativamente pero eventualmente adaptarse, lo que lleva a una mayor participación.

En este artículo, nos centraremos en abordar dos preguntas:

¿Cómo identificar y probar si el impacto a largo plazo del experimento difiere del impacto a corto plazo?

¿Cómo estimar el efecto a largo plazo cuando no es posible realizar el experimento durante un período suficientemente largo?

Visualización

El paso inicial es observar cómo la diferencia entre los grupos de prueba y control cambia con el tiempo. Si nota un patrón como este, tendrá que profundizar en los detalles para captar el efecto a largo plazo.

IIlustración de Sadeghi et al. (2021) [2]

También podría resultar tentador trazar el efecto del experimento basándose no sólo en el día del experimento sino también en el número de días transcurridos desde la primera exposición.

IIlustración de Sadeghi et al. (2021) [2]

Sin embargo, existen varios inconvenientes cuando se analiza el número de días desde la primera exposición:

  • Sesgo de usuarios comprometidos: El lado derecho del gráfico puede mostrar usuarios más comprometidos. El patrón observado podría no deberse al aprendizaje del usuario sino a diversos efectos del tratamiento. El impacto en los usuarios muy comprometidos podría ser diferente del efecto en los usuarios ocasionales.
  • Cuestión de muestreo selectivo: Podríamos decidir centrarnos únicamente en los usuarios muy comprometidos y observar cómo evoluciona su efecto con el tiempo. Sin embargo, es posible que este subconjunto no represente con precisión toda la base de usuarios.
  • Números de usuarios decrecientes: Es posible que solo unos pocos usuarios tengan una cantidad sustancial de días desde la primera exposición (la parte derecha del gráfico). Esto amplía los intervalos de confianza, lo que dificulta sacar conclusiones fiables.

El método visual para identificar los efectos a largo plazo en un experimento es bastante sencillo y siempre es un buen punto de partida observar la diferencia en los efectos a lo largo del tiempo. Sin embargo, este enfoque carece de rigor; También podría considerar probar formalmente la presencia de efectos a largo plazo. Exploraremos eso en la siguiente parte.

Tarea de experimento de escalera [2]

El concepto detrás de este enfoque es el siguiente: antes de iniciar el experimento, clasificamos a los usuarios en k cohortes y presentarles progresivamente el experimento. Por ejemplo, si dividimos a los usuarios en 4 cohortes, k_1 es el grupo de control, k_2 recibe el tratamiento desde la semana 1, k_3 a partir de la semana 2, y k_4 a partir de la semana 3.

IIlustración de Sadeghiet al. (2021)²

La tasa de aprendizaje del usuario se puede estimar comparando los efectos del tratamiento en varios períodos de tiempo.

IIlustración de Sadeghi et al. (2021) [2]

Por ejemplo, si su objetivo es estimar el aprendizaje del usuario en la semana 4, compararía los valores T4_5 y T4_2.

Los desafíos con este enfoque son bastante evidentes. En primer lugar, introduce complejidades operativas adicionales al diseño del experimento. En segundo lugar, se necesita un número sustancial de usuarios para dividirlos efectivamente en diferentes cohortes y alcanzar niveles de significancia estadística razonables. En tercer lugar, hay que prever de antemano diferentes efectos a largo plazo y prepararse para realizar un experimento en este complicado entorno.

Diferencia en diferencia [2]

Este enfoque es una versión simplificada del anterior. Dividimos el experimento en dos (o más generalmente, en k) períodos de tiempo y comparar el efecto del tratamiento en el primer período con el efecto del tratamiento en el k-ésimo período.

IIlustración de Sadeghi et al. (2021) [2]

En este enfoque, una pregunta vital es cómo estimar la varianza de la estimación para sacar conclusiones sobre la significancia estadística. Los autores sugieren la siguiente fórmula (para más detalles, consulte el artículo):

IIlustración de Sadeghi et al. (2021) [2]

σ2 — la varianza de cada unidad experimental dentro de cada ventana de tiempo

ρ — la correlación de la métrica para cada unidad experimental en dos ventanas de tiempo

Asignación de tratamiento aleatoria versus constante³

Esta es otra extensión de la tarea del experimento en escalera. En este enfoque, el grupo de usuarios se divide en tres grupos: C – grupo de control, mi — el grupo que recibe tratamiento durante todo el experimento, y E1 — el grupo en el que los usuarios son asignados al tratamiento todos los días con probabilidad pag. Como resultado, cada usuario en el E1 El grupo recibirá tratamiento sólo unos días, lo que impedirá el aprendizaje del usuario. Ahora bien, ¿cómo estimamos el aprendizaje de los usuarios? vamos a presentar E1_d — una fracción de los usuarios de E1 expuesto al tratamiento el día d. La tasa de aprendizaje del usuario se determina entonces por la diferencia entre mi y E1_d.

Usuario “Desaprendizaje” [3]

Este enfoque nos permite evaluar tanto la existencia de aprendizaje del usuario como la duración de este aprendizaje. El concepto es bastante elegante: postula que los usuarios aprenden al mismo ritmo que “desaprenden”. La idea es la siguiente: apagar el experimento y observar cómo los grupos de prueba y control convergen a lo largo del tiempo. Como ambos grupos recibirán el mismo tratamiento después del experimento, cualquier cambio en su comportamiento se producirá debido a los diferentes tratamientos durante el período del experimento.

Este enfoque nos ayuda a medir el período necesario para que los usuarios se “olviden” del experimento, y asumimos que este período de olvido será equivalente al tiempo que los usuarios tardan en aprender durante la implementación de la función.

Este método tiene dos inconvenientes importantes: en primer lugar, requiere una cantidad considerable de tiempo para analizar el aprendizaje de los usuarios. Inicialmente, ejecuta un experimento durante un período prolongado para permitir que los usuarios “aprendan” y luego debe desactivar el experimento y esperar a que “desaprendan”. Este proceso puede llevar mucho tiempo. En segundo lugar, es necesario desactivar la función experimental, algo que las empresas pueden dudar en hacer.

Ha establecido con éxito la existencia de aprendizaje del usuario en su experimento y está claro que es probable que los resultados a largo plazo difieran de lo que observa a corto plazo. Ahora la pregunta es cómo predecir estos resultados a largo plazo sin realizar el experimento durante semanas o incluso meses.

Un enfoque consiste en intentar predecir los resultados a largo plazo de Y utilizando datos de corto plazo. El método más simple es utilizar rezagos de Y, y se les conoce como modelos “auto-sustitutos”. Suponga que desea predecir el resultado del experimento después de dos meses pero actualmente solo tiene dos semanas de datos. En este escenario, puedes entrenar un modelo de regresión lineal (o cualquier otro):

IIlustración de Zhang et al. (2023) [5]

metro es el resultado diario promedio para el usuario i más de dos meses

Yi_t son el valor de la métrica para el usuario i en el día t (t varía de 1 a 14 en nuestro caso)

En ese caso, el efecto del tratamiento a largo plazo está determinado por la diferencia en los valores previstos de la métrica para los grupos de prueba y control utilizando modelos sustitutos.

IIlustración de Zhang et al. (2023) [5]

Dónde N / A representa el número de usuarios en el grupo de experimento, y N_0 representa el número de usuarios en el grupo de control.

Parece haber una inconsistencia aquí: nuestro objetivo es predecir µ (el efecto a largo plazo del experimento), pero para entrenar el modelo, requerimos esto µ. Entonces, ¿cómo obtenemos el modelo? Hay dos enfoques:

  • Usando datos previos al experimento: Podemos entrenar un modelo utilizando dos meses de datos previos al experimento para los mismos usuarios.
  • Experimentos similares: Podemos seleccionar un experimento “estándar de oro” del mismo dominio de producto que se ejecutó durante dos meses y usarlo para entrenar el modelo.

En su artículo, Netflix validó este enfoque utilizando 200 experimentos y concluyó que los modelos de índice sustituto son consistentes con mediciones a largo plazo en el 95% de los experimentos. [5].

Hemos aprendido mucho, así que resumámoslo. Los resultados de los experimentos a corto plazo a menudo difieren de los de largo plazo debido a factores como los efectos heterogéneos del tratamiento o el aprendizaje del usuario. Existen varios enfoques para detectar esta diferencia, siendo el más sencillo:

  • Enfoque visual: Simplemente observando la diferencia entre la prueba y el control a lo largo del tiempo. Sin embargo, este método carece de rigor.
  • Diferencia en diferencia: Comparando la diferencia en la prueba y el control al inicio y después de algún tiempo del experimento.

Si sospecha que el usuario está aprendiendo en su experimento, el enfoque ideal es extender el experimento hasta que el efecto del tratamiento se estabilice. Sin embargo, es posible que esto no siempre sea posible debido a restricciones técnicas (por ejemplo, cookies de corta duración) o comerciales. En tales casos, se puede predecir el efecto a largo plazo utilizando modelos sustitutos automáticos, pronosticando el resultado a largo plazo del experimento en Y utilizando retrasos de Y.

Gracias por tomarse el tiempo de leer este artículo. Me encantaría escuchar tu opinión, así que no dudes en compartir cualquier comentario o pregunta que puedas tener.

  1. N. Larsen, J. Stallrich, S. Sengupta, A. Deng, R. Kohavi, NT Stevens, Desafíos estadísticos en experimentos controlados en línea: una revisión de la metodología de pruebas A/B (2023), https://arxiv.org/pdf/2212.11366.pdf
  2. S. Sadeghi, S. Gupta, S. Gramatovici, J. Lu, H. Ai, R. Zhang, Novedad y primacía: un estimador a largo plazo para experimentos en línea (2021), https://arxiv.org/pdf/2102.12893.pdf
  3. H. Hohnhold, D. O’Brien, D. Tang, Centrarse en el largo plazo: es bueno para los usuarios y las empresas (2015), https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43887.pdf
  4. S. Athey, R. Chetty, GW Imbens, H. Kang, El índice sustituto: combinación de indicadores de corto plazo para estimar los efectos del tratamiento a largo plazo de manera más rápida y precisa (2019), https://www.nber.org/system/files/working_papers/w26463/w26463.pdf
  5. V. Zhang, M. Zhao, A. Le, M. Dimakopoulou, N. Kallus, Evaluación del índice sustituto como herramienta de toma de decisiones mediante 200 pruebas A/B en Netflix (2023), https://arxiv.org/pdf/2311.11922.pdf