En las pruebas A/B, a menudo es necesario equilibrar el poder estadístico y la duración de la prueba. Descubra cómo la asignación, el tamaño del efecto, el CUPED y la binarización pueden ayudarle.

Imagen del autor

En las pruebas A/B, a menudo es necesario equilibrar el poder estadístico y la duración de la prueba. Quiere una prueba sólida que pueda encontrar cualquier efecto, lo que generalmente significa que necesita muchos usuarios. Esto hace que la prueba sea más larga para obtener suficiente poder estadístico. Pero también se necesitan pruebas más breves para que la empresa pueda «avanzar» rápidamente, lanzar nuevas funciones y optimizar las existentes.

Afortunadamente, la duración de la prueba no es la única forma de lograr la potencia deseada. En este artículo, le mostraré otras formas en que los analistas pueden alcanzar la potencia deseada sin alargar la prueba. Pero antes de meternos en el negocio, un poco de teoría (porque compartir es cuidar).

Poder estadístico: importancia y factores influyentes

La inferencia estadística, especialmente la prueba de hipótesis, es la forma en que evaluamos diferentes versiones de nuestro producto. Este método analiza dos escenarios posibles: o la nueva versión es diferente de la anterior o son iguales. Comenzamos asumiendo que ambas versiones son iguales y solo cambiamos esta visión si los datos sugieren claramente lo contrario.

Sin embargo, pueden ocurrir errores. Podríamos pensar que hay una diferencia cuando no la hay, o podríamos pasar por alto una diferencia cuando la hay. El segundo tipo de error se llama error de tipo II y está relacionado con el concepto de poder estadístico. El poder estadístico mide la probabilidad de NO cometer un error de Tipo II, lo que significa que muestra la probabilidad de que detectemos una diferencia real entre las versiones, si existe. Tener una potencia alta en una prueba es importante porque una potencia baja significa que es menos probable que encontremos un efecto real entre las versiones.

Hay varios factores que influyen en el poder. Para tener una idea, consideremos los dos escenarios que se describen a continuación. Cada gráfico muestra las distribuciones de ingresos para dos versiones. ¿En qué escenario crees que hay un poder superior? ¿Dónde es más probable que detectemos una diferencia entre versiones?

Imagen del autor

La intuición clave sobre el poder reside en la distinción de las distribuciones. Una mayor diferenciación mejora nuestra capacidad para detectar efectos. Por lo tanto, mientras ambos escenarios muestran que los ingresos de la versión 2 superan a los de la versión 1, el escenario B muestra un mayor poder para discernir diferencias entre las dos versiones. El grado de superposición entre distribuciones depende de dos parámetros principales:

  1. Varianza: La varianza refleja la diversidad en la variable dependiente. Los usuarios difieren inherentemente, lo que genera variaciones. A medida que aumenta la variación, se intensifica la superposición entre versiones, lo que disminuye el poder.
  2. Tamaño del efecto: el tamaño del efecto denota la disparidad en los centros de las distribuciones de la variable dependiente. A medida que crece el tamaño del efecto y se amplía la brecha entre las medias de distribución, la superposición disminuye, lo que refuerza el poder.

Entonces, ¿cómo se puede mantener el nivel de potencia deseado sin ampliar el tamaño de las muestras ni ampliar las pruebas? Sigue leyendo.

Asignación

Al planificar su prueba A/B, la forma en que asigna a los usuarios entre los grupos de control y tratamiento puede afectar significativamente el poder estadístico de su prueba. Cuando divide equitativamente a los usuarios entre los grupos de control y de tratamiento (por ejemplo, 50/50), maximiza la cantidad de puntos de datos en cada grupo dentro de un período de tiempo necesario. Este equilibrio ayuda a detectar diferencias entre los grupos porque ambos tienen suficientes usuarios para proporcionar datos confiables. Por otro lado, si asigna usuarios de manera desigual (por ejemplo, 90/10), el grupo con menos usuarios podría no tener datos suficientes para mostrar un efecto significativo dentro del período de tiempo necesario, lo que reduciría el poder estadístico general de la prueba.

Para ilustrar, considere esto: si un experimento requiere 115.000 usuarios con una asignación del 50%-50% para alcanzar un nivel de potencia del 80%, cambiar a un 90%-10% requeriría 320.000 usuarios y, por lo tanto, extendería el tiempo de ejecución del experimento. para alcanzar el mismo nivel de potencia del 80%.

Imagen del autor

Sin embargo, las decisiones de asignación no deberían ignorar por completo las necesidades empresariales. Dos escenarios principales pueden favorecer una asignación desigual:

  1. Cuando existe la preocupación de que la nueva versión pueda perjudicar gravemente el rendimiento de la empresa. En tales casos, es aconsejable comenzar con una asignación desigual, como 90%-10%, y luego pasar a una asignación igualitaria.
  2. Durante eventos puntuales, como el Black Friday, donde aprovechar la oportunidad de tratamiento es crucial. Por ejemplo, tratar al 90% de la población y dejar al 10% sin tratar permite conocer el tamaño del efecto.

Por lo tanto, la decisión sobre la asignación de grupos debe tener en cuenta tanto las ventajas estadísticas como los objetivos comerciales, teniendo en cuenta que la asignación equitativa conduce al experimento más poderoso y brinda la mayor oportunidad para detectar mejoras.

Tamaño del efecto

El poder de una prueba está estrechamente relacionado con su efecto mínimo detectable (MDE): si una prueba está diseñada para explorar efectos pequeños, la probabilidad de detectar estos efectos será pequeña (lo que resulta en un poder bajo). En consecuencia, para mantener suficiente potencia, los analistas de datos deben compensar los pequeños MDE aumentando la duración de la prueba.

Esta compensación entre MDE y el tiempo de ejecución de la prueba juega un papel crucial en la determinación del tamaño de muestra requerido para lograr un cierto nivel de potencia en la prueba. Si bien muchos analistas comprenden que las MDE más grandes requieren tamaños de muestra más pequeños y tiempos de ejecución más cortos (y viceversa), a menudo pasan por alto la naturaleza no lineal de esta relación.

¿Por qué es esto importante? La implicación de una relación no lineal es que cualquier aumento en el MDE produce una ganancia desproporcionadamente mayor en términos de tamaño de muestra. Dejemos de lado las matemáticas por un segundo. Y eche un vistazo al siguiente ejemplo: si la tasa de conversión de referencia en nuestro experimento es del 10%, un MDE del 5% requeriría 115,5 mil usuarios. Por el contrario, un MDE del 10 % solo requeriría 29,5 mil usuarios. En otras palabras, para duplicar el MDE, logramos una reducción de casi 4 veces en el tamaño de la muestra. En tu cara, linealidad.

Imagen del autor

En la práctica, esto es relevante cuando tienes limitaciones de tiempo. También conocido como siempre. En tales casos, sugiero a los clientes que consideren aumentar el efecto del experimento, como ofrecer una bonificación más alta a los usuarios. Naturalmente, esto aumenta el MDE debido al mayor efecto previsto, lo que reduce significativamente el tiempo de ejecución del experimento requerido para el mismo nivel de potencia. Si bien dichas decisiones deben alinearse con los objetivos comerciales, cuando sean viables, ofrecen un medio sencillo y eficiente para garantizar la potencia del experimento, incluso bajo limitaciones de tiempo de ejecución.

Reducción de varianza (CUPED)

Uno de los factores más influyentes en el análisis de poder es la variación del indicador clave de rendimiento (KPI). Cuanto mayor sea la variación, más largo será el experimento para alcanzar un nivel de potencia predefinido. Por tanto, si es posible reducir la varianza, también es posible alcanzar la potencia requerida con una duración de prueba más corta.

Un método para reducir la varianza es CUPED (Experimento controlado utilizando datos previos al experimento). La idea detrás de este método es utilizar datos previos al experimento para reducir la variación y aislar el impacto de la variante. Para intuir un poco, imaginemos una situación (no especialmente realista…) en la que el cambio de la nueva variante hace que cada usuario gaste un 10% más de lo que ha gastado hasta ahora. Supongamos que tenemos tres usuarios que han gastado 100, 10, 1 dólares hasta ahora. Con la nueva variante, estos usuarios gastarán 110, 11, 1,1 dólares. La idea de utilizar datos pasados ​​es restar los datos históricos de cada usuario de los datos actuales, lo que da como resultado la diferencia entre los dos, es decir, 10, 1, 0,1. No necesitamos entrar en el cálculo detallado para ver que la varianza es mucho mayor para los datos originales en comparación con los datos de diferencia. Si insiste, le revelaremos que en realidad redujimos la varianza en un factor de 121 simplemente utilizando datos que ya hemos recopilado.

En el último ejemplo, simplemente restamos los datos anteriores de cada usuario de los datos actuales. La implementación de CUPED es un poco más compleja y tiene en cuenta la correlación entre los datos actuales y los datos pasados. En cualquier caso, la idea es la misma: al utilizar datos históricos, podemos reducir la variación entre usuarios y aislar la variación causada por la nueva variante.

Para utilizar CUPED, es necesario tener datos históricos de cada usuario y debería ser posible identificar a cada usuario en la nueva prueba. Si bien estos requisitos no siempre se cumplen, según mi experiencia, son bastante comunes en algunas empresas e industrias, por ejemplo, juegos, SAAS, etc. En tales casos, implementar CUPED puede ser muy importante tanto para la planificación del experimento como para el análisis de datos. Al menos con este método, estudiar historia puede crear un futuro mejor.

Binarización

En términos generales, los KPI se dividen en dos categorías: continuos y binarios. Cada tipo tiene sus propios méritos. La ventaja de los KPI continuos es la profundidad de la información que ofrecen. A diferencia de los KPI binarios, que proporcionan un simple sí o no, los KPI continuos tienen información tanto cuantitativa como cualitativa de los datos. Se puede ver una ilustración clara de esta diferencia comparando “usuario que paga” e “ingresos”. Si bien los usuarios que pagan arrojan un resultado binario (pagado o no), los ingresos revelan la cantidad real gastada.

Pero ¿qué pasa con las ventajas de un KPI binario? A pesar de contener menos información, su rango restringido conduce a una variación menor. Y si ha estado siguiendo hasta ahora, sabrá que la varianza reducida a menudo aumenta el poder estadístico. Por lo tanto, implementar un KPI binario requiere menos usuarios para detectar el efecto con el mismo nivel de potencia. Esto puede resultar muy valioso cuando existen limitaciones en la duración de la prueba.

Entonces, ¿qué es mejor: un KPI binario o continuo? Bueno, es complicado. Si una empresa enfrenta limitaciones en la duración del experimento, utilizar un KPI binario para la planificación puede ofrecer una solución viable. Sin embargo, la principal preocupación gira en torno a si el KPI binario proporcionaría una respuesta satisfactoria a la pregunta empresarial. En ciertos escenarios, una empresa puede decidir que una nueva versión es superior si aumenta los usuarios que pagan; en otros, podría preferir basar la transición de versión en datos más completos, como la mejora de los ingresos. Por lo tanto, binarizar una variable continua puede ayudarnos a gestionar las limitaciones de la duración de un experimento, pero exige una aplicación juiciosa.

Conclusiones

En este artículo, hemos explorado varias técnicas simples pero potentes para mejorar la potencia sin prolongar la duración de las pruebas. Al comprender la importancia de parámetros clave como la asignación, el MDE y los KPI elegidos, los analistas de datos pueden implementar estrategias sencillas para elevar la eficacia de sus esfuerzos de prueba. Esto, a su vez, permite una mayor recopilación de datos y proporciona conocimientos más profundos sobre su producto.

Por automata