Una cola vs. Pruebas de dos colas | Hacia la ciencia de los datos

Introducción

Si alguna vez ha analizado datos utilizando funciones de prueba t incorporadas, como las de R o Scipy, aquí hay una pregunta para usted: ¿Alguna vez ha ajustado la configuración predeterminada para la hipótesis alternativa? Si su respuesta es no, o si ni siquiera está seguro de lo que esto significa, ¡esta publicación de blog es para usted!

El parámetro de hipótesis alternativo, comúnmente conocido como “una cola” versus “dos colas” en estadísticas, define la dirección esperada de la diferencia entre los grupos de control y de tratamiento. En una prueba de dos colas, evaluamos si hay alguna diferencia en los valores medios entre los grupos, sin especificar una dirección. Una prueba de una cola, por otro lado, plantea una dirección específica, ya sea que la media del grupo de control sea menor o mayor que la del grupo de tratamiento.

Elegir entre hipótesis de una y dos colas puede parecer un detalle menor, pero afecta cada etapa de las pruebas A/B: desde la planificación de la prueba hasta Análisis de datos e interpretación de resultados. Este artículo construye una base teórica sobre por qué la dirección de hipótesis importa y explora los pros y los contras de cada enfoque.

Prueba de hipótesis de una cola versus dos colas: Comprender la diferencia

Para comprender la importancia de elegir entre hipótesis de una cola y dos colas, revisemos brevemente los conceptos básicos de la prueba t, el método de uso común en las pruebas A/B. Como otro Prueba de hipótesis Métodos, la prueba t comienza con una suposición conservadora: no hay diferencia entre los dos grupos (la hipótesis nula). Solo si encontramos evidencia fuerte en contra de esta suposición, podemos rechazar la hipótesis nula y concluir que el tratamiento ha tenido un efecto.

¿Pero qué califica como “evidencia fuerte”? Con ese fin, una región de rechazo se determina bajo la hipótesis nula y todos los resultados que caen dentro de esta región se consideran tan poco probables que los tomemos como evidencia contra la viabilidad de la hipótesis nula. El tamaño de esta región de rechazo se basa en una probabilidad predeterminada, conocida como alfa (α), que representa la probabilidad de rechazar incorrectamente la hipótesis nula.

¿Qué tiene esto que ver con la dirección de la hipótesis alternativa? Bastante, en realidad. Mientras que el nivel alfa determina el tamaño de la región de rechazo, la hipótesis alternativa dicta su colocación. En una prueba de una cola, donde planteamos la hipótesis de una dirección específica de diferencia, la región de rechazo está situada en una sola cola de la distribución. Para un efecto positivo hipotético (e .. g., Que la media del grupo de tratamiento es más alta que la media del grupo de control), la región de rechazo se encuentra en la cola derecha, creando una prueba de cola derecha. Por el contrario, si planteamos la hipótesis de un efecto negativo (por ejemplo, que la media del grupo de tratamiento es menor que la media del grupo de control), la región de rechazo se colocaría en la cola izquierda, lo que resulta en una prueba de cola izquierda.

En contraste, una prueba de dos colas permite la detección de una diferencia en cualquier dirección, por lo que la región de rechazo se divide entre ambas colas de la distribución. Esto se adapta a la posibilidad de observar valores extremos en cualquier dirección, si el efecto es positivo o negativo.

Para construir intuición, visualicemos cómo aparecen las regiones de rechazo bajo las diferentes hipótesis. Recuerde que según la hipótesis nula, la diferencia entre los dos grupos debería centrarse alrededor de cero. Gracias al teorema del límite central, también sabemos que esta distribución se aproxima a una distribución normal. En consecuencia, las áreas de rechazo correspondientes a las diferentes hipótesis alternativas se ven así:

¿Por qué hace la diferencia?

La elección de la dirección para la hipótesis alternativa afecta todo el proceso de prueba A/B, comenzando con la fase de planificación, específicamente, para determinar el tamaño de la muestra. El tamaño de la muestra se calcula en función de la potencia deseada de la prueba, que es la probabilidad de detectar una verdadera diferencia entre los dos grupos cuando existe. Para calcular el poder, examinamos el área bajo la hipótesis alternativa que corresponde a la región de rechazo (ya que el poder refleja la capacidad de rechazar la hipótesis nula cuando la hipótesis alternativa es verdadera).

Dado que la dirección de la hipótesis afecta el tamaño de esta región de rechazo, la potencia es generalmente menor para una hipótesis de dos colas. Esto se debe a que la región de rechazo se divide en ambas colas, lo que hace que sea más difícil detectar un efecto en cualquier dirección. El siguiente gráfico ilustra la comparación entre los dos tipos de hipótesis. Tenga en cuenta que el área púrpura es más grande para la hipótesis de una cola, en comparación con la hipótesis de dos colas:

En la práctica, para mantener el nivel de potencia deseado, compensamos la potencia reducida de una hipótesis de dos colas al aumentar el tamaño de la muestra (el aumento del tamaño de la muestra aumenta la potencia, aunque la mecánica de esto puede ser un tema para un artículo separado). Por lo tanto, la elección entre hipótesis de una y dos colas influye directamente en el tamaño de la muestra requerido para su prueba.

Más allá de la fase de planificación, la elección de la hipótesis alternativa afecta directamente el análisis e interpretación de los resultados. Hay casos en los que una prueba puede alcanzar una importancia con un enfoque de una cola, pero no con una de dos colas, y viceversa. Revisar el gráfico anterior puede ayudar a ilustrar esto: por ejemplo, un resultado en la cola izquierda podría ser significativo bajo una hipótesis de dos colas, pero no bajo una hipótesis de una cola derecha. Por el contrario, ciertos resultados pueden caer dentro de la región de rechazo de una prueba derecha de una cola, pero se encuentran fuera del área de rechazo en una prueba de dos colas.

Cómo decidir entre una hipótesis de una cola y dos colas

Comencemos con el resultado final: no hay una elección absoluta o incorrecta aquí. Ambos enfoques son válidos, y la consideración principal debe ser sus necesidades comerciales específicas. Para ayudarlo a decidir qué opción se adapta mejor a su empresa, describiremos los pros y los contras clave de cada uno.

A primera vista, una alternativa de una cola puede parecer la opción clara, ya que a menudo se alinea mejor con los objetivos comerciales. En las aplicaciones de la industria, el enfoque suele ser mejorar las métricas específicas en lugar de explorar el impacto de un tratamiento en ambas direcciones. Esto es especialmente relevante en las pruebas A/B, donde el objetivo a menudo es optimizar las tasas de conversión o mejorar los ingresos. Si el tratamiento no conduce a una mejora significativa, el cambio examinado no se implementará.

Más allá de esta ventaja conceptual, ya hemos mencionado un beneficio clave de una hipótesis de una cola: requiere un tamaño de muestra más pequeño. Por lo tanto, elegir una alternativa de una cola puede ahorrar tiempo y recursos. Para ilustrar esta ventaja, los siguientes gráficos muestran los tamaños de muestra requeridos para hipótesis de una y dos colas con diferentes niveles de potencia (Alpha se establece en 5%).

En este contexto, la decisión entre hipótesis de una y dos colas se vuelve particularmente importante en las pruebas secuenciales, un método que permite el análisis de datos continuo sin inflar el nivel alfa. Aquí, seleccionar una prueba de una cola puede reducir significativamente la duración de la prueba, lo que permite una toma de decisiones más rápida, que es especialmente valiosa en entornos empresariales dinámicos donde las respuestas rápidas son esenciales.

Sin embargo, ¡no se apodere de descartar la hipótesis de dos colas! Tiene sus propias ventajas. En algunos contextos comerciales, la capacidad de detectar “resultados significativos negativos” es un beneficio importante. Como un cliente una vez compartió, prefería resultados significativos negativos sobre los no concluyentes porque ofrecen valiosas oportunidades de aprendizaje. Incluso si el resultado no fuera el esperado, podría concluir que el tratamiento tuvo un efecto negativo y obtener información sobre el producto.

Otro beneficio de las pruebas de dos colas es su interpretación directa utilizando intervalos de confianza (IC). En las pruebas de dos colas, un IC que no incluye cero indica directamente importancia, lo que facilita a los profesionales interpretar los resultados de un vistazo. Esta claridad es particularmente atractiva ya que CIS se usa ampliamente en plataformas de prueba A/B. Por el contrario, con las pruebas de una cola, un resultado significativo aún podría incluir cero en el CI, lo que puede conducir a confusión o desconfianza en los hallazgos. Aunque los intervalos de confianza unilaterales se pueden emplear con pruebas de una cola, esta práctica es menos común.

Conclusiones

Al ajustar un solo parámetro, puede afectar significativamente sus pruebas A/B: específicamente, el tamaño de muestra que necesita recopilar y la interpretación de los resultados. Al decidir entre hipótesis de una y dos colas, considere factores como el tamaño de la muestra disponible, las ventajas de detectar efectos negativos y la conveniencia de alinear los intervalos de confianza (IC) con pruebas de hipótesis. En última instancia, esta decisión debe tomarse pensativamente, teniendo en cuenta lo que mejor se ajusta a sus necesidades comerciales.

(Nota: Todas las imágenes en esta publicación fueron creadas por el autor)