15wtaso7q 6a0mvav6awwwg.png

Descubra por qué la prueba t de Welch es el método preferido para realizar comparaciones estadísticas precisas, incluso cuando las varianzas difieren.

Foto por Simón Maage en desempaquetar

Parte 1: Antecedentes

En el primer semestre de mi posgrado, tuve la oportunidad de realizar el curso STAT7055: Introducción a la Estadística para Negocios y Finanzas. A lo largo del curso, definitivamente me sentí un poco agotado a veces, pero la cantidad de conocimiento que adquirí sobre la aplicación de varios métodos estadísticos en diferentes situaciones fue realmente impagable. Durante la octava semana de conferencias, algo realmente interesante me llamó la atención, específicamente el concepto de Prueba de Hipótesis al comparar dos poblaciones. Me pareció fascinante aprender cómo difiere el enfoque según si las muestras son independientes o pareadas, así como qué hacer cuando conocemos o no la varianza poblacional de las dos poblaciones, además de cómo realizar pruebas de hipótesis. para dos proporciones. Sin embargo, hay un aspecto que no se cubrió en el material y me mantiene preguntándome cómo abordar este escenario en particular, que es realizar una prueba de hipótesis a partir de dos medias poblacionales cuando las varianzas son desiguales, conocido como Prueba t de Welch.

Para comprender el concepto de cómo se aplica la prueba t de Welch, podemos explorar un conjunto de datos para el caso de ejemplo. Cada etapa de este proceso implica la utilización del conjunto de datos del mundo real.

Parte 2: el conjunto de datos

El conjunto de datos que estoy utilizando contiene datos del mundo real sobre estimaciones de la oferta y la demanda agrícola mundial (WASDE) que se actualizan periódicamente. El conjunto de datos WASDE es elaborado por la Junta Mundial de Perspectivas Agrícolas (WAOB). Es un informe mensual que proporciona predicciones anuales para varias regiones del mundo y Estados Unidos en lo que respecta al trigo, el arroz, los cereales secundarios, las semillas oleaginosas y el algodón. Además, el conjunto de datos también cubre pronósticos para el azúcar, la carne, las aves, los huevos y la leche en los Estados Unidos. Proviene del sitio web de Nasdaq y puede acceder a él de forma gratuita aquí: Conjunto de datos WASDE. Hay 3 conjuntos de datos, pero solo uso el primero, que son los datos de oferta y demanda. Las definiciones de las columnas se pueden ver aquí:

Figura 1: Definiciones de columnas por Nasdaq

Voy a utilizar dos muestras diferentes de regiones, productos y artículos específicos para simplificar el proceso de prueba. Además, utilizaremos el lenguaje de programación R para el procedimiento de un extremo a otro.

Ahora hagamos una preparación de datos adecuada:

library(dplyr)

# Read and preprocess the dataframe
wasde_data <- read.csv("wasde_data.csv") %>%
select(-min_value, -max_value, -year, -period) %>%
filter(item == "Production", commodity == "Wheat")

# Filter data for Argentina and Australia
wasde_argentina <- wasde_data %>%
filter(region == "Argentina") %>%
arrange(desc(report_month))

wasde_oz <- wasde_data %>%
filter(region == "Australia") %>%
arrange(desc(report_month))

Dividí dos muestras en dos regiones diferentes, a saber, Argentina y Australia. Y la atención se centra en la producción de productos básicos de trigo.

Ahora estamos listos. Pero espera..

Antes de profundizar más en la aplicación de la prueba t de Welch, no puedo evitar preguntarme por qué es necesario comprobar si las varianzas de dos poblaciones son iguales o no.

Parte 3: Prueba de igualdad de varianzas

Al realizar pruebas de hipótesis para comparar dos medias poblacionales sin conocer las varianzas poblacionales, es crucial confirmar la igualdad de las varianzas para seleccionar la prueba estadística adecuada. Si las varianzas resultan ser las mismas, optamos por la prueba t de varianzas agrupadas; de lo contrario, podemos utilizar la prueba t de Welch. Este importante paso garantiza la precisión de los resultados, ya que utilizar una prueba incorrecta podría generar conclusiones erróneas debido a mayores riesgos de errores de Tipo I y Tipo II. Al verificar la igualdad en las varianzas, nos aseguramos de que el proceso de prueba de hipótesis se base en suposiciones precisas, lo que en última instancia conduce a conclusiones más confiables y válidas.

Entonces, ¿cómo probamos las dos varianzas poblacionales?

Tenemos que generar dos hipótesis como se muestra a continuación:

Figura 2: hipótesis nula y alternativa para probar varianzas de igualdad por autor

La regla general es muy simple:

  1. Si el estadístico de prueba cae en la región de rechazo, entonces se rechaza H0 o hipótesis nula.
  2. De lo contrario, no podremos rechazar H0 o la hipótesis nula.

Podemos plantear las hipótesis así:

# Hypotheses: Variance Comparison
h0_variance <- "Population variance of Wheat production in Argentina equals that in Australia"
h1_variance <- "Population variance of Wheat production in Argentina differs from that in Australia"

Ahora deberíamos hacer la estadística de prueba. Pero, ¿cómo obtenemos esta estadística de prueba? usamos Prueba F.

Una prueba F es cualquier prueba estadística que se utiliza para comparar las varianzas de dos muestras o la relación de varianzas entre varias muestras. El estadístico de prueba, variable aleatoria F, se utiliza para determinar si los datos probados tienen una distribución F bajo la hipótesis nula verdadera y los supuestos habituales verdaderos sobre el término de error.

Figura 3: Ilustración de la función de densidad de probabilidad (PDF) de la distribución F por Wikipedia

podemos generar el valor estadístico de prueba dividiendo dos varianzas muestrales como esto:

Figura 4: Fórmula de prueba F por autor

y la región de rechazo es:

Figura 5: Región de rechazo de la prueba F por autor

donde n es el tamaño de la muestra y alfa es el nivel de significancia. entonces, cuando el valor de F cae en cualquiera de estas regiones de rechazo, rechazamos la hipótesis nula.

pero..

El truco es: el etiquetado de la muestra 1 y la muestra 2 es en realidad aleatorio, así que asegúrese de colocar la varianza de muestra más grande en la parte superior cada vez. De esta manera, nuestro estadístico F será consistentemente mayor que 1, y sólo necesitamos referirnos al límite superior para rechazar H0 en el nivel de significancia α siempre que.

podemos hacer esto mediante:

# Calculate sample variances
sample_var_argentina <- var(wasde_argentina$value)
sample_var_oz <- var(wasde_oz$value)

# Calculate F calculated value
f_calculated <- sample_var_argentina / sample_var_oz

Usaremos un nivel de significancia del 5% (0,05), por lo que la regla de decisión es:

# Define significance level and degrees of freedom
alpha <- 0.05
alpha_half <- alpha / 2
n1 <- nrow(wasde_argentina)
n2 <- nrow(wasde_oz)
df1 <- n1 - 1
df2 <- n2 - 1

# Calculate critical F values
f_value_lower <- qf(alpha_half, df1, df2)
f_value_upper <- qf(1 - alpha_half, df1, df2)

# Variance comparison result
if (f_calculated > f_value_lower & f_calculated < f_value_upper) {
cat("Fail to Reject H0: ", h0_variance, "\n")
equal_variances <- TRUE
} else {
cat("Reject H0: ", h1_variance, "\n")
equal_variances <- FALSE
}

el resultado es Rechazamos la hipótesis nula con un nivel de significancia del 5%., en otras palabras, a partir de esta prueba creemos que las varianzas poblacionales de las dos poblaciones no son iguales. Ahora sabemos por qué deberíamos utilizar la prueba t de Welch en lugar de la prueba t de varianza agrupada.

Parte 4: El plato principal, prueba t de Welch

La prueba t de Welch, también llamada prueba t de varianzas desiguales de Welch, es un método estadístico utilizado para comparar las medias de dos muestras separadas. En lugar de suponer varianzas iguales como la prueba t de varianzas combinadas estándar, la prueba t de Welch es más sólida ya que no parte de esta suposición. Este ajuste en grados de libertad conduce a una evaluación más precisa de la diferencia entre las dos medias muestrales. Al no asumir varianzas iguales, la prueba t de Welch ofrece un resultado más confiable cuando se trabaja con datos del mundo real donde esta suposición puede no ser cierta. Se prefiere por su adaptabilidad y confiabilidad, ya que garantiza que las conclusiones extraídas de los análisis estadísticos sigan siendo válidas incluso si no se cumple el supuesto de varianzas iguales.

La fórmula del estadístico de prueba es:

Figura 6: fórmula estadística de prueba de la prueba t de Welch por autor

dónde:

y el Grado de Libertad se puede definir así:

Figura 7: Fórmula del grado de libertad por autor

La región de rechazo para la prueba t de Welch depende del nivel de significancia elegido y de si la prueba es de una o dos colas.

Prueba de dos colas: La hipótesis nula se rechaza si el valor absoluto del estadístico de prueba |t| es mayor que el valor crítico de la distribución t con ν grados de libertad en α/2.

prueba de una cola: La hipótesis nula se rechaza si el estadístico de prueba t es mayor que el valor crítico de la distribución t con ν grados de libertad en α para una prueba de cola superior, o si t es menor que el valor crítico negativo para una prueba de cola inferior. prueba de cola.

  • Prueba de cola superior: t > tα,ν
  • Prueba de cola inferior: t < −tα,ν

Así que hagamos un ejemplo con Prueba t de Welch de una cola.

generemos las hipótesis:

h0_mean <- "Population mean of Wheat production in Argentina equals that in Australia"
h1_mean <- "Population mean of Wheat production in Argentina is greater than that in Australia"

esto es un prueba de cola superior, entonces la región de rechazo es: t > tα,ν

y utilizando la fórmula dada anteriormente, y utilizando el mismo nivel de significancia (0,05):

# Calculate sample means
sample_mean_argentina <- mean(wasde_argentina$value)
sample_mean_oz <- mean(wasde_oz$value)

# Welch's t-test (unequal variances)
s1 <- sample_var_argentina
s2 <- sample_var_oz
t_calculated <- (sample_mean_argentina - sample_mean_oz) / sqrt(s1/n1 + s2/n2)
df <- (s1/n1 + s2/n2)^2 / ((s1^2/(n1^2 * (n1-1))) + (s2^2/(n2^2 * (n2-1))))
t_value <- qt(1 - alpha, df)

# Mean comparison result
if (t_calculated > t_value) {
cat("Reject H0: ", h1_mean, "\n")
} else {
cat("Fail to Reject H0: ", h0_mean, "\n")
}

el resultado es Si no logramos rechazar H0 con un nivel de significancia del 5%, entonces la media poblacional de producción de trigo en Argentina es igual a la de Australia.

Así es como se realiza la prueba t de Welch. Ahora te toca. ¡Feliz experimento!

Parte 5: Conclusión

Al comparar dos medias poblacionales durante la prueba de hipótesis, es muy importante comenzar verificando si las varianzas son iguales. Este paso inicial es crucial ya que ayuda a decidir qué prueba estadística utilizar, garantizando resultados precisos y confiables. Si resulta que las varianzas son realmente iguales, puede seguir adelante y aplicar la prueba t estándar con varianzas agrupadas. Sin embargo, en los casos en que las varianzas no sean iguales, se recomienda utilizar la prueba t de Welch.

La prueba t de Welch proporciona una solución sólida para comparar medias cuando el supuesto de varianzas iguales no se cumple. Al ajustar los grados de libertad para adaptarse a las varianzas desiguales, la prueba t de Welch proporciona una evaluación más precisa y confiable de la importancia estadística de la diferencia entre dos medias muestrales. Esta adaptabilidad lo convierte en una opción popular en diversas situaciones prácticas donde los tamaños y variaciones de las muestras pueden variar significativamente.

En conclusión, verificar la igualdad de varianzas y utilizar la prueba t de Welch cuando sea necesario garantiza la precisión de la prueba de hipótesis. Este enfoque reduce las posibilidades de errores de tipo I y tipo II, lo que da como resultado conclusiones más confiables. Al seleccionar la prueba adecuada basada en la igualdad de varianzas, podemos analizar con confianza los hallazgos y tomar decisiones bien informadas basadas en evidencia empírica.

Recursos