Prueba de chi cuadrado: revelando patrones ocultos en sus datos | de Vito Rihaldijiran

Cuando se habla de prueba de hipótesis, hay muchos enfoques que podemos adoptar, dependiendo de los casos particulares. Las pruebas comunes como la prueba z y la prueba t son los métodos utilizados para probar nuestras hipótesis (hipótesis nula y alternativa). La métrica que queremos probar difiere según el problema. Generalmente, al generar hipótesis, involucramos media poblacional o proporción de población como métrica para expresarlos. Digamos que queremos probar si la proporción poblacional de estudiantes que tomaron el examen de matemáticas y obtuvieron 75 es más del 80%. Denotemos la hipótesis nula por H0 y la hipótesis alternativa por H1; generamos las hipótesis mediante:

Figura 1: Ejemplo de generación de hipótesis por autor

Después de eso, deberíamos ver nuestros datos, ya sea que la varianza de la población sea conocida o desconocida, para decidir qué fórmula estadística de prueba debemos usar. En este caso, utilizamos el estadístico z para la fórmula de proporción. Para calcular las estadísticas de la prueba de nuestra muestra, primero, estimamos la proporción de la población dividiendo el número total de estudiantes que obtuvieron 75 por el número total de estudiantes que participaron en la prueba. Después de eso, ingresamos la proporción estimada para calcular el estadístico de prueba usando la fórmula del estadístico de prueba. Luego, determinamos a partir del resultado de la estadística de prueba si rechazará o no rechazará la hipótesis nula comparándola con la región de rechazo o el valor p.

Pero ¿qué pasa si queremos probar diferentes casos? ¿Qué pasa si hacemos inferencias sobre la proporción de la variable grupo de estudiantes (por ejemplo, clase A, B, C, etc.) en nuestro conjunto de datos? ¿Qué pasa si queremos probar si existe alguna asociación entre grupos de estudiantes y su preparación antes del examen (están haciendo cursos extra fuera de la escuela o no)? ¿Es independiente o no? ¿Qué pasa si queremos probar datos categóricos e inferir su población en nuestro conjunto de datos? Para probar eso, usaremos la prueba de chi-cuadrado.

La prueba de chi-cuadrado está diseñada para ayudarnos a sacar conclusiones sobre datos categóricos que se clasifican en diferentes categorías. Compara las frecuencias observadas (recuentos) de cada categoría con las frecuencias esperadas según la hipótesis nula. Denotado como X², chi-cuadrado tiene una distribución, a saber distribución chi-cuadradolo que nos permite determinar la importancia de las desviaciones observadas de los valores esperados.

Figura 2: Distribución de Chi cuadrado realizada en Matplotlib por autor

El gráfico describe la distribución continua de cada grado de libertad en la prueba de chi-cuadrado. En la prueba de chi-cuadrado, para demostrar si rechazaremos o no la hipótesis nula, no usamos la tabla z o t para decidir, pero usamos la tabla de chi cuadrado. Enumera las probabilidades del nivel de significancia seleccionado y el grado de libertad de chi-cuadrado. Hay dos tipos de pruebas de chi-cuadrado, la prueba de bondad de ajuste de chi-cuadrado y la prueba de chi-cuadrado de una tabla de contingencia. Cada uno de estos tipos tiene un propósito diferente a la hora de abordar la prueba de hipótesis. Paralelamente al planteamiento teórico de cada prueba, te mostraré cómo demostrar esas dos pruebas en ejemplos prácticos.

Este es el primer tipo de prueba de chi-cuadrado. Esta prueba analiza un grupo de datos categóricos de una única variable categórica con k categorías. Se utiliza para explicar específicamente la proporción de observaciones en cada categoría dentro de la población. Por ejemplo, encuestamos a 1000 estudiantes que obtuvieron al menos 75 en su examen de matemáticas. Observamos que de 5 grupos de estudiantes (Clase A a E), la distribución es así:

Figura 3: Datos ficticios generados aleatoriamente por el autor

Lo haremos tanto de forma manual como de Python. Empecemos por el manual.

formular hipótesis

Como sabemos, ya hemos encuestado a 1000 estudiantes. Quiero probar si las proporciones de la población en cada clase son iguales. Las hipótesis serán:

Figura 4: Hipótesis de estudiantes que obtuvieron al menos 75 en 5 clases por autor

Estadística de prueba

La fórmula del estadístico de prueba para la prueba de bondad de ajuste de chi-cuadrado es la siguiente:

Figura 5: Prueba de bondad de ajuste de Chi-cuadrado por autor

Dónde:

k: número de categorías
fi: recuentos observados
ei: recuentos esperados

Ya tenemos el número de categorías (5 de Clase A a E) y los conteos observados, pero aún no tenemos los conteos esperados. Para calcular eso, deberíamos reflexionar sobre nuestras hipótesis. En este caso, asumo que todas las proporciones de clases son iguales, que es del 20%. Crearemos otra columna en el conjunto de datos llamada Esperado. Lo calculamos multiplicando el número total de observaciones por la proporción que elijamos:

Figura 6: Calcular los recuentos esperados por autor

Ahora ingresamos la fórmula así para cada valor observado y esperado:

Figura 7: Calcular el estadístico de prueba de la prueba de bondad de ajuste por autor

Ya tenemos el resultado de la estadística de la prueba. Pero, ¿cómo decidimos si rechazará o no rechazará la hipótesis nula?

Regla de decisión

Como se mencionó anteriormente, usaremos la tabla de chi cuadrado para comparar el estadístico de prueba. Recuerde que una estadística de prueba pequeña respalda la hipótesis nula, mientras que una estadística de prueba significativa respalda la hipótesis alternativa. Por lo tanto, deberíamos rechazar la hipótesis nula cuando el estadístico de prueba es sustancial (lo que significa que se trata de una prueba de cola superior). Debido a que hacemos esto manualmente, usamos la región de rechazo para decidir si rechazará o no la hipótesis nula. La región de rechazo se define como sigue:

Figura 8: Región de rechazo de la prueba de bondad de ajuste por autor

Dónde:

α: Nivel de significancia
k: número de categorías

La regla general es: Si nuestro estadístico de prueba es más significativo que el valor de la tabla de chi-cuadrado que buscamos, rechazamos la hipótesis nula. Usaremos el nivel de significancia del 5% y veremos la tabla de chi-cuadrado. El valor de chi-cuadrado con un nivel de significancia del 5% y grados de libertad de 4 (cinco categorías menos 1), obtenemos 9,49. Porque nuestra estadística de prueba es mucho más significativa que el valor de la tabla chi-cuadrado (70,52 > 9,49), rechazamos la hipótesis nula a un nivel de significancia del 5%. ¡Ahora ya sabes cómo realizar la prueba de bondad de ajuste de chi-cuadrado!

Enfoque de Python

Este es el enfoque de Python para la prueba de bondad de ajuste de chi-cuadrado usando SciPy:

import pandas as pd
from scipy.stats import chisquare# Define the student data
data = {
'Class': ['A', 'B', 'C', 'D', 'E'],
'Observed': [157, 191, 186, 163, 303]
}
# Transform dictionary into dataframe
df = pd.DataFrame(data)
# Define the null and alternative hypotheses
null_hypothesis = "p1 = 20%, p2 = 20%, p3 = 20%, p4 = 20%, p5 = 20%"
alternative_hypothesis = "The population proportions do not match the given proportions"
# Calculate the total number of observations and the expected count for each category
total_count = df['Observed'].sum()
expected_count = total_count / len(df)  # As there are 5 categories
# Create a list of observed and expected counts
observed_list = df['Observed'].tolist()
expected_list = [expected_count] * len(df)
# Perform the Chi-Squared goodness-of-fit test
chi2_stat, p_val = chisquare(f_obs=observed_list, f_exp=expected_list)
# Print the results
print(f"\nChi2 Statistic: {chi2_stat:.2f}")
print(f"P-value: {p_val:.4f}")
# Print the conclusion
if p_val < 0.05:
print("Reject the null hypothesis: The population proportions do not match the given proportions.")
else:
print("Fail to reject the null hypothesis: The population proportions match the given proportions.")

Usando el valor p, también obtuvimos el mismo resultado. Rechazamos la hipótesis nula a un nivel de significancia del 5%.

Figura 9: Resultado de la prueba de bondad de ajuste utilizando Python por autor

Ya sabemos cómo hacer inferencias sobre la proporción de una variable categórica. Pero ¿qué pasa si quiero comprobar si dos variables categóricas son independientes?

Para comprobarlo, utilizamos la prueba de chi-cuadrado de la tabla de contingencia. Utilizaremos la tabla de contingencia para calcular el valor estadístico de la prueba. Una tabla de contingencia es una tabla de tabulación cruzada que clasifica recuentos que resumen la distribución combinada de dos variables categóricas, cada una de las cuales tiene un número finito de categorías. De esta mesa, usted puede determinar si la distribución de una variable categórica es consistente en todas las categorías de la otra variable categórica.

Explicaré cómo hacerlo manualmente y usando Python. En este ejemplo, tomamos una muestra de 1000 estudiantes que obtuvieron al menos 75 en su examen de matemáticas. Quiero probar si la variable de un grupo de estudiantes y la variable de los estudiantes que han tomado el curso complementario (Tomado o No) fuera de la escuela antes de la prueba son independientes. La distribución es así:

Figura 10: Datos ficticios de la tabla de contingencia generada aleatoriamente por el autor

formular hipótesis

Generar estas hipótesis es muy sencillo. Definimos las hipótesis como:

Figura 11: Generar hipótesis de prueba de tabla de contingencia por autor

Estadística de prueba

Esta es la parte más difícil. Al manejar datos reales, le sugiero que utilice Python u otro software estadístico directamente porque el cálculo es demasiado complicado si lo hacemos manualmente. Pero como queremos conocer el enfoque a partir de la fórmula, hagamos el cálculo manual. El estadístico de prueba de esta prueba es:

Figura 12: Fórmula de la tabla de contingencia Chi-cuadrado por autor

Dónde:

r = número de filas
c = número de columnas
fij: los recuentos observados
eij = (i-ésima fila total * j-ésima fila total)/tamaño de muestra

Recuerde la Figura 9, esos valores son sólo los observados. Antes de usar la fórmula del estadístico de prueba, debemos calcular los recuentos esperados. Lo hacemos mediante:

Figura 13: Recuentos esperados de la tabla de contingencia por autor

Ahora obtenemos los recuentos observados y esperados. Después de eso, calcularemos el estadístico de prueba mediante:

Figura 14: Calcular la estadística de prueba de la prueba de tabla de contingencia por autor

Regla de decisión

Ya tenemos la estadística de prueba; ahora lo comparamos con la región de rechazo. La región de rechazo para la prueba de la tabla de contingencia está definida por:

Figura 15: Región de rechazo de la prueba de la tabla de contingencia por autor

Dónde:

α: Nivel de significancia
r = número de filas
c = número de columnas

La regla general es la misma que la prueba de bondad de ajuste: Si nuestro estadístico de prueba es más significativo que el valor de la tabla de chi-cuadrado que buscamos, rechazamos la hipótesis nula. Usaremos el nivel de significancia del 5%. Como la fila total es 5 y la columna total es 2, buscamos el valor de chi-cuadrado con un nivel de significancia del 5% y grados de libertad de (5–1) * (2–1) = 4, y obtenemos 15.5. Debido a que el estadístico de prueba es menor que el valor de la tabla chi-cuadrado (22,9758 > 15,5), Rechazamos la hipótesis nula a un nivel de significancia del 5%.

Enfoque de Python

Este es el enfoque de Python para la prueba de la tabla de contingencia de chi-cuadrado usando SciPy:

import pandas as pd
from scipy.stats import chi2_contingency# Create the dataset
data = {
'Class': ['group A', 'group B', 'group C', 'group D', 'group E'],
'Taken Course': [91, 131, 117, 75, 197],
'Not Taken Course': [66, 60, 69, 88, 106]
}
# Create a DataFrame
df = pd.DataFrame(data)
df.set_index('Class', inplace=True)
# Perform the Chi-Squared test for independence
chi2_stat, p_val, dof, expected = chi2_contingency(df)
# Print the results
print("Expected Counts:")
print(pd.DataFrame(expected, index=df.index, columns=df.columns))
print(f"\nChi2 Statistic: {chi2_stat:.4f}")
print(f"P-value: {p_val:.4f}")
# Print the conclusion
if p_val < 0.05:
print("\nReject the null hypothesis: The variables are not independent")
else:
print("\nFail to reject the null hypothesis: The variables are independent")

Usando el valor p, también obtuvimos el mismo resultado. Rechazamos la hipótesis nula a un nivel de significancia del 5%.

Figura 16: Resultado de la prueba de la tabla de contingencia usando Python por autor

Ahora que comprende cómo realizar pruebas de hipótesis utilizando el método de prueba de chi-cuadrado, es hora de aplicar este conocimiento a sus propios datos. ¡Feliz experimento!

La prueba de chi-cuadrado es un poderoso método estadístico que nos ayuda a comprender las relaciones y distribuciones dentro de datos categóricos. Es fundamental formular el problema y las hipótesis adecuadas antes de lanzarse a la prueba en sí. Una muestra grande también es vital para realizar una prueba de chi-cuadrado; por ejemplo, funciona bien para tamaños de hasta 5000 (Bergh, 2015), ya que tamaños de muestra pequeños pueden generar resultados inexactos. Para interpretar los resultados correctamente, elija el nivel de significancia correcto y compare la estadística de chi-cuadrado con el valor crítico de la tabla de distribución de chi-cuadrado o el valor p.

G.Keller, Estadística para la Gestión y la Economía11.a ed., Capítulo 15, Cengage Learning (2017).
Daniel, Bergh. (2015). Prueba de ajuste de chi-cuadrado y tamaño de muestra: una comparación entre un enfoque de muestra aleatoria y un método de ajuste del valor de chi-cuadrado. Revista de medición aplicada, 16(2):204–217.

Prueba de chi cuadrado: revelando patrones ocultos en sus datos | de Vito Rihaldijiran | junio de 2024

ByEquipo de 7 minutos

formular hipótesis

Estadística de prueba

Regla de decisión

Enfoque de Python

formular hipótesis

Estadística de prueba

Regla de decisión

Enfoque de Python

By Equipo de 7 minutos

Related Post

Google AI lanza diagnóstico automático: un sistema basado en LLM de modelo de lenguaje grande para diagnosticar fallas en las pruebas de integración a escala

Las 19 principales herramientas de AI Red Teaming (2026): proteja sus modelos de aprendizaje automático

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

You missed

El contrato de 18 millones de dólares de Scottie Pippen fue el peor en la historia de la NBA

Volcada con mosca en plaza pública – Noticias Costa Tropical Gazette

Qué pasó con el juez de ‘DWTS’ – Hollywood Life

Una cueva escondida en Gran Bretaña revela hipopótamos prehistóricos, animales de la Edad del Hielo y evidencia de la existencia de los primeros humanos durante más de 100.000 años