Imagina que estás intentando medir la altura promedio de todos los árboles en un vasto bosque. No es práctico medir cada uno; en cambio, se mide una pequeña muestra y se utilizan esas medidas para estimar el promedio de todo el bosque. Bootstrapping, en estadística, funciona según un principio similar.
Esto implica tomar una pequeña muestra de sus datos y, mediante un método de muestreo repetido, estimar estadísticas (como la media, la mediana o la desviación estándar) para su conjunto de datos. Esta técnica permite hacer inferencias sobre poblaciones a partir de muestras pequeñas con mayor confianza.
En este artículo, cubriremos:
- Los conceptos básicos del bootstrapping, ¿qué es exactamente?
- Cómo lograr una muestra de arranque en BigQuery
- Un experimento para comprender cómo cambian los resultados según los diferentes tamaños de muestra y cómo se relaciona eso con una estadística conocida.
- Un procedimiento almacenado que puede eliminar y utilizar usted mismo
En esencia, el bootstrap implica seleccionar aleatoriamente una cantidad de observaciones de un conjunto de datos, con reemplazo, para formar lo que se conoce como una “muestra de bootstrap”.
Simplifiquemos este concepto usando un escenario en el que tienes una canasta de 25 manzanas y sientes curiosidad por saber el peso promedio de las manzanas en un contexto más amplio, como un mercado.
La técnica de agarrar y anotar
Comienza sumergiéndote en tu canasta para tomar una manzana al azar, pésala y luego, en lugar de dejarla a un lado, la vuelves a poner en tu canasta. De esta manera, cada vez que cojas una manzana, todas y cada una de ellas, incluida la que acabas de pesar, serán presa fácil para volver a recogerlas.
Repetir
Ahora, repites la acción de agarrar, pesar y reemplazar la misma cantidad de veces que manzanas haya en tu…