Un histograma es un gráfico que visualiza la frecuencia de datos numéricos. Se utiliza comúnmente en ciencia de datos y estadística para tener una estimación bruta de la distribución de un conjunto de datos. La estimación de la densidad del kernel (KDE) es un método para estimar la función de densidad de probabilidad (PDF) de una variable aleatoria con una distribución desconocida utilizando una muestra aleatoria extraída de esa distribución. Por lo tanto, nos permite inferir la densidad de probabilidad de una población, con base en un conjunto de datos finito muestreado de ella. KDE se utiliza a menudo en procesamiento de señales y ciencia de datos, como herramienta esencial para estimar la densidad de probabilidad. Este artículo analiza las matemáticas y la intuición detrás de los histogramas y KDE y sus ventajas y limitaciones. También demuestra cómo se puede implementar KDE en Python desde cero. Todas las figuras de este artículo fueron creadas por el autor.
Función de densidad de probabilidad
Dejar X ser una variable aleatoria continua. La probabilidad de que X toma un valor en el intervalo [a, b] Se puede escribir como
dónde f(x) es XFunción de densidad de probabilidad (PDF). El función de densidad acumulada (FDC) de X Se define como:
De ahí el CDF de Xevaluado en Xes la probabilidad de que X tomará un valor menor o igual a X. Usando la Ecuación 1, podemos escribir:
Usando el teorema fundamental del cálculo, podemos demostrar que
lo que significa que el PDF de X puede determinarse tomando la derivada de su CDF con respecto a X. Un histograma es el método más simple para estimar la PDF de un conjunto de datos y, como mostramos en la siguiente sección, utiliza la Ecuación 1 para este propósito.
Histogramas
En el Listado 1, creamos una distribución bimodal como una mezcla de dos distribuciones normales y extraemos una muestra aleatoria de tamaño 1000 de esta distribución. Aquí mezclamos dos distribuciones normales:
Por tanto, la media de las distribuciones normales es 0 y 4 respectivamente y su varianza es 1 y 0,8 respectivamente. Los coeficientes de mezcla son 0,7 y 0,3, por lo que la PDF de la mezcla de estas distribuciones es:
El Listado 1 traza este PDF y muestra en la Figura 1.