En el artículo anterior, exploramos la agrupación basada en la distancia con K-Means.
Además: para mejorar la forma en que se puede medir la distancia, agregamos varianza para obtener la distancia de Mahalanobis.
Entonces, si k-Means es la versión no supervisada del clasificador de centroide más cercano, entonces la pregunta natural es:
¿Cuál es la versión no supervisada de QDA?
Esto significa que, al igual que QDA, cada grupo ahora debe describirse no solo por su media, sino también por su varianza (y también tenemos que agregar covarianza si el número de características es mayor que 2). Pero aquí todo se aprende sin etiquetas.
Entonces ves la idea, ¿verdad?
Y bueno, el nombre de este modelo es Modelo de Mezcla Gaussiana (GMM)…
GMM y los nombres de estos modelos…
Como suele ocurrir, los nombres de los modelos provienen de motivos históricos. No siempre están diseñados para resaltar las conexiones entre modelos, si no se encuentran juntos.
Diferentes investigadores, diferentes épocas, diferentes casos de uso… y terminamos con nombres que a veces esconden la verdadera estructura detrás de las ideas.
Aquí, el nombre “Modelo de mezcla gaussiana” simplemente significa que los datos se representan como una mezcla de varias distribuciones gaussianas.
Si seguimos la misma lógica de nomenclatura que k-Means, habría sido más claro llamarlo algo así como k-Mezcla gaussiana.
Porque, en la práctica, en lugar de utilizar sólo los medios, sumamos la varianza. Y podríamos simplemente usar la distancia de Mahalanobis u otra distancia ponderada que utilice medias y varianza. Pero la distribución gaussiana nos da probabilidades que son más fáciles de interpretar.
Entonces elegimos un número k de componentes gaussianas.
Y por cierto, GMM no es el único.
De hecho, todo el marco de aprendizaje automático es mucho más reciente que muchos de los modelos que contiene. La mayoría de estas técnicas se desarrollaron originalmente en estadística, procesamiento de señales, econometría o reconocimiento de patrones.
Luego, mucho más tarde, surgió el campo que ahora llamamos “aprendizaje automático” y reagrupó todos estos modelos bajo un mismo paraguas. Pero los nombres no cambiaron.
Por eso hoy utilizamos una mezcla de vocabularios provenientes de diferentes épocas, diferentes comunidades y diferentes intenciones.
Es por eso que las relaciones entre modelos no siempre son obvias cuando nos fijamos sólo en los nombres.
Si tuviéramos que cambiar el nombre de todo con un estilo de aprendizaje automático moderno y unificado, el panorama sería mucho más claro:
GMM se convertiría en k-Gaussian Clustering QDA se convertiría en el clasificador gaussiano más cercano LDA, bueno, el clasificador gaussiano más cercano con la misma variación entre clases.
Y de repente aparecen todos los enlaces:
k-Medias ↔ Centroide más cercano GMM ↔ Gaussiano más cercano (QDA)
Por eso GMM es tan natural después de K-Means. Si K-Means agrupa puntos por su centroide más cercano, entonces GMM los agrupa por su forma gaussiana más cercana.
¿Por qué toda esta sección para discutir los nombres?
Bueno, la verdad es que, como ya cubrimos el algoritmo k-means, y ya hicimos la transición del Clasificador de centroides más cercano a QDA, ya sabemos todo sobre este algoritmo, y el algoritmo de entrenamiento no cambiará…
¿Y cuál es el NOMBRE de este algoritmo de entrenamiento?
Oh, el algoritmo de Lloyd.
En realidad, antes de que k-means se llamara así, se lo conocía simplemente como algoritmo de Lloyd, publicado por Stuart Lloyd en 1957. Solo más tarde, la comunidad de aprendizaje automático lo cambió a “k-means”.
Y este algoritmo manipuló sólo los medios, por lo que necesitamos otro nombre, ¿verdad?
Ya ves hacia dónde va esto: ¡el algoritmo de maximización de expectativas!
EM es simplemente la forma general de la idea de Lloyd. Lloyd actualiza las medias, EM actualiza todo: medias, variaciones, ponderaciones y probabilidades.
¡Ya sabes todo sobre GMM!
Pero como mi artículo se llama “GMM en Excel”, no puedo terminar mi artículo aquí…
GMM en 1 dimensión
Comencemos con este conjunto de datos simple, el mismo que usamos para k-medias: 1, 2, 3, 11, 12, 13
Hmm, los dos gaussianos tendrán las mismas variaciones. ¡Así que piensa en jugar con otros números en Excel!
Y naturalmente queremos 2 grupos.
Aquí están los diferentes pasos.
Inicialización
Comenzamos con conjeturas sobre medias, variaciones y pesos.
Paso de expectativa (paso E)
Para cada punto, calculamos la probabilidad de que pertenezca a cada gaussiano.
Paso de maximización (paso M)
Utilizando estas probabilidades, actualizamos las medias, las varianzas y las ponderaciones.
Iteración
Repetimos el paso E y el paso M hasta que los parámetros se estabilicen.
Cada paso es extremadamente simple una vez que las fórmulas son visibles.
Verás que EM no es más que actualizar promedios, varianzas y probabilidades.
También podemos hacer algo de visualización para ver cómo se mueven las curvas gaussianas durante las iteraciones.
Al principio, las dos curvas gaussianas se superponen mucho porque las medias y varianzas iniciales son sólo conjeturas.
Las curvas se separan lentamente, ajustan su anchura y finalmente se asientan exactamente en los dos grupos de puntos.
Al trazar las curvas gaussianas en cada iteración, literalmente puedes ver cómo aprende el modelo:
las medias se deslizan hacia los centros de los datos las variaciones se reducen para igualar la extensión de cada grupo la superposición desaparece las formas finales coinciden con la estructura del conjunto de datos
Esta evolución visual es extremadamente útil para la intuición. Una vez que ves que las curvas se mueven, EM ya no es un algoritmo abstracto. Se convierte en un proceso dinámico que puedes seguir paso a paso.
GMM en 2 dimensiones
La lógica es exactamente la misma que en 1D. Nada nuevo conceptualmente. Simplemente ampliamos las fórmulas…
En lugar de tener una característica por punto, ahora tenemos dos.
Cada gaussiano ahora debe aprender:
una media para x1 una media para x2 una varianza para x1 una varianza para x2 Y un término de covarianza entre las dos características.
Una vez que escribas las fórmulas en Excel, verás que el proceso sigue siendo exactamente el mismo:
Bueno, la verdad es que si miras la captura de pantalla, podrías pensar: “¡Vaya, qué larga es la fórmula!” Y esto no es todo.
Pero no os dejéis engañar. La fórmula es larga sólo porque escribimos explícitamente la densidad gaussiana bidimensional:
una parte de la distancia en x1 una parte de la distancia en x2 el término de covarianza la constante de normalización
Nada más.
Es simplemente la fórmula de densidad expandida celda por celda.
Es largo de escribir, pero perfectamente comprensible una vez que ves la estructura: una distancia ponderada, dentro de una exponencial, dividida por el determinante.
Así que sí, la fórmula parece grande… pero la idea detrás de ella es extremadamente simple.
Conclusión
K-Means ofrece límites estrictos.
GMM da probabilidades.
Una vez que las fórmulas EM se escriben en Excel, el modelo se vuelve fácil de seguir: las medias se mueven, las varianzas se ajustan y las gaussianas se asientan naturalmente alrededor de los datos.
GMM es solo el siguiente paso lógico después de k-Means, y ofrece una forma más flexible de representar grupos y sus formas.