Más allá del teorema de imposibilidad de agrupación de Kleinberg: mi nota de estudio sobre un marco de evaluación de agrupación pragmática |  de Michio Suginoo |  junio de 2024

Ahora, centrémonos en la validación interna y la validación externa. A continuación, enumeraré algunas métricas de mi elección con hipervínculos donde puede rastrear sus definiciones y fórmulas en detalle.

Dado que no cubriré las fórmulas para estas métricas, se recomienda a los lectores que sigan los hipervínculos que se proporcionan a continuación para descubrirlas.

A. Métricas utilizadas para la Validación Interna

El objetivo de la validación interna es establecer la calidad de la estructura de agrupación basándose únicamente en el conjunto de datos proporcionado.

Clasificación de los métodos de evaluación interna:

Los métodos de validación interna se pueden clasificar de acuerdo con las clases de metodologías de agrupación. Una clasificación típica de agrupamiento se puede formular de la siguiente manera:

  • Métodos de partición (por ejemplo, K-medias),
  • Métodos jerárquicos (por ejemplo, agrupamiento aglomerativo),
  • Métodos de base de densidad (por ejemplo, DBSCAN), y
  • el resto

Aquí, cubro los dos primeros: agrupamiento particionado y agrupamiento jerárquico.

a) Métodos de partición: por ejemplo, K-medias

Para los métodos de partición, existen tres bases de métricas de evaluación: cohesión, separación y su híbrido.

Cohesión:

La cohesión evalúa la cercanía de la estructura de datos interna del clúster. Cuanto menor sea el valor de las métricas de cohesión, mejor calidad serán los clusters. Un ejemplo de métricas de cohesión es:

  • SSW: Suma de errores al cuadrado dentro del clúster.

Separación:

La separación es una métrica entre clústeres y evalúa la dispersión de la estructura de datos entre clústeres. La idea detrás de una métrica de separación es maximizar la distancia entre grupos. Un ejemplo de métricas de cohesión es:

  • SSB: Suma de errores al cuadrado entre clusters.

Híbrido de cohesión y separación:

El tipo híbrido cuantifica el nivel de separación y cohesión en una única métrica. Aquí hay una lista de ejemplos:

i) El coeficiente de silueta.: en el rango de [-1, 1]

Esta métrica es una medida relativa de la distancia entre grupos con el grupo vecino.

Aquí hay una interpretación general de la métrica:

  • El mejor valor: 1
  • El peor valor: -1.
  • Valores cercanos a 0: grupos superpuestos.
  • Valores negativos: alta posibilidad de que una muestra esté asignada a un conglomerado equivocado.

A continuación se muestra un ejemplo de caso de uso de la métrica: https://www.geeksforgeeks.org/silhouette-index-cluster-validity-index-set-2/?ref=ml_lbp

ii) El coeficiente Calisnki-Harabasz:

También conocida como Criterio de relación de varianza, esta métrica mide la relación entre la suma de la dispersión entre grupos y la dispersión intragrupo para todos los grupos.

Para una asignación determinada de conglomerados, cuanto mayor sea el valor de la métrica, mejor será el resultado de la agrupación: ya que un valor más alto indica que los conglomerados resultantes son compactos y están bien separados.

A continuación se muestra un ejemplo de caso de uso de la métrica: https://www.geeksforgeeks.org/dunn-index-and-db-index-cluster-validity-indices-set-1/?ref=ml_lbp

iii) Índice de Dann:

Para una asignación determinada de conglomerados, un índice de Dunn más alto indica una mejor agrupación.

A continuación se muestra un ejemplo de caso de uso de la métrica: https://www.geeksforgeeks.org/dunn-index-and-db-index-cluster-validity-indices-set-1/?ref=ml_lbp

iv) Puntuación de Davies Bouldin:

La métrica mide la relación entre la similitud dentro de un grupo y la similitud entre grupos. Lógicamente, una métrica más alta sugiere una estructura intra-clúster más densa y una estructura entre-clústeres más separada, por lo tanto, un mejor resultado de agrupación.

A continuación se muestra un ejemplo de caso de uso de la métrica: https://www.geeksforgeeks.org/davies-bouldin-index/

b) Métodos jerárquicos: por ejemplo, algoritmo de agrupamiento de aglomerados

i) Juicio humano basado en la representación visual del dendrograma.

Aunque Palacio-Niño & Berzal no incluyeron el juicio humano; Es una de las herramientas más útiles para la validación interna de agrupaciones jerárquicas basadas en dendrogramas.

En cambio, los coautores enumeraron las siguientes dos métricas de coeficiente de correlación especializadas en evaluar los resultados de una agrupación jerárquica.

Para ambos, sus valores más altos indican mejores resultados. Ambos toman valores en el rango de [-1, 1].

ii) El coeficiente de correlación cofenética (CCPC): [-1, 1]

Mide la distancia entre observaciones en el agrupamiento jerárquico definido por el vínculo.

iii) Estadística de Hubert: [-1, 1]

Un valor de Hubert más alto corresponde a una mejor agrupación de datos.

c) Categoría potencial: Aprendizaje autosupervisado

El aprendizaje autosupervisado puede generar representaciones de características que pueden usarse para la agrupación. Los aprendizajes autosupervisados ​​no tienen etiquetas explícitas en el conjunto de datos, pero utilizan los datos de entrada como etiquetas para el aprendizaje. Palacio-Niño y Berzal no incluyeron marcos autosupervisados, como codificadores automáticos y GAN, para su propuesta en esta sección. Bueno, no son algoritmos de agrupamiento en sí. Sin embargo, mantendré este dominio en particular pendiente de mi nota. El tiempo dirá si surge alguna métrica especializada de este dominio en particular.

Antes de cerrar la sección de validación interna, aquí hay una advertencia de Gere (2023).

Elegir el algoritmo de agrupamiento jerárquico adecuado y el número de clusters es siempre una cuestión clave… En muchos casos, los investigadores no publican ninguna razón por la que se eligió una medida de distancia y una regla de vinculación determinadas junto con los números de conglomerado. La razón detrás de esto podría ser que las diferentes técnicas de comparación y validación de conglomerados dan resultados contradictorios en la mayoría de los casos. … Los resultados de los métodos de validación se desvían, lo que sugiere que la agrupación depende en gran medida del conjunto de datos en cuestión. Aunque la distancia euclidiana, el método de Ward parece una opción segura, se recomienda encarecidamente probar y validar diferentes combinaciones de agrupamiento.

Sí, es una tarea difícil.

Ahora, pasemos a la validación externa.