Indice de Calinski-Harabasz

Un article de Wikipédia, l'encyclopédie libre.

L'indice de Calinski-Harabasz est une mesure de qualité d'une partition d'un ensemble de données en classification automatique

C'est le rapport entre la variance inter-groupes et la variance intra-groupe.

Il se rapproche beaucoup du critère utilisé pour stopper certains algorithmes de partitionnement, comme les K-means. De tels algorithmes vont donc maximiser ce score, par construction.

Une alternative à l'indice de Calinski-Harabasz est l'indice de Dunn ou encore l'indice de Davies-Bouldin.

Expression[modifier | modifier le code]

Position du problème[modifier | modifier le code]

Si l'on note la matrice des données, dont chaque ligne correspond à un individu (ou observation) et chaque colonne correspond à un prédicteur (ou variable). On note le nombre d'individus et le nombre de prédicteurs :

Notons la dissimilarité entre les individus et (respectivement, ligne et de ). Notons le nombre de groupes que l'on souhaite former.

Un algorithme de partitionnement donnera une fonction d'attribution dont on cherche à évaluer la pertinence par un score. L'ensemble des points appartenant à un groupe est alors donné par .

Expression de l'indice de Calinski-Harabasz[modifier | modifier le code]

Notons le point moyen du groupe et le point moyen de tout le nuage. L'indice (ou score) de Calinski-Harabasz, , se base sur la variance inter-groupes et les variances intra-groupes .

Il aura pour expression[1] :


Propriétés[modifier | modifier le code]

Domaine de variation[modifier | modifier le code]

L'indice de Calinski-Harabasz varie entre 0 (pire classification) et (meilleure classification). Il dépend fortement de (le nombre de points dans l'échantillon). Toutes choses égales par ailleurs, il croit linéairement avec . Par conséquent, son ordre de grandeur peut varier considérablement d'un jeu de données à l'autre.

Complexité[modifier | modifier le code]


Notes et références[modifier | modifier le code]

  1. (en) « Clustering Indices », sur cran.r-project.org (consulté le )

Voir aussi[modifier | modifier le code]