Matrice de confusion

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

En apprentissage automatique supervisé, la matrice de confusion est une matrice qui mesure la qualité d'un système de classification. Chaque ligne correspond à une classe réelle, chaque colonne correspond à une classe estimée. La cellule ligne L, colonne C contient le nombre d'éléments de la classe réelle L qui ont été estimés comme appartenant à la classe C[1].

Un des intérêts de la matrice de confusion est qu'elle montre rapidement si un système de classification parvient à classifier correctement.

Exemple[modifier | modifier le code]

On souhaite mesurer la qualité d'un système de classification de courriers électroniques. Les courriers sont classifiés selon deux classes : courriel pertinent ou pourriel intempestif. Supposons que notre classificateur est testé avec un jeu de 200 mails, dont 100 sont des courriels pertinents et les 100 autres sont des pourriels.

Pour cela, on veut savoir :

  • combien de courriels seront faussement estimés comme des pourriels (fausses alarmes) et
  • combien de pourriels ne seront pas estimés comme tels (non détections) et classifiés à tort comme courriels.

La matrice de confusion suivante se lit alors comme suit :

  • horizontalement, sur les 100 courriels initiaux (ie : 95+5), 95 ont été estimés par le système de classification comme tels et 5 ont été estimés comme pourriels (ie : 5 faux-négatifs),
  • horizontalement, sur les 100 pourriels initiaux (ie : 3+97), 3 ont été estimés comme courriels (ie : 3 faux-positifs) et 97 ont été estimés comme pourriels,
  • verticalement, sur les 98 mails (ie : 95+3) estimés par le système comme courriels, 3 sont en fait des pourriels,
  • verticalement, sur les 102 mails (ie : 5+97) estimés par le système comme pourriels, 5 sont en fait des courriels.
Classe estimée par le classificateur
courriel pourriel
Classe réelle courriel 95
(vrais positifs)
5
(faux négatifs)
pourriel 3
(faux positifs)
97
(vrais négatifs)

Cette notion s'étend à un nombre quelconque de classes. On peut normaliser cette matrice pour en simplifier la lecture : dans ce cas, un système de classification sera d'autant meilleur que sa matrice de confusion s'approchera d'une matrice diagonale.

Notes et références[modifier | modifier le code]

  1. « Confusion Matrix », sur www2.cs.uregina.ca (consulté le 16 mai 2019)

Articles connexes[modifier | modifier le code]