Matrice de corrélation

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

En statistiques, une matrice de corrélation regroupe les corrélations de plusieurs variables entre elles, les coefficients indiquant l'influence que les variables ont les unes sur les autres. L'iconographie des corrélations en donne une visualisation graphique.


Définition[modifier | modifier le code]

La corrélation entre deux variables aléatoires X et Y est définie comme suit :


 \operatorname{Cor}(X,Y)=\frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}}


\operatorname{Cov}(X,Y)=\mathbb{E}\left[(X-\mathbb{E}(X))(Y-\mathbb{E}(Y))\right]

Si deux variables sont indépendantes, leur coefficient de corrélation vaut 0. Le contraire est faux : si Y=X^2, \operatorname{Cor}(X,Y)=0. Le coefficient de corrélation est toujours compris entre -1 et 1. On dit que deux variables sont corrélées positivement si leur coefficient de corrélation est positif, négativement sinon.

Exemple[modifier | modifier le code]

En anthropométrie, on mesure

  • la stature
  • la hauteur du buste
  • la longueur du membre supérieur

d'un certain nombre d'individus. Plus ce nombre est grand et plus les corrélations sont représentatives. Puis on calcule par des lois statistiques l'influence des variables les unes sur les autres. On obtient la matrice suivante :

Matrice de corrélation (valeurs fictives)
Stature Buste Membre sup.
Stature 1
Buste 0,85 1
Membre sup 0,55 0,63 1
  • La valeur 1 signifie que les deux variables sont exactement corrélées, c'est le cas d'une relation exactement linéaire entre deux variables.
  • Le 0,85 signifie que la stature joue pour 72,25 % (0,85) × (0,85) sur la valeur de la hauteur du buste, et ainsi de suite ...
  • La moitié manquante de la matrice peut être complétée par une symétrie selon la diagonale si les corrélations sont réversibles.