Covariance

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur les redirections Pour le principe physique, voir Principe de covariance générale.
Page d'aide sur l'homonymie Ne pas confondre avec la covariance d'un tenseur en algèbre ou en géométrie différentielle, ou d'un foncteur en théorie des catégories.
Nuage de points associé à une loi normale multidimensionnelle avec un écart type de 3 dans la direction droite-haut et un écart type de 1 dans la direction orthogonale. Puisque les composantes en x et y « covarient », les variances respectives de ces variables ne permettent pas de décrire complètement la distribution. Une matrice de covariance 2×2 est nécessaire ; les flèches indiquent les directions des vecteurs propres de la matrice et leurs longueurs correspondent aux racines carrées de ses valeurs propres.

En théorie des probabilités et en statistique, la covariance entre deux variables aléatoires est un nombre permettant de quantifier leurs écarts conjoints par rapport à leurs espérances respectives. Elle s’utilise également pour deux séries de données numériques (écarts par rapport aux moyennes).

La covariance est une extension de la notion de variance. La corrélation est une forme normalisée de la covariance (l’unité physique de la covariance entre deux variables est le produit de leurs unités, alors que la corrélation est sans unité).

La covariance de deux variables aléatoires indépendantes est nulle, bien que la réciproque ne soit pas toujours vraie.

Ce concept se généralise naturellement à plusieurs variables (vecteur aléatoire) par la matrice de covariance (ou matrice de variance-covariance) qui, pour un ensemble de p variables aléatoires réelles X_1,\dots,X_p\, est la matrice carrée dont l'élément de la ligne i et de la colonne j est la covariance des variables Xi et Xj. Cette matrice permet de quantifier la variation de chaque variable par rapport à chacune des autres. La forme normalisée de la matrice de covariance est la matrice de corrélation.

À titre d'exemple, la dispersion d'un ensemble de points aléatoires dans un espace à deux dimensions ne peut pas être totalement caractérisée par un seul nombre, ni par les seules variances dans les directions x et y ; une matrice 2 × 2 permet d’appréhender pleinement la nature bidimensionnelle des variations.

La matrice de covariance étant une matrice semi-définie positive, elle peut être diagonalisée et l’étude des valeurs propres et vecteurs propres permet de caractériser la distribution à l’aide d’une base orthogonale : cette approche est l'objet de l'analyse en composantes principales qui peut être considérée comme une sorte de compression de l’information.


Définition de la covariance[modifier | modifier le code]

La covariance de deux variables aléatoires réelles X et Y ayant chacune une variance (finie[1]), notée Cov(X,Y) ou parfois \sigma_{XY}, est la valeur :

Définition — \operatorname{Cov}(X,Y)\equiv \operatorname{E}[(X-\operatorname{E}[X])\,(Y-\operatorname{E}[Y])]

\scriptstyle \ \operatorname{E}[]\ désigne l'espérance mathématique. La variance de X est donc Var(X) = Cov(X, X).

Intuitivement, la covariance caractérise les variations simultanées de deux variables aléatoires : elle sera positive lorsque les écarts entre les variables et leurs moyennes ont tendance à être de même signe, négative dans le cas contraire.

Pour des variables aléatoires physiques, l’unité de la covariance est le produit des unités des variables (conformément à l‘expression de sa définition). En revanche, la corrélation, qui s’exprime à l’aide de la variance et de la covariance, prend ses valeurs dans [-1;1] (sans unité).

Deux variables aléatoires dont la covariance est nulle sont dites non corrélées : leur corrélation est également nulle.

Pour deux variables discrètes X et Y prenant respectivement leurs valeurs dans deux ensembles finis \scriptstyle \ \{x_i\,|\, 1\le i\le n\}, et \scriptstyle \ \{y_j\,|\, 1\le j\le m\}, on a

\operatorname{Cov}(X,Y) = \sum_{i=1}^n \sum_{j=1}^m\,x_i y_j \operatorname{P}(X=x_i\ \textrm{et}\ Y=y_j)-\operatorname{E}[X]\operatorname{E}[Y].

tandis que:

\sigma_X^2 = \sum_{i=1}^n x_i^2 \operatorname{P}(X=x_i)-\operatorname{E}[X]^2\quad\textrm{et}\quad\sigma_Y^2 = \sum_{j=1}^m y_j^2 \operatorname{P}(Y=y_j)-\operatorname{E}[Y]^2.


Définition de la matrice de covariance[modifier | modifier le code]

La matrice de covariance d'un vecteur de p variables aléatoires \vec X=\begin{pmatrix} X_1  \\ \vdots\\ X_p \end{pmatrix} dont chacune possède une variance, est la matrice carrée dont le terme générique est donné par

a_{i,j}=\textrm{Cov}\left(X_i,X_j\right)


La matrice de covariance, notée parfois \boldsymbol\Sigma, est définie par

Définition — \operatorname{Var}(\vec X) \equiv \operatorname{E}[(\vec X-\operatorname{E}(\vec X))(\vec X-\operatorname{E}(\vec X))^T]

En développant les termes :

\operatorname{Var}(\vec X)
=
\begin{pmatrix} 
\operatorname{Var}(X_1) & \operatorname{Cov}(X_{1},X_{2}) &  \cdots & \operatorname{Cov}(X_{1},X_{p}) \\
\operatorname{Cov}(X_{2},X_{1}) & \ddots & \cdots & \vdots\\
\vdots & \vdots & \ddots & \vdots\\
\operatorname{Cov}(X_{p},X_{1}) & \cdots & \cdots&  \operatorname{Var}(X_p) 
\end{pmatrix}
=
\begin{pmatrix} 
\sigma^2_{x_1} & \sigma_{x_{1}x_{2}} &  \cdots & \sigma_{x_{1}x_{p}} \\
\sigma_{x_{2}x_{1}} & \ddots & \cdots & \vdots\\
\vdots & \vdots & \ddots & \vdots\\
\sigma_{x_{p}x_{1}} & \cdots & \cdots&  \sigma^2_{x_p} 
\end{pmatrix}

Propriétés de la covariance[modifier | modifier le code]

Une généralisation du théorème de König-Huyghens pour la variance implique :

Propriété — \operatorname{Cov}(X, Y) = \operatorname{E}(X Y) - \operatorname{E}(X)\operatorname{E}(Y)

Corollaire — Si X et Y sont indépendantes alors \operatorname{Cov}(X,Y) =0.

La réciproque n'est en général pas vraie.

Propriétés — 

  • \operatorname{Cov}(X, X) = \operatorname{Var}(X)
  • \operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X)
  • \operatorname{Cov}(cX, Y) = c \operatorname{Cov}(X, Y)c est une constante
  • \operatorname{Cov}(X+c, Y) = \operatorname{Cov}(X, Y)c est une constante

Bilinéarité de la covariance :

Propriété —  \operatorname{Cov}\left(\sum_i{X_i} \ , \sum_j{Y_j}\right) = \sum_i{\sum_j{\operatorname{Cov}\left(X_i, Y_j\right)}}

Ceci traduit le fait que la covariance est une forme bilinéaire symétrique positive, et que la forme quadratique associée est la variance.

Corollaire —  \operatorname{Var}(aX+bY) = a^2\operatorname{Var}(X) + b^2\operatorname{Var}(Y) + 2ab \operatorname{Cov}(X,Y)

Cette formule est l'analogue de (x+y)^2=x^2+y^2+ 2xy . En fait, la plupart des propriétés de la covariance sont analogues à celles du produit de deux réels ou du produit scalaire de deux vecteurs.

Propriété —  \operatorname{Var}\left(\sum_{i=1}^n{X_i}\right) = \sum_{i=1}^n\operatorname{Var}(X_i) + 2\sum_{1\le i<j\le n}\operatorname{Cov}(X_i,X_j)

Cette formule est classique pour une forme quadratique associée à une forme bilinéaire symétrique.

Propriétés de la matrice de covariance[modifier | modifier le code]

  • La matrice de covariance est symétrique ; ses éléments diagonaux sont les variances et les éléments extra-diagonaux sont les covariances des couples de variables.
  • La matrice de covariance est semi-définie positive et ses valeurs propres sont positives ou nulles. Elles sont positives lorsqu'il n'existe aucune relation affine presque sûre entre les composantes du vecteur aléatoire.
  • Soit une application linéaire F de M_{m,n}(R) de Matrice M.
    Soit \vec X=\begin{pmatrix} X_1  \\ \vdots\\ X_n \end{pmatrix} un vecteur aléatoire de matrice de covariance C de M_{n}(R).
    Alors le vecteur aléatoire F(X) a pour matrice de covariance M\,C\,M^T.
  • L'inverse de la matrice de covariance est parfois désignée « matrice de précision ».

Estimation[modifier | modifier le code]

En partant d’un échantillon de réalisations indépendantes d’un vecteur aléatoire, un estimateur non-biaisé de la matrice de covariance est donné par

\operatorname{\widehat {Var}}(\vec X)= {1 \over {n-1}}\sum_{i=1}^n (\vec X_i-\overline{\vec{X}})(\vec X_i-\overline{\vec{X}})^T
\overline{\vec X}={1 \over {n}}\sum_{i=1}^n \vec X_i est le vecteur des moyennes empiriques.

L’estimateur de la covariance de deux variables X et Y n’est qu’un cas particulier :

\operatorname{\widehat {Cov}}(X, Y)= {1 \over {n-1}}\sum_{i=1}^n (X_i-\overline{X})(Y_i-\overline{Y}).

Lorsque X suit une loi normale multidimensionnelle, l'estimateur du maximum de vraisemblance vaut en revanche :

\operatorname{\widehat {Var}}(\vec X)={1 \over n}\sum_{i=1}^n (\vec X_i-\overline{\vec X})(\vec X_i-\overline{\vec X})^T.

Dans le cas où les données sont générées par une loi normale multidimensionnelle, l'estimateur du maximum de vraisemblance suit une loi de Wishart.

Le test de sphéricité de Bartlett permet de juger si les coefficients extra-diagonaux de la matrice sont globalement non nuls.

Processus stochastiques[modifier | modifier le code]

Pour les processus stochastiques qui traitent de l’évolution d’une variable aléatoire, la covariance fait place aux concepts d’autocovariance et d’autocorrélation, puis d’estimation de la densité spectrale pour les processus stationnaires.

Exemples[modifier | modifier le code]

  • Dans un forum Internet, quelqu'un affirme que l'activité du forum est plus intense les jours de pleine lune. On peut ne pas disposer du calendrier des pleines lunes, mais si cette affirmation est exacte et si l'on nomme N(t) le nombre de contributions au jour t, la covariance entre N(t) et N(t+28) cumulée sur toutes les valeurs de t, sera probablement supérieure aux covariances entre N(t) et N(t+x) pour les valeurs de x différentes de 28.
  • Un processus stochastique Xt sur un espace métrique S est dit de covariance isotrope si sa covariance entre deux variables dépend uniquement de la distance entre les indices :
\exists f:\R^+\mapsto\R, \forall t,s\in S, \operatorname{Cov}\left(X_s,X_t\right)=f\left(\left\|s-t\right\|\right)
Si X est un processus centré isotrope sur d, l’autocorrélation isotrope vérifie ρ(‖h‖) ≥  −1/d.

Utilisation en statistique[modifier | modifier le code]

La matrice de covariance est un outil essentiel pour l'analyse multivariée :

Autres applications[modifier | modifier le code]

La connaissance des covariances est le plus souvent indispensable dans les fonctions d'estimation, de filtrage et de lissage. En photographie, elles permettent d'arriver à corriger de façon spectaculaire les flous de mise au point ainsi que les flous de bougé, ce qui est extrêmement important pour les clichés astronomiques. On les utilise également en automatique. En sociolinguistique, la covariance désigne la correspondance entre l’appartenance à une certaine classe sociale et un certain parler inhérent à cette condition sociale. Les matrices de covariances sont utilisées pour le krigeage et les méthodes d'analyse par décomposition orthogonale aux valeurs propres. Enfin, on l'utilise encore en finance, pour juger si deux placements ont tendance à évoluer dans le même sens, dans des sens opposés, ou si leurs valeurs ne sont pas liées.

Voir aussi[modifier | modifier le code]

Note et références[modifier | modifier le code]

  1. Les variables sont supposées appartenir à l'espace vectoriel L^2(\Omega, \mathcal{B}, \operatorname{P}) des variables aléatoires de carré intégrable

Sur les autres projets Wikimedia :