Variance (statistiques et probabilités)

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir Variance.

En statistique et en théorie des probabilités, la variance est une mesure servant à caractériser la dispersion d'un échantillon ou d'une distribution. Elle indique de quelle manière la série statistique ou la variable aléatoire se disperse autour de sa moyenne ou son espérance. Une variance de zéro signale que toutes les valeurs sont identiques. Une petite variance est signe que les valeurs sont proches les unes des autres alors qu'une variance élevée est signe que celles-ci sont très écartées.

Pour calculer la variance d'une série statistique ou d'une variable aléatoire, on calcule les écarts entre la série, ou la variable, et sa moyenne, ou espérance, puis on prend la moyenne, ou l'espérance, de ces écarts élevés au carré.

La racine carrée de la variance s'appelle l'écart type.

La variance est un des éléments permettant de caractériser une loi de probabilité. C'est le moment centré d'ordre 2 de cette distribution. C'est à ce titre qu'elle est systématiquement donnée dans la description d'une loi de probabilité.

En statistique inférentielle, on cherche parfois à estimer la variance d'une population entière à partir de celle mesurée sur un échantillon de taille n, la variance estimée est obtenue en multipliant la variance mesurée sur l'échantillon par n/(n-1).

Formules[modifier | modifier le code]

Quelques cas particuliers[modifier | modifier le code]

Série statistique[modifier | modifier le code]

Si la série statistique est de moyenne m et prend les valeurs x1, x2, ..., xn, sa variance est

V(X) = \frac1n\sum_{i=1}^n(x_i-m)^2.

Le théorème de König-Huygens permet de présenter le calcul de la variance sous la forme suivante :

V(X) =\left(\frac1n\sum_{i=1}^n x_i^2\right) -m^2.

Quand la série prend les valeurs x1, x2, ..., xk avec les fréquences f1, f2, ..., fk, sa variance est :

V(X) = \sum_{i=1}^k f_i(x_i-m)^2 =\left(\sum_{i=1}^k f_i x_i^2\right) - m^2 .

Si la série est continue et rangée en classes de centres c1, c2, ..., ck , la variance est

V(X) = \sum_{i=1}^k f_i(c_i-m)^2 =\left(\sum_{i=1}^k f_i c_i^2\right) - m^2 .

Variable aléatoire discrète[modifier | modifier le code]

Si X est une variable aléatoire prenant les valeurs xi avec les probabilités pi, et si son espérance est x, sa variance est :

V(X)=\sum_{i=1}^k p_i(x_i-\overline{x})^2 = \left(\sum_{i=1}^kp_ix_i^2\right)-\overline{x}^2 =\left( \sum_{i=1}^kp_i x_i^2\right)-\left( \sum_{i=1}^kp_i x_i\right)^2

Variable aléatoire continue[modifier | modifier le code]

Dans le cas continu, la variance est définie par :

\operatorname{Var}(X) =\sigma^2 =\int (x-\mu)^2 \, f(x) \, dx\,

f est la densité de probabilité et \mu est l'espérance mathématique de la variable aléatoire X

\mu = \int x \, f(x) \, dx\,

La variance d'une variable aléatoire continue X peut aussi se calculer de la façon suivante :

V(X)=\int x^2 \, f(x) \, dx\, - \mu^2

Formule générale[modifier | modifier le code]

Soit X une variable aléatoire réelle dont le moment d'ordre 2, à savoir \mathbb{E}\left(X^2\right), existe. On définit la variance par

\operatorname{Var}(X)\equiv V(X) \,\stackrel{\text{def}}{=}\, \mathbb{E}\left[(X-\mathbb{E}[X])^2\right].[b 1]
\scriptstyle \mathbb{E}[\,\cdot\,] étant l'espérance mathématique ; l'existence du moment d'ordre 2 implique celle de  \scriptstyle \mathbb{E}[X].

On peut interpréter la variance comme la moyenne des carrés des écarts à la moyenne (rigoureusement : l'espérance des carrés des écarts à l'espérance, informellement : moyenne des carrés moins le carré de la moyenne). Elle permet de caractériser la dispersion des valeurs par rapport à la moyenne. Ainsi, une distribution avec une même espérance et une variance plus grande apparaîtra comme plus étalée. Le fait que l'on prenne le carré de ces écarts à la moyenne évite que des écarts positifs et négatifs ne s'annulent. On note souvent la variance d'une distribution par  \sigma^2_X et celle d'un échantillon par S2[b 2].

Histoire[modifier | modifier le code]

Ronald Fisher employa, le premier, le mot de variance, dans un article de 1918 intitulé « The Correlation between Relatives on the Supposition of Mendelian Inheritance » [i 1] où il définit la variance comme le carré de l'écart type. Dans ce document il préfère clairement la variance à l'écart type en tant que mesure de la variabilité d'un phénomène observé. Il utilise ce terme à nouveau au congrès de mathématiques de Toronto en 1924[i 2]. C'est lui qui définit aussi l'analyse de la variance telle qu'on la pratique aujourd'hui dans son livre « Statistical methods for research workers » paru en 1925[i 3],[b 2].

Propriétés[modifier | modifier le code]

Signe[modifier | modifier le code]

La variance est toujours positive ou nulle. Lorsque la variance est nulle, cela signifie que la variable aléatoire correspond à une constante (toutes les réalisations sont identiques).

Formule de Koenig[modifier | modifier le code]

Une formule alternative de calcul de la variance est déduite de la définition :

\operatorname{Var}(X)=\mathbb{E}\left[X^2\right]-\mathbb{E}[X]^2[b 1]

Cette formule énonce que la variance est égale à l'espérance du carré de X moins le carré de l'espérance de X. La formule permet souvent un calcul plus simple de la variance que la définition. Sa démonstration est faite dans le théorème de König-Huyghens.

Transformation affine[modifier | modifier le code]

Si on applique une transformation affine à une variable aléatoire, la variance de la variable aléatoire obtenue s'exprime par :

\operatorname{Var}(aX+b)=a^2\operatorname{Var}(X)[Note 1],[b 3]

On remarque à travers cette propriété que le fait de déplacer simplement une distribution (ajouter +b) ne modifie pas sa variance. Par contre, changer l'échelle (multiplier par a) modifie la variance quadratiquement. Cette propriété permet également de confirmer la remarque établie précédemment que la variance d'une constante est nulle, en effet: \scriptstyle \operatorname{Var}(0+b)= Var(0)=0.

Somme et moyenne[modifier | modifier le code]

La variance de la somme de deux variables aléatoires est calculée ainsi : Si \scriptstyle \operatorname{cov}(X,Y) désigne la covariance des variables aléatoires \scriptstyle X et \scriptstyle Y, alors:

\operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{cov}(X,Y)[b 4]

Grâce aux deux propriétés précédentes, on obtient immédiatement la généralisation suivante : \scriptstyle \operatorname{Var}(aX+bY) = a^2\operatorname{Var}(X) + b^2\operatorname{Var}(Y) + 2ab\operatorname{cov}(X,Y) La variance de la somme de deux variables indépendantes (et plus généralement non corrélées) vaut donc \scriptstyle \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) mais la réciproque est fausse[b 4]. Il faut faire attention au fait que \scriptstyle \operatorname{Var}(X-Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)  ! Même si les variables sont soustraites, leurs variances s'additionnent.

La covariance est une forme bilinéaire symétrique positive sur l'espace vectoriel L^2(\Omega, \mathcal{B}, \mathbb{P}) des variables aléatoires de carré intégrable, et la forme quadratique associée est la variance. Ce qui permet de généraliser le cas de deux variables à celui-ci:

\operatorname{var}\left(\sum_{i=1}^n{X_i}\right) = \sum_{i=1}^n\operatorname{var}(X_i) + 2\sum_{1\le i<j\le n}\operatorname{cov}(X_i,X_j)[b 5]

De plus,

\operatorname{var}\left(\sum_{i=1}^n{a_i\,X_i}\right) = \sum_{i=1}^na_i^2\,\operatorname{var}(X_i) + 2\sum_{1\le i<j\le n}\,a_ia_j\,\operatorname{cov}(X_i,X_j)[b 5]  = \sum_{i=1}^n\sum_{j=1}^na_ia_j\operatorname{cov}(X_i,X_j)

Si (X_i)_{1 \leq i \leq n} est une suite de variables aléatoires indépendantes et de même variance \sigma^2 et si \overline{X}=\frac{1}{n}\sum_{i=1}^n X_i est la moyenne de ces variables alors,

\operatorname{Var}\left(\overline{X}\right) = \frac{\sigma^2}{n}[Note 2],[b 6]

Produit[modifier | modifier le code]

La variance d'un produit de deux variables aléatoires indépendantes X et Y de variances finies est exprimée en fonction de celles des deux variables par la formule

\operatorname{Var}(XY) = \operatorname{Var}(X) \operatorname{Var}(Y) + \operatorname{Var}(X) (\operatorname{E}(Y))^2 + \operatorname{Var}(Y) (\operatorname{E}(X))^2[b 4]

Écart type[modifier | modifier le code]

Article détaillé : écart type.

L'écart type est la racine carrée de la variance.

\sigma_X = \sqrt{\operatorname{Var}(X)}[b 7]

Son atout est qu'il est de même dimension que la variable aléatoire.

Si (X_i)_{1 \leq i \leq n} est une suite de variables aléatoires

\sigma \left(\sum_{i=1}^{n} X_i\right) \leqslant \sum_{i=1}^{n} \sigma (X_i)[Note 3].

L'égalité intervient si et seulement si toutes les variables sont identiques à un coefficient multiplicatif positif près.


Variance conditionnelle[modifier | modifier le code]

Article détaillé : Probabilité conditionnelle.

Soient deux variables aléatoires Y et X. On appelle variance conditionnelle de Y sachant X la variable aléatoire correspondant à l'espérance conditionnelle Y sachant X du carré de l'écart à l'espérance conditionnelle :

\operatorname{Var}(Y | X) = \mathbb{E} \left( [Y- \mathbb{E}(Y | X)]^2  | X\right).

Comme toute variable conditionnelle, elle est fonction de X.

La variance de Y est liée à la variance et l'espérance conditionnelles par le théorème de la variance totale (en) :

\operatorname{Var}(Y)=\mathbb{E}(\operatorname{Var}[Y| X])+\operatorname{Var}(\mathbb{E}[Y|X]).

Variance d'un vecteur aléatoire[modifier | modifier le code]

Si l'on définit X_{k\times 1} comme un vecteur aléatoire qui comporte k variables et  \Mu comme le vecteur des k espérances de X, on définit alors la variance comme:

Définition — \Sigma_{k\times k} \equiv \operatorname{Var}[X_{k\times 1}]\equiv \mathbb{E}\left[(X_{k\times 1}-\Mu)^t(X_{k\times 1}-\Mu)\right]

Il s'agit alors d'une matrice carrée de taille k, appelée matrice de variance-covariance, qui comporte sur sa diagonale les variances de chaque composante du vecteur aléatoire et en dehors de la diagonale les covariances. Cette matrice est symétrique et semi-définie positive ; elle est définie positive si et seulement si la seule combinaison linéaire certaine (c'est-à-dire presque sûrement constante) des composantes du vecteur aléatoire est celle dont tous les coefficients sont nuls.

On a les propriétés suivantes:

Propriété — Si V est une matrice carrée de taille k, \operatorname{Var}[V_{k\times k}X_{k\times 1}]=V\operatorname{Var}[X]^tV

Estimation[modifier | modifier le code]

Deux estimateurs sont généralement utilisés pour la variance:

s_n^2 = \frac 1n \sum_{i=1}^n \left(y_i - \overline{y} \right)^ 2 = \left(\frac{1}{n} \sum_{i=1}^{n}y_i^2\right) - \overline{y}^2,

et

s^2_{n-1} = \frac{1}{n-1} \sum_{i=1}^n\left(y_i - \overline{y} \right)^ 2 = \frac{1}{n-1}\sum_{i=1}^n y_i^2 - \frac{n}{n-1} \overline{y}^2,

Propriétés[modifier | modifier le code]

Biais[modifier | modifier le code]

  • L'estimateur s^2_{n-1} est sans biais.
Pourquoi n/(n-1) ?[modifier | modifier le code]

Le fait que l'estimateur de la variance doive être multiplié par le nombre n/(n-1) supérieur à 1 (et donc être moins précis) pour être sans biais provient du fait que l'estimation de la variance implique l'estimation d'un paramètre en plus, l'espérance de X. Cette correction tient donc compte du fait que l'estimation de l'espérance de X induit une incertitude de plus. En effet:

Théorème — si l'on suppose que l'espérance de X est connue, l'estimateur  S^2_{n} est sans biais

Convergence[modifier | modifier le code]

Les estimateurs s^2_{n} et s^2_{n-1} sont convergents en probabilité.

Théorème — s^2_{n} et s^2_{n-1} \quad \xrightarrow{p} \quad \sigma^2 si les observations sont iid (\mu, \sigma^2).

Distribution des estimateurs[modifier | modifier le code]

En tant que fonction de variables aléatoires, l'estimateur de la variance est également une variable aléatoire. Sous l'hypothèse que les y_i sont des observations indépendantes d'une loi normale, le théorème de Cochran (en) montre que s^2_{n-1} suit une loi du χ²:


(n-1)\frac{s^2_{n-1}}{\sigma^2}\sim\chi^2_{n-1}.

En conséquence, il suit que  \operatorname{E}(s^2_{n-1})=\sigma^2.. Cette propriété d'absence de biais peut cependant être démontrée même sans l'hypothèse de normalité des observations.

Méthodes de calcul[modifier | modifier le code]

Le calcul par ordinateur de la variance empirique peut poser certains problèmes, notamment à cause de la somme des carrés. La page anglaise: Algorithms for calculating variance décrit le problème ainsi que des algorithmes proposés.

Notes et références[modifier | modifier le code]

Notes[modifier | modifier le code]

  1. Pour cette démonstration, il est utile de rappeler une des propriétés de l'espérance: \scriptstyle \operatorname{E}(aX + b)= a \operatorname{E}(X) + b. On a alors \scriptstyle \operatorname{Var}(aX+b) = E[(aX+b -E[aX+b])^2] = E[(aX+b -aE[X]-b)^2] = E[(aX -aE[X])^2] = E[a^2(X -E[X])^2] = a^2E[(X -E[X])^2] = a^2\operatorname{Var}(X)
  2. \scriptstyle \operatorname{Var}(\overline{X})=\operatorname{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right)=\frac{1}{n^2}\operatorname{Var}\left(\sum_{i=1}^n X_i\right) = \frac {1}{n^2} n \operatorname{Var}(X) = \frac {\operatorname{Var}(X)} {n}
  3. En partant de la bilinéarité \scriptstyle \operatorname{Var}\left(\sum_{i=1}^n{X_i}\right) = \sum_{i=1}^n\operatorname{Var}(X_i) + \sum_{1\le i\ne j\le n}\operatorname{cov}(X_i,X_j) et en utilisant \scriptstyle \operatorname{cov}(X_i,X_j) \leqslant \sigma (X_i) \sigma (X_j), il vient \scriptstyle \operatorname{Var}\left(\sum_{i=1}^n{X_i}\right) \leqslant \sum_{i=1}^n\operatorname{Var}(X_i) + \sum_{1\le i\ne j\le n}\sigma (X_i) \sigma (X_j) = \sum_{i,j=1}^n \sigma (X_i) \sigma (X_j) = (\sum_{i=1}^n \sigma (X_i))^2. Il y a égalité si et seulement si \scriptstyle \operatorname{cov}(X_i,X_j) = \sigma (X_i) \sigma (X_j) pour tout couple.

Références[modifier | modifier le code]

Ouvrages spécialisés[modifier | modifier le code]

  1. a et b Saporta 2006, p. 25
  2. a et b Dodge 2010, p. 556
  3. Rioul 2008, p. 142
  4. a, b et c Saporta 2006, p. 26
  5. a et b Rioul 2008, p. 183-185
  6. Dodge 2010, p. 508
  7. Dodge 2010, p. 506

Articles publiés sur internet[modifier | modifier le code]

  1. [PDF] (en) Ronald A. Fisher, « The Correlation between Relatives on the Supposition of Mendelian Inheritance. », Philosophical Transactions of the Royal Society of Edinburgh., vol. 52,‎ 1918, p. 399–433 (lire en ligne)
  2. [PDF] Jean-Paul Benzécri, « Histoire et Préhistoire de l'Analyse des données : Partie 3 », Les Cahiers de l'analyse des données, vol. 1, no 3,‎ 1976, p. 221-241 (lire en ligne)
  3. [PDF] J.M. Faverge, « III. - L'analyse de la variance en psychologie. », L'année psychologique., vol. 49, no 1,‎ 1948, p. 341-358 (lire en ligne)

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Lien externe[modifier | modifier le code]