Théorème de Gauss-Markov

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

En statistiques, le théorème de Gauss–Markov, nommé ainsi d'après Carl Friedrich Gauss et Andrei Markov, énonce que dans un modèle linéaire dans lequel les erreurs ont une espérance nulle, sont non corrélées et dont les variances sont égales, le meilleur estimateur linéaire non biaisé des coefficients est l'estimateur des moindres carrés. Plus généralement, le meilleur estimateur linéaire non biaisé d'une combinaison linéaire des coefficients est son estimateur par les moindres carrés. On ne suppose pas que les erreurs possèdent une loi normale, ni qu'elles sont indépendantes (seulement non corrélées), ni qu'elles possèdent la même loi de probabilité.

Plus explicitement, supposons que l'on ait :

Y_i=\beta_0+\beta_1 x_i+\varepsilon_i

pour i = 1, . . ., n, où β0 et β1 sont des paramètres qui ne sont pas aléatoires mais non-observables, xi sont des variables connues, εi sont aléatoires, et donc Yi sont des variables aléatoires. Posons x en minuscule, s'agissant d'une observation ; et Y en majuscule car il s'agit d'une variable aléatoire. Les variables aléatoires εi sont appelées « erreurs ».

En pratique, il peut y avoir plus de deux variables explicatives (les x plus haut) et on a généralement recours à une écriture matricielle plus concise :

\boldsymbol{Y} = \boldsymbol{x} \boldsymbol{\beta} + \boldsymbol{\varepsilon}

avec \boldsymbol{Y} et \boldsymbol{\varepsilon} de dimension n × 1, \boldsymbol{\beta} de dimension k × 1, et enfin \boldsymbol{x} de dimension n × k.

Le théorème de Gauss–Markov se base sur des hypothèses sur l'espérance et la matrice de variance-covariance des aléas ε :

  • {\rm E}\left(\varepsilon_i\right)=0,
  • {\rm var}\left(\varepsilon_i\right)=\sigma^2<\infty,

(c'est-à-dire que toutes les erreurs ont la même variance : on parle d'homoscédasticité) et

  • {\rm cov}\left(\varepsilon_i,\varepsilon_j\right)=0

pour i\not=j ; ce qui traduit la non-corrélation. Matriciellement, les hypothèses se traduisent ainsi :

\operatorname{E}( \boldsymbol{\varepsilon} ) = \mathbf{0} \;\;\mbox{ et }\;\;\operatorname{Var}( \boldsymbol{\varepsilon} ) = \sigma^2 \boldsymbol{\Omega}

où la matrice \boldsymbol{\Omega} est la matrice identité n × n.

Un estimateur linéaire de βj est une combinaison linéaire des données observées :

\widehat{\beta}_j = \mathbf{C}\mathbf{y} = c_1Y_1+\cdots+c_nY_n

dans laquelle les coefficients ci ne dépendent pas des précédents coefficients βi, car ceux-ci ne sont pas observables, mais peuvent dépendre de xi, car il s'agit de variables connues.

L'erreur moyenne quadratique d'un tel estimateur est :

{\rm E} \left((\widehat{\beta}_j-\beta_j)^2\right) = {\rm E} \left((c_1Y_1+\cdots+c_nY_n-\beta_j)^2\right),

c'est-à-dire, l'espérance du carré de la différence entre l'estimateur et les paramètres à estimer. L'erreur moyenne quadratique d'un estimateur coïncide avec sa variance si l'estimateur n'est pas biaisé ; dans le cas contraire, l'erreur moyenne quadratique est la somme de la variance et du carré du biais.

Le meilleur estimateur non-biaisé est l'estimateur de plus faible erreur moyenne quadratique (donc ici de plus faible variance). Les estimateurs par les moindres carrés de β0 et β1 sont les fonctions \widehat{\beta}_0 et \widehat{\beta}_1 de Ys et xs qui minimisent la somme des carrés des résidus :

\sum_{i=1}^n\left(Y_i-\widehat{Y}_i\right)^2=\sum_{i=1}^n\left(Y_i-\left(\widehat{\beta}_0+\widehat{\beta}_1 x_i\right)\right)^2 \equiv (\mathbf{y}-\mathbf{X} \boldsymbol{\widehat{\beta}})^T(\mathbf{y}-\mathbf{X} \boldsymbol{\widehat{\beta}})

(Ne pas confondre les erreurs ε, basées sur des quantités non-observables, et les résidus, basés sur des observations.)

Le théorème de Gauss-Markov énonce que, parmi tous les estimateurs linéaires non-biaisés, l'estimateur par moindres carrés présente une variance minimale. On peut résumer tout cela en disant que l'estimateur par moindres carrés est le « BLUE »[1] (en anglais : Best Linear Unbiaised Estimator).

L'idée principale de la preuve est que les estimateurs aux moindres carrés sont non corrélés par rapport à chaque estimateur linéaire non biaisé de zéro, c'est-à-dire, chaque combinaison linéaire a_1Y_1+\cdots+a_nY_n dont les coefficients ne dépendent pas des variables non-observables βi mais dont l'espérance reste nulle lorsque les valeurs de β1 et β2 changent. Un estimateur non-biaisé de β sera la somme de l'estimateur par les moindres carrés plus un tel estimateur de zéro, et on peut montrer que sa variance est donc la somme de la variance de l'estimateur par les moindres carrés et la variance de l'estimateur de zéro. Cette dernière étant non-négative, l'estimateur par les moindres carrés sera le meilleur.

Du point de vue de la formulation matricielle, la démonstration du théorème de Gauss–Markov est faite en démontrant que la différence entre la matrice de covariance de n'importe quel estimateur linéaire non biaisé et celle de l'estimateur des moindres carrés, est une matrice semi-définie positive.

Notes et références[modifier | modifier le code]

  1. A. C. Aitken, On Least Squares and Linear Combinations of Observations, Proceedings of the Royal Society of Edinburgh, 1935, vol. 55, pp. 42-48.

Voir aussi[modifier | modifier le code]