Théorème de Glivenko-Cantelli

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Le théorème de Glivenko (en)-Cantelli est parfois appelé « le théorème fondamental de la statistique » car il exprime en quoi une loi de probabilité peut-être révélée par la connaissance d'un (grand) échantillon de ladite loi de probabilité.

Notations[modifier | modifier le code]

En statistiques, la fonction de répartition empirique associée à un échantillon est la fonction de répartition de la loi de probabilité qui attribue la probabilité 1/n à chacun des n nombres de cet échantillon. Soit X_1,\ldots,X_n un échantillon de variables iid à valeurs dans \mathbb{R} avec pour fonction de répartition F(x). La fonction de distribution empirique  F_n(x) basée sur l'échantillon  X_1,\ldots,X_n est la fonction en escalier définie par

\begin{array}{rcl}F_n(x)&=&\frac{ \mathrm{nombre~d'\acute el \acute ements}\  \leq x\ \mathrm{dans~l'\acute echantillon}}{n}\\
&=&\displaystyle\frac{1}{n} \sum_{i=1}^n I(X_i \le x),\end{array}

I(A) est la fonction indicatrice de l'événement A.

Le théorème de Glivenko-Cantelli stipule la convergence uniforme de la fonction de répartition empirique Fn , déduite d'un échantillon d'une loi de probabilité μ, vers la fonction de répartition F de cette loi de probabilité. Or on sait qu'une loi de probabilité est caractérisée par sa fonction de répartition. Qui plus est, on sait que la convergence simple de Fn vers F entraine la convergence en loi de μn vers μ. Ainsi, le théorème de Glivenko-Cantelli suggère (même s'il ne les entraîne pas forcément) les autres convergences classiques de la statistique :

  • convergence presque sûre de la moyenne empirique vers l'espérance,
  • convergence presque sûre de la variance empirique vers la variance,
  • convergence presque sûre de la médiane empirique vers la médiane, etc.

Remarque. La fonction de répartition empirique associée à un échantillon est la fonction de répartition d'une loi de probabilité aléatoire, notée ci-dessous μn , définie comme combinaison linéaire de masses de Dirac :

\mu_n\ =\ \tfrac1n\,\delta_{X_1}\ +\ \tfrac1n\,\delta_{X_2}\ +\ \dots\ +\ \tfrac1n\,\delta_{X_n},

souvent appelée loi empirique. La loi empirique μn est une loi de probabilité aléatoire c'est-à-dire une variable aléatoire à valeur mesure. En effet, soit \scriptstyle\ \left(\Omega,\mathcal A,\mathbb P\right)\ l'espace probabilisé sur lequel les variables aléatoires \scriptstyle\ X_n,\ n\ge 1,\ sont définies. Il faut alors écrire plus précisément, pour chaque \scriptstyle\ \omega\in\Omega,\

\begin{array}{rcl} F_n(x,\omega)&=&\displaystyle\frac{1}{n} \sum_{i=1}^n I(X_i(\omega) \le x),
\\
\mu_n(\omega)&=& \displaystyle \frac1n\,\delta_{X_1(\omega)}\ +\ \frac1n\,\delta_{X_2(\omega)}\ +\ \dots\ +\ \frac1n\,\delta_{X_n(\omega)}.\end{array}

Énoncé[modifier | modifier le code]

Théorème de Glivenko-Cantelli[1] —  Presque sûrement, la convergence uniforme \scriptstyle\ F_n\to F\ a lieu, ou bien, de manière équivalente :

\mathbb{P}\left(\lim_n\ \|F_n-F\|_\infty=0\right)=1.

La loi forte des grands nombres, dans le cas de variables aléatoires de Bernoulli, implique que

\forall x\in \R,\quad\mathbb{P}\left(\lim_n\ |F_n(x,\omega)-F(x)|=0\right)=1,

mais il n'en découle pas nécessairement que

\mathbb{P}\left(\forall x\in \R,\quad\lim_n\ |F_n(x,\omega)-F(x)|=0\right)=1,

puisqu'une intersection non dénombrable d'ensembles de probabilité 1 (ensembles presque sûrs) n'est pas nécessairement de probabilité 1. Cette intersection serait-elle de probabilité 1 qu'on n'aurait alors prouvé que la convergence simple, au lieu de la convergence uniforme stipulée par le théorème de Glivenko-Cantelli.

Le théorème de Donsker et l'inégalité de Dvoretzky-Kiefer-Wolfowitz (en) précisent le théorème de Glivenko-Cantelli en donnant des indications sur la rapidité de convergence, qui est de l'ordre de \scriptstyle\ 1/\sqrt{n}.

Démonstration[modifier | modifier le code]

La preuve du théorème de Glivenko-Cantelli s'apparente à celle du deuxième théorème de Dini, bien que les hypothèses du théorème de Glivenko-Cantelli soient parfaitement générales, contrairement à celles du deuxième théorème de Dini : en particulier, ici, F n'est pas supposée continue.

Soit \ \left(\Omega,\mathcal A,\mathbb P\right)\ l'espace probabilisé sur lequel les variables aléatoires \ X_n,\ n\ge 1,\ sont définies. Comme toutes les fonctions de répartition de loi de probabilité, les fonctions \ x\to F_n(x,\omega)\  et \ x\to F(x)\ sont croissantes et continues à droite sur tout \ \R,\  et par ailleurs elles tendent vers 0 (resp. vers 1) en \ -\infty\  (resp. en \ +\infty\  ). Ainsi, pour tout nombre réel x, et pour tout \ \omega\in\Omega,\ les limites à gauches \ F_n(x-,\omega)\  et \ F(x-)\  sont-elles bien définies. De plus, comme

\lim_{y\uparrow x}\,I(X_i(\omega) \le y)\ =\ I(X_i(\omega) < x),

on en déduit que :

F_n(x-,\omega)\ =\ \tfrac{1}{n} \sum_{i=1}^n I(X_i(\omega) < x).

Ainsi, étant la somme de variables de Bernoulli indépendantes et de même loi, \ nF_n(x,\omega)\  (resp. \ nF_n(x-,\omega)\  ) suit une loi binomiale de paramètres n et \ F(x)=\mathbb P(X_i \le x)\  (resp. de paramètres n et \ F(x-)=\mathbb P(X_i < x)\  ). De plus, en vertu de la loi forte des grands nombres[2], les ensembles

A_{x}\ =\ \left\{\omega\in\Omega\ \left|\ \lim_{n}\,F_n(x,\omega)=F(x)\right.\right\},\quad B_{x}\ =\ \left\{\omega\in\Omega\ \left|\ \lim_{n}\,F_n(x-,\omega)=F(x-)\right.\right\}

sont presque sûrs. On ne peut pas en déduire pour autant que l'intersection des A_{x}, ou encore l'intersection des B_{x}, est presque sûre, puisqu'il s'agit dans les deux cas de l'intersection d'une famille non dénombrable d'ensembles presque sûrs. Le pourrait-on qu'on aurait seulement démontré la convergence simple de la suite (F_{n}), alors que le théorème affirme la convergence uniforme de la suite (F_{n}).

Notons G la réciproque généralisée de F, définie pour \ x \in]0,1[\ par

G(x)=\inf\left\{u\in\mathbb{R}\ |\ F(u)\ge x\right\},

et, pour \ 1\le k\le m-1,\ notons

x(k,m)\ =\ G\left(\tfrac km\right)

l'image de k/m par G. Par définition de G, en considérant, successivement, une suite strictement croissante de nombre réels convergeant vers x(k,m), puis une autre suite, cette fois strictement décroissante vers x(k,m), et en utilisant la continuité à droite de F, on obtient

F(x(k,m)-)\ \le\ \frac km\ \le F(x(k,m)),

et, par conséquent

\begin{array}{rcl}F(x(k,m)-)-F(x(k-1,m))&\le&\frac 1m,\\F(x(1,m)-)&\le&\frac 1m,\\1-F(x(m-1,m))&\le&\frac 1m.\end{array}

Ainsi, pour un nombre réel x tel que \ x(k,m)\le x<x(k+1,m),\ 1\le k\le m-2,\ on a successivement

\begin{array}{rcl}F_{n}(x,\omega)-F(x)&\le&F_{n}(x(k+1,m)-,\omega)-F(x)\\
&\le&F_{n}(x(k+1,m)-,\omega)-F(x(k,m))\\
&\le&F_{n}(x(k+1,m)-,\omega)-F(x(k+1,m)-)+\tfrac 1m,\\
F_{n}(x,\omega)-F(x)&\ge&F_{n}(x(k,m),\omega)-F(x)\\
&\ge&F_{n}(x(k,m),\omega)-F(x(k+1,m)-)\\
&\ge&F_{n}(x(k,m),\omega)-F(x(k,m))-\tfrac 1m.
\end{array}

Si \ x<x(1,m),\ la première inégalité reste inchangée et la deuxième devient \ F_{n}(x,\omega)-F(x)\ \ge\ -\tfrac 1m. Si \ x\ge x(m-1,m),\ c'est la deuxième inégalité qui reste inchangée, la première devenant \ F_{n}(x,\omega)-F(x)\ \le\ \tfrac 1m. Quoi qu'il en soit, on en déduit que pour tout réel x,

\left|F_{n}(x,\omega)-F(x)\right|\le\ D_{n}(\omega)+\tfrac 1m,

\ D_{n}(\omega)\ est le supremum de l'ensemble fini :

\left\{|F_{n}(x(k,m)-),\omega)-F(x(k,m)-)|,\,|F_{n}(x(k,m)),\omega)-F(x(k,m))|,\ 1\le k\le m-1\right\}.

En d'autres termes,

\sup_{x\in\R}\left|F_{n}(x,\omega)-F(x)\right|=\|F_{n}(.,\omega)-F(.)\|_{\infty}\le\ D_{n}(\omega)+\tfrac 1m.

Posons

\Omega_{m}\ =\ \bigcap_{k=1}^{m-1} \left(A_{x(k,m)}\cap B_{x(k,m)}\right).

L'ensemble \ \Omega_{m}\ est presque sûr, comme intersection finie d'ensembles presque sûrs. Pour \ \omega\in\Omega_{m},\

\lim_{n}\,D_{n}(\omega)=0,

donc

\limsup_{n}\,\|F_{n}(.,\omega)-F(.)\|_{\infty}\ \le \ \tfrac 1m+\limsup_{n}\,D_{n}(\omega) \ = \ \tfrac 1m.

Finalement l'ensemble

\bar{\Omega}=\bigcap_{m\ge 1}\Omega_{m}

est presque sûr, comme intersection dénombrable d'ensembles presque sûrs, et pour \ \omega\in\bar{\Omega},\

\limsup_{n}\,\|F_{n}(.,\omega)-F(.)\|_{\infty}\ \le\ \inf_{m\ge 1}\tfrac 1m\ =\ 0,

ou, de manière équivalente,

\lim_{n}\,\|F_{n}(.,\omega)-F(.)\|_{\infty}\ = \ 0.

Notes et références[modifier | modifier le code]

  1. Billingsley 2012, p. 268
  2. démontrée en 1909 dans le cas qui nous intéresse ici, i.e. le cas des variables de Bernoulli : Émile Borel, « Les probabilités dénombrables et leurs applications arithmétiques », Rendiconti del Circolo Matematico di Palermo, vol. 27, no 1,‎ décembre 1909, p. 247-271 (ISSN 0009-725X et 1973-4409, DOI 10.1007/BF03019651, lire en ligne).

Bibliographie[modifier | modifier le code]