Convergence de variables aléatoires

Dans la théorie des probabilités, il existe différentes notions de convergence de variables aléatoires. La convergence (dans un des sens décrits ci-dessous) de suites de variables aléatoires est un concept important de la théorie des probabilités utilisé notamment en statistique et dans l'étude des processus stochastiques. Par exemple, la moyenne de $n$ variables aléatoires indépendantes et identiquement distribuées converge presque sûrement vers l'espérance commune de ces variables aléatoires (si celle-ci existe). Ce résultat est connu sous le nom de loi forte des grands nombres.

Dans cet article, on suppose que $(X n)$ est une suite de variables aléatoires réelles, que $X$ est une variable aléatoire réelle, et que toutes ces variables sont définies sur un même espace probabilisé $(\Omega ,{\mathcal {F}},\mathbb {P} )$ .

Convergence en loi

Article détaillé : Convergence en loi.

Soient $F 1, F 2, ...$ la suite des fonctions de répartition associées aux variables aléatoires réelles $X 1, X 2, ...$ , et $F$ la fonction de répartition de la variable aléatoire réelle $X$ . Autrement dit, $F n$ est définie par $F n (x) = P(X n \leq x)$ , et $F$ par $F (x) = P(X \leq x)$ .

La suite $X n$ converge vers $X$ en loi, ou en distribution, si

\lim _{n\rightarrow \infty }F_{n}(a)=F(a),

pour tout réel

a

où

F

est continue.

Puisque $F (a) = P(X \leq a)$ , cela signifie que la probabilité que $X$ appartienne à un certain intervalle est très similaire à la probabilité que $X n$ soit dans cet intervalle pour $n$ suffisamment grand. La convergence en loi est souvent notée

X_{n}{\xrightarrow {\mathcal {L}}}X

ou encore

X_{n}{\xrightarrow {d}}X

La convergence en loi est la forme la plus faible au sens où, en général, elle n'implique pas les autres formes de convergence définies ci-dessous, alors que ces autres formes de convergence impliquent la convergence en loi. C'est ce type de convergence qui est utilisé dans le théorème central limite.

De manière équivalente, la suite $(X n)$ converge en loi vers $X$ si et seulement si pour toute fonction continue bornée

\lim _{n\rightarrow \infty }\mathbb {E} [f(X_{n})]=\mathbb {E} [f(X)].

Théorème de continuité de Lévy — Soit $φ n (t)$ la fonction caractéristique de $X n$ et $φ (t)$ celle de $X$ . Alors

\left\{\forall t\in \mathbb {R} :\varphi _{n}(t)\to \varphi (t)\right\}\quad \Leftrightarrow \quad \left\{X_{n}{\xrightarrow {\mathcal {L}}}X\right\}

.

Autrement dit, $(X n)$ converge en loi vers $X$ si et seulement si la fonction caractéristique de la variable aléatoire réelle $X n$ converge simplement vers la fonction caractéristique de la variable aléatoire réelle $X$ .

Exemple : théorème central limite :

La moyenne d'une suite de variables aléatoires centrées et de carré intégrable, indépendantes et de même loi, une fois renormalisée par $\sqrt n$ converge en loi vers la loi normale

{\sqrt {n}}{\bar {X}}_{n}{\xrightarrow {\mathcal {L}}}{\mathcal {N}}(0,\sigma ^{2}).

Exemple : convergence de la loi de Student :

La loi de Student de paramètre $k$ converge, lorsque $k$ tend vers $+\infty$ , vers la loi de Gauss :

\mathrm {t} (k){\xrightarrow {\mathcal {L}}}{\mathcal {N}}(0,1).

Dans ce cas, on peut aussi utiliser le lemme de Scheffé, qui est un critère de convergence d'une suite de variables aléatoires à densité vers une variable aléatoire à densité.

Exemple : loi dégénérée :

La suite^[1] ${\mathcal {N}}\left(0,{\frac {1}{n}}\right)$ converge en loi vers une variable aléatoire $X 0$ dite dégénérée, qui prend une seule valeur (0) avec probabilité 1 (on parle parfois de masse de Dirac en 0, notée $δ 0$ ) :

\mathbb {P} (X_{0}\leq x)=\delta _{0}\left(]-\infty ,x]\right)={\begin{cases}0&{\text{ si }}x<0,\\1&{\text{ si }}x\geq 0.\end{cases}}

Convergence en probabilité

Définition — Soit $(X n) n$ une suite de variables aléatoires réelles définies sur un même espace de probabilité $\left(\Omega ,{\mathcal {A}},\mathbb {P} \right)$ . On dit que $X n$ converge vers $X$ en probabilité si

\forall \varepsilon >0,\qquad \lim _{n\rightarrow \infty }\mathbb {P} \left(\left|X_{n}-X\right|\geq \varepsilon \right)=0.

On note parfois

X_{n}{\xrightarrow {p}}X

ou encore

X_{n}{\xrightarrow {\mathbb {P} }}X

Lemme — Si l'on a les convergences suivantes, respectivement dans $(E, d)$ et dans $\mathbb {R}$

X_{n}{\xrightarrow[{}]{(d)}}X\qquad {\text{et}}\qquad d(X_{n},Y_{n}){\xrightarrow[{}]{(d)}}0

alors on a

(X_{n},Y_{n}){\xrightarrow[{}]{(d)}}(X,X)

dans l'espace $E \times E$ muni de la distance infinie.

Démonstration

Soit $F$ un fermé de $E \times E$ . Pour tout $ε > 0$ on note

F_{\varepsilon }:=\{(x,y)\in E\times E:d_{\infty }((x,y),F)\leq \varepsilon \}

Alors

\mathbb {P} ((X_{n},Y_{n})\in F)\leq \mathbb {P} ((X_{n},X_{n})\in F_{\epsilon })+\mathbb {P} (d(X_{n},Y_{n})\geq \epsilon )

En passant au $limsup$ on obtient, en utilisant les deux hypothèses et le 3^e point du théorème porte-manteau

\limsup _{n}\mathbb {P} ((X_{n},Y_{n})\in F)\leq \mathbb {P} ((X,X)\in F_{\epsilon })

puis en faisant tendre $ε$ vers 0, comme F est fermé

\limsup _{n}\mathbb {P} ((X_{n},Y_{n})\in F)\leq \mathbb {P} ((X,X)\in F

On conclut en utilisant à nouveau le 3^e point du théorème porte-manteau.

Propriété — Si $X n$ converge vers $X$ en probabilité alors $X n$ converge vers $X$ en loi.

Démonstration

C'est une conséquence du lemme précédent en prenant $X n = X$ et en remarquant que la convergence en loi

d(X,Y_{n}){\xrightarrow[{}]{(d)}}0

dans $\mathbb {R}$ équivaut à la convergence en probabilité

Y_{n}{\xrightarrow[{}]{\mathbb {P} }}X

dans $(E, d)$ .

Sinon, on peut procéder comme suit. Commençons par énoncer un lemme.

Lemme — Soient $X$ , $Y$ des variables aléatoires réelles, $c$ un réel et $ε > 0$ . Alors

\mathbb {P} (Y\leq c)\leq \mathbb {P} (X\leq c+\varepsilon )+\mathbb {P} (X-Y>\varepsilon )

En effet, il suffit de remarquer que :

\{Y\leq c\}\subset \{X\leq c+\varepsilon \}\cup \{X>c+\varepsilon ,Y\leq c\}

L'inégalité en découle naturellement.

Pour tout $ε > 0$ , en raison de ce lemme, on a :

\mathbb {P} (X_{n}\leq a)\leq \mathbb {P} (X\leq a+\varepsilon )+\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )

\mathbb {P} (X\leq a-\varepsilon )\leq \mathbb {P} (X_{n}\leq a)+\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )

On a donc

\mathbb {P} (X\leq a-\varepsilon )-\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )\leq \mathbb {P} (X_{n}\leq a)\leq \mathbb {P} (X\leq a+\varepsilon )+\mathbb {P} (\left|X_{n}-X\right|>\varepsilon ).

Soit $a$ un point de continuité de $F X$ . On fixe un réel $ε' > 0$ . Par continuité de $F X$ en $a$ , il existe un réel $ε > 0$ tel que

|\mathbb {P} (X\leqslant a+\varepsilon )-\mathbb {P} (X\leqslant a)|<\varepsilon '\mathrm {et} |\mathbb {P} (X\leqslant a-\varepsilon )-\mathbb {P} (X\leqslant a)|<\varepsilon '

.

De la convergence de $(X n) n$ en probabilité vers $X$ , on peut en déduire l'existence d'un entier $N$ tel que : $\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )<\varepsilon '$ si $n \geq N$ .

D'où : $\forall n\in \mathbb {N} ,n\geqslant N\Rightarrow |\mathbb {P} (X_{n}\leqslant a)-\mathbb {P} (X\leqslant a)|<2\varepsilon '$ .

Théorème de Slutsky — Si $X n$ converge en loi vers $X$ , et si $Y n$ converge en probabilité vers une constante $c$ , alors le couple $(X n, Y n)$ converge en loi vers le couple $(X, c)$ .

Convergence presque sûre

Définition — On dit que $X n$ converge presque sûrement vers $X$ si

\mathbb {P} \left(\lim _{n\rightarrow \infty }X_{n}=X\right)=1

ou de manière équivalente, s'il existe un sous-ensemble $\mathbb {P}$ -négligeable $N \subset Ω$ tel que

\forall \omega \in \Omega \setminus N,\qquad X_{n}(\omega ){\xrightarrow[{n\to \infty }]{}}X(\omega )

On parle aussi de convergence presque partout ou avec probabilité 1 ou forte, et on écrit

X_{n}{\xrightarrow {p.s.}}X

ou, en anglais (pour almost surely)

X_{n}{\xrightarrow {a.s.}}X

La convergence presque sûre se réécrit sous la forme :

\forall \varepsilon >0,\qquad \mathbb {P} \left(\liminf _{n}\{|X_{n}-X|<\varepsilon \}\right)=1

ou encore

\forall \varepsilon >0,\qquad \mathbb {P} \left(\limsup _{n}\{|X_{n}-X|>\varepsilon \}\right)=0

où

\liminf _{n}\{|X_{n}-X|<\varepsilon \}:=\bigcup _{N\in \mathbb {N} }\bigcap _{n\geq N}\{|X_{n}-X|<\varepsilon \}=\{|X_{n}-X|<\varepsilon \ {\textrm {a}}\ {\textrm {partir}}\ {\textrm {d'un}}\ {\textrm {certain}}\ {\textrm {rang}}\}

\limsup _{n}\{|X_{n}-X|>\varepsilon \}:=\bigcap _{N\in \mathbb {N} }\bigcup _{n\geq N}\{|X_{n}-X|>\varepsilon \}=\{|X_{n}-X|>\varepsilon \ {\textrm {infiniment}}\ {\textrm {souvent}}.\}

Théorème — Si $X n$ converge vers $X$ presque sûrement alors $X n$ converge vers $X$ en probabilité.

Démonstration

Par le lemme de Fatou, on a pour tout $ε > 0$ :

\liminf _{n}\mathbb {P} (|X_{n}-X|<\varepsilon )\geq \mathbb {P} \left(\liminf _{n}\{|X_{n}-X|<\varepsilon \}\right)=1

La convergence presque sûre est utilisée dans la loi forte des grands nombres.

Convergence en moyenne d'ordre r

Définition — Soient $r > 0$ et $(X n) n$ une suite de variables aléatoires réelles définies sur un même espace de probabilité $\left(\Omega ,{\mathcal {A}},P\right)$ . On dit que $X n$ converge vers $X$ en moyenne d'ordre r ou en norme L^r si $E(|X_{n}|^{r})<+\infty$ pour tout $n$ et si

\lim _{n\rightarrow \infty }E\left(\left|X_{n}-X\right|^{r}\right)=0

On note parfois $X_{n}{\xrightarrow {\mathbb {L} ^{r}}}X$ .

Pour r = 1, on parle simplement de convergence en moyenne et pour r = 2 de convergence en moyenne quadratique.

Propriété — Pour r > s ≥ 1, la convergence en norme $\mathbb {L} ^{r}$ implique la convergence en norme $\mathbb {L} ^{s}$ .

Démonstration

C'est une simple application de l'inégalité de Jensen avec la fonction convexe $x\mapsto x^{r/s}$

Pour r =2, on a le résultat suivant :

Propriété — Soit $c$ une constante réelle. On a alors

X_{n}{\xrightarrow {\mathbb {L} ^{2}}}c

si et seulement si

\lim _{n\to \infty }\mathbb {E} [X_{n}]=c\qquad {\text{et}}\qquad \lim _{n\to \infty }\operatorname {Var} [X_{n}]=0

Démonstration

Cela découle l'identité suivante :

\mathbb {E} \left[(X_{n}-c)^{2}\right]=\operatorname {Var} (X_{n})+\left(\mathbb {E} [X_{n}]-c\right)^{2}

Propriété — Si $X n$ converge vers $X$ en norme L^r, alors $X n$ converge vers $X$ en probabilité.

Démonstration

C'est une application directe de l'inégalité de Markov pour les variables aléatoires réelles admettant un moment d'ordre r :

\mathbb {P} \left(\left|X_{n}-X\right|\geq \varepsilon \right)\leq {\frac {\operatorname {E} [\left|X_{n}-X\right|^{r}]}{\varepsilon ^{r}}}

Exemple :

La loi faible des grands nombres est une conséquence directe de ces deux dernières propriétés

Convergence d'une fonction d'une variable aléatoire

Un théorème très pratique, désigné en anglais généralement sous le nom de mapping theorem (en), établit qu'une fonction $g$ continue appliquée à une variable qui converge vers $X$ convergera vers $g (X)$ pour tous les modes de convergence :

Théorème — (Mapping theorem^[2]) Soit $g:\mathbb {R} ^{k}\to \mathbb {R} ^{m}$ une fonction continue en tout point d'un ensemble $C$ tel que $\mathbb {P} (X\in C)=1$ :

Si $X_{n}{\xrightarrow {\mathcal {L}}}X{\text{ alors }}g(X_{n}){\xrightarrow {\mathcal {L}}}g(X)$ ;
Si $X_{n}{\xrightarrow {p}}X{\text{ alors }}g(X_{n}){\xrightarrow {p}}g(X)$ ;
Si $X_{n}{\xrightarrow {p.s}}X{\text{ alors }}g(X_{n}){\xrightarrow {p.s.}}g(X)$ .

Exemple :

En statistiques, un estimateur convergent de la variance $σ 2$ est donné par :

s_{n-1}^{2}\equiv {\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}

.

On sait alors par le continuous mapping theorem que l'estimateur ${\sqrt {s_{n-1}^{2}}}$ de l'écart type $σ = \sqrt σ 2 est convergent, car la fonction racine est une fonction continue.$

Implications réciproques

Pour récapituler, on a ainsi la chaîne d'implication entre les différentes notions de convergence de variables aléatoires :

{\begin{matrix}{\xrightarrow {L^{s}}}&{\underset {s>r\geq 1}{\Rightarrow }}&{\xrightarrow {L^{r}}}&&\\&&\Downarrow &&\\{\xrightarrow {p.s.}}&\Rightarrow &{\xrightarrow {\ p\ }}&\Rightarrow &{\xrightarrow {\ d\ }}\end{matrix}}

La convergence en probabilité n'implique ni la convergence dans $\mathbb {L} ^{r}$ , ni la convergence presque sûre, comme le montre l'exemple suivant :

Exemple :

Soit $r > 0$ . On considère $(X n) n \geq 1$ une suite de variables aléatoires indépendantes telle que

\mathbb {P} (X_{n}=n^{1/r})={\frac {1}{n}}\qquad {\text{et}}\qquad \mathbb {P} (X_{n}=0)=1-{\frac {1}{n}}

La suite $(X n) n$ converge en probabilité vers 0 car

\forall \varepsilon >0,\qquad \forall n\geq \varepsilon ,\qquad \mathbb {P} (|X_{n}|\geq \varepsilon )=\mathbb {P} (X_{n}=n^{1/r})={\frac {1}{n}}\to 0

En revanche, elle ne converge pas dans $\mathbb {L} ^{r}$ car $\mathbb {E} [X_{n}^{r}]=1\nrightarrow 0$

Montrons qu'elle ne converge pas non plus presque sûrement. Si c'était le cas sa limite presque sûre serait nécessairement sa limite en probabilité, à savoir 0. Or, comme $\sum _{n}\mathbb {P} (X_{n}=n^{1/r})=+\infty$ et comme les variables aléatoires $X n$ sont indépendantes, on a par la loi du zéro-un de Borel :

\mathbb {P} \left(\limsup _{n}\{X_{n}=n^{1/r}\}\right)=1

i.e. presque sûrement $X n = n 1/ r$ pour une infinité de $n$ . Donc, presque sûrement, $\limsup _{n}X_{n}=+\infty .$ A fortiori $X n$ ne converge pas presque sûrement vers 0.

Exemple :

Dans l'exemple précédent, pour éviter le recours à la loi du zéro-un de Borel, on peut définir explicitement la suite $X n$ de la façon suivante. On choisit $Ω = [0 ; 1]$ muni de sa tribu borélienne et de la mesure de Lebesgue. On pose $a_{1}:=0$ , $a_{n}:={\frac {1}{2}}+\cdots +{\frac {1}{n}}{\pmod {1}}$ pour $n\geq 2$ , puis

I_{n}:=\left\{{\begin{matrix}\left[a_{n-1},a_{n}\right]&{\text{si }}a_{n-1}<a_{n}\\\left[0,a_{n}\right]\cup \left[a_{n-1},1\right]&{\text{si }}a_{n-1}>a_{n}\end{matrix}}\right.

Enfin on définit

X_{n}(\omega ):=\left\{{\begin{matrix}n^{1/r}&{\text{si }}\omega \in I_{n}\\0&{\text{si }}\omega \notin I_{n}\end{matrix}}\right.

Les $X n$ ainsi définis ne sont pas indépendants mais ils vérifient comme dans l'exemple précédent

\mathbb {P} \left(\limsup _{n}\{X_{n}=n^{1/r}\}\right)=1

À quelques exceptions près, ces implications n'ont pas de réciproque, à proprement parler. Voici toutefois quelques propriétés utiles qu'on pourrait qualifier de « semblants de réciproques » :

Si $X n$ converge en loi vers une constante réelle $c$ , alors $X n$ converge en probabilité vers $c$ .
Si $X n$ converge en probabilité vers $X$ , alors il existe une sous suite $X_{\sigma (n)}$ qui converge presque sûrement vers $X$ .
Si $X n$ converge en probabilité vers $X$ , et si $\mathbb {P} (|X_{n}|\leq b)=1$ pour tout $n$ et un certain b, alors $X n$ converge en moyenne d'ordre $r$ vers $X$ pour tout $r \geq 1$ }. Plus généralement, si $X n$ converge en probabilité vers $X$ , et si la famille ( $X p n$ ) est uniformément intégrable, alors $X n$ converge en moyenne d'ordre p vers $X$ .
Si pour tout $ε > 0$ ,

$\sum _{n}\mathbb {P} \left(|X_{n}-X|>\varepsilon \right)<\infty ,$ alors $X n$ converge presque sûrement vers $X$ . En d'autres termes, si $X n$ converge en probabilité vers $X$ suffisamment rapidement (i.e. la série ci-dessus converge pour tout $ε > 0$ ), alors $X n$ converge aussi presque sûrement vers $X$ . Cela résulte d'une application directe du théorème de Borel-Cantelli.

Soit $(X n) n \geq 1$ une suite de variables aléatoires réelles indépendantes. Pour tout $n$ , on pose :

$S_{n}=X_{1}+\cdots +X_{n}$ . Alors la convergence presque sûre de la suite $(S n) n \geq 1$ équivaut à sa convergence en probabilité ; autrement dit, la convergence presque sûre de la série de terme général $X n$ équivaut à sa convergence en probabilité.

D'après le théorème de représentation de Skorokhod, si $X n$ converge en loi vers $X$ , alors il existe des copies de $X n$ et de $X$ , disons $Y n$ et $Y$ , telles que $Y n$ converge presque sûrement vers $Y$ . (Voir Convergence en loi et fonction de répartition et notamment (1 → 3).)

Notes et références

↑ Pour plus de détail sur cet exemple, voir Davidson et McKinnon 1993, chap. 4.
↑ Vaart 1998, p. 7.

Bibliographie

(en) Russell Davidson et James McKinnon (trad. de l'allemand), Estimation and Inference in Econometrics, New York, Oxford University Press, 1993, 874 p. (ISBN 978-0-19-506011-9, LCCN 92012048), p. 874
(en) G. R. Grimmett et D. R. Stirzaker, Probability and Random Processes, Oxford, Clarendon Press, 1992, 2^e éd. (ISBN 0-19-853665-8), p. 271-285
(en) Adrianus Willem van der Vaart (trad. de l'allemand), Asymptotic Statistics, Cambridge, Cambridge University Press, 1998, 1^re éd., 443 p., relié (ISBN 978-0-521-49603-2, LCCN 98015176), p. 443

Portail des probabilités et de la statistique

[1] Pour plus de détail sur cet exemple, voir Davidson et McKinnon 1993, chap. 4.

[2] Vaart 1998, p. 7.

[1]

[2]