Convergence en loi

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

En théorie des probabilités, il existe différentes notions de convergence de variables aléatoires. Certaines de ces notions ne sont pas spécifiques des probabilités, mais de l'analyse en général, comme la convergence presque sûre de variables aléatoires, ou encore la convergence Lp. La convergence en loi de suites de variables aléatoires est un concept appartenant plus spécifiquement à la théorie des probabilités, utilisé notamment en statistique et dans l'étude des processus stochastiques. La convergence en loi est souvent notée en ajoutant la lettre \mathcal L (ou \mathcal D pour distribution) au-dessus de la flèche de convergence :

X_n \xrightarrow{\mathcal{L}} X.

La convergence en loi est la forme la plus faible de convergence de variables aléatoires au sens où, en général, elle n'implique pas les autres formes de convergence de variables aléatoires, alors que ces autres formes de convergence impliquent la convergence en loi. Le théorème central limite, un des résultats les plus importants de la théorie des probabilités, concerne la convergence en loi d'une suite de variables aléatoires.

Définition[modifier | modifier le code]

Soit X une variable aléatoire et soit \left(X_n\right)_{n\ge 1} une suite de variables aléatoires, toutes à valeurs dans le même espace métrique (E,d).

Définition — On dit que la suite \left(X_n\right)_{n\ge 1} converge en loi vers X si, pour toute fonction \varphi continue bornée sur E, à valeurs dans \mathbb R,

\lim_n \mathbb E\left[\varphi(X_n)\right]\ =\ \mathbb E\left[\varphi(X)\right].

Notons, et cela distingue la convergence en loi des autres types de convergence de variables aléatoires, que les variables aléatoires X et X_n ne sont pas nécessairement définies sur les mêmes espaces probabilisés mais peuvent être définies sur des espaces probabilisés tous différents, disons \left(\Omega_n, \mathcal A_n,  \mathbb P_n\right)_{n\ge 1} et \left(\Omega, \mathcal A,  \mathbb P\right). En effet la convergence en loi est en réalité la convergence d'une suite de mesures de probabilités, les lois de probabilités des variables aléatoires, \left(\mathbb P_{X_n}\right)_{n\ge 1}, vers la loi de X, \mathbb P_{X}. En effet, en vertu du théorème de transfert, la définition peut se réécrire : pour toute fonction \varphi continue bornée sur E,

\lim_n\ \int_E \varphi\, d\mathbb P_{X_n}\ =\ \int_E \varphi\, d\mathbb P_{X},

ce qui impose uniquement que l'espace d'arrivée des variables aléatoires, E, soit le même. Cette reformulation fait aussi apparaître que chaque variable aléatoire peut être remplacée par une autre sans que la convergence en loi soit affectée, pourvu que les deux variables aléatoires intervenant dans l'échange aient même loi.

La convergence en loi est souvent notée en ajoutant la lettre \mathcal L (ou \mathcal D pour distribution) au-dessus de la flèche de convergence :

X_n \xrightarrow{\mathcal{L}} X,\quad\mathrm{ou~bien}\quad X_n \xrightarrow{\mathcal{D}} X.

Le théorème porte-manteau[modifier | modifier le code]

Article détaillé : Théorème porte-manteau.

Théorème porte-manteau[1] — Les cinq assertions suivantes sont équivalentes :

1. Xn converge en loi vers X ;

2. pour toute fonction \varphi bornée et uniformément continue sur E,

\lim_n\ \mathbb E\left[\varphi(X_n)\right]\ =\ \mathbb E\left[\varphi(X)\right] ;

3. pour tout fermé F de E,

\limsup_n\ \mathbb P\left(X_n\in F\right)\ \le\ \mathbb P\left(X\in F\right) ;

4. pour tout ouvert O de E,

\liminf_n\mathbb P\left(X_n\in O\right)\ \ge\ \mathbb P\left(X\in O\right) ;

5. pour tout borélien A de E dont la frontière \partial A vérifie \mathbb P\left(X\in \partial A\right)=0,

\lim_n\ \mathbb P\left(X_n\in A\right)\ =\ \mathbb P\left(X\in A\right).

La propriété 5 préfigure le théorème de l'application continue (en). Par ailleurs la propriété 5 possède un cas particulier d'usage fréquent, dans le cas où E est la droite réelle (voir la prochaine section).

Cas des variables aléatoires réelles[modifier | modifier le code]

Convergence en loi et fonction de répartition[modifier | modifier le code]

Considérons une suite X1 , X2 , ... , Xn , de variables aléatoires réelles, et une autre variable aléatoire réelle X. Soient F1, F2, ..., Fn la suite des fonctions de répartition associées aux variables aléatoires réelles X1, X2, ..., Xn et soit F la fonction de répartition de la variable aléatoire réelle X. Autrement dit, Fn est définie par Fn(x)=P(Xnx), et F par F(x)=P(Xx). On a le théorème suivant :

Théorème —  Il y a équivalence entre les trois propositions ci-dessous :

  1. (X_n)_{n\ge 0} converge en loi vers X ;
  2. \lim_{n}\ F_n(x) = F(x), dès que la fonction de répartition F de X est continue en x, ou bien, de manière équivalente, dès que \mathbb P(X=x)=0 ;
  3. il existe un espace probabilisé \, \left(\widehat{\Omega},\widehat{\mathcal A},\widehat{\mathbb P}\right), et, définies sur cet espace, des variables aléatoires réelles (X^\prime_n)_{n\ge 0} et X^\prime telles que, simultanément :
    1. X^\prime a même loi que X,
    2. pour chaque n, X^\prime_n a même loi que X_n,
    3. (X^\prime_n)_{n\ge 0} converge presque sûrement vers X^\prime.

Une structure possible pour la démonstration est 3.⇒1.⇒2.⇒3.

Le point 2 sert souvent, dans le cas des variables aléatoires réelles, de définition de la convergence en loi. L'implication 1.⇒3. reste vraie lorsque les variables aléatoires réelles sont remplacées par des variables aléatoires à valeurs dans un espace de Lusin \,  (S,d), i.e. un espace métrisable assez général (\,  S=\R^d et \,  S=\mathcal C([0,1],\R) en sont des exemples). L'implication 1.⇒3. porte alors le nom de théorème de représentation de Skorokhod.

Puisque F(a) = P(X ≤ a), le point 2 signifie que, pour n suffisamment grand, la probabilité que X appartienne à un certain intervalle est très proche de la probabilité que Xn soit dans cet intervalle.

Proposition — Si (X_n)_{n\ge 0} converge en loi vers \,  X, et si, pour tout x réel, \mathbb P(X=x )=0, alors la suite Fn converge vers F uniformément sur R.

Cette conséquence du théorème de Dini est très utile, par exemple pour démontrer le théorème central limite pour les quantiles, ou pour démontrer le théorème central limite pour les processus de renouvellement.

Convergence en loi et fonctions caractéristiques[modifier | modifier le code]

Autrement dit, (Xn) converge en loi vers X ssi la fonction caractéristique de la variable aléatoire réelle Xn converge simplement vers la fonction caractéristique de la variable aléatoire réelle X.

Convergence en loi et moments[modifier | modifier le code]

Les moments (quand ils existent) peuvent s'obtenir à partir des dérivées en 0 de la fonction caractéristique. Mais comme la convergence simple des fonctions caractéristique n'implique pas la convergence des dérivées en 0, en règle générale la convergence en loi n'implique pas la convergence des moments.

Par exemple soit (X_n) la suite des variables aléatoires tels que P(X_n=0) = 1-\frac{1}{n} et P(X_n=n) = \frac{1}{n}. Alors (X_n) ont pour espérance E(X_n)=1 et pour variances V(X_n)=n-1. La suite X_n converge en loi vers la constante X=0, la suite des espérances converge vers 1, qui n'est pas l'espérance de la limite E(X)=0, et la suite des variances ne converge même pas, alors que la variance de la limite est V(X)=0.

En revanche, si les variables X_n sont uniformément bornées (|X_n| \leq M) et convergent en loi vers X, alors X est bornée (|X_n| \leq M) et tous les moments E(X_n^r) convergent vers E(X^r).

Exemples[modifier | modifier le code]

Théorème central limite  :

La moyenne d'une suite de variables aléatoires centrées, indépendantes et de même loi, une fois renormalisée par n converge en loi vers la loi normale

 \sqrt{n}\bar X_n\xrightarrow{\mathcal{L}}\mathcal{N}(0, \sigma^2).
Convergence de la loi de Student  :

La loi de Student de paramètre k converge, lorsque k tend vers +∞, vers la loi de Gauss :

 \mathrm{t}(k)\xrightarrow{\mathcal{L}}\mathcal{N}(0,1).

Dans ce cas, on peut aussi utiliser le lemme de Scheffé, qui est un critère de convergence d'une suite de variables aléatoires à densité vers une variable aléatoire à densité.

Loi dégénérée  :

La suite[2] \mathcal{N}\left(0, \frac{1}{n}\right) converge en loi vers une variable aléatoire X0 dite dégénérée, qui prend une seule valeur (0) avec probabilité 1 (on parle parfois de masse de Dirac en 0, notée \delta_0) :

\mathbb{P}(X_0\le x)=\delta_0\left(]-\infty,x]\right)=\begin{cases}0 & \text{ si } x< 0,\\1 &\text{ si } x \geq 0.\end{cases}

Exemples importants[modifier | modifier le code]

Les exemples de convergence en loi sont foison, le plus célèbre étant le Théorème central limite, cité plus haut, dû à Pierre-Simon de Laplace, pour lequel l'espace métrique (E,d) considéré est tout simplement la droite réelle munie de sa distance usuelle. Donnons deux exemples importants où l'espace métrique considéré, l'espace de Banach \, (\mathcal C ([0,1]), \,  ||.||_\infty),\ est moins élémentaire.

Théorème de Donsker pour les marches aléatoires[modifier | modifier le code]

Soient \, (U_n, n \geq 1) une suite iid de variables aléatoires centrées, de carré intégrable et de variance \,  \sigma^2. On interpole la marche aléatoire  \sum_{k=1}^{n}U_k de manière affine par morceaux en considérant le processus \,  (X_n(t),t \geq 0) défini, pour t  ∈  [0,1], par

 X_n(t)= \frac{1}{\sigma\sqrt{n}} \left(\sum_{k=1}^{[nt]} U_k +(nt - [nt])U_{[nt]+1}  \right),

où [x] désigne la partie entière de x. Considérons l'espace \,  \mathcal C([0,1]) des fonctions à valeurs réelles et continues sur [0,1]. On munit \,  \mathcal C ([0,1]) de la tribu borélienne \, \mathcal B et de la norme infinie  \,  ||.||_\infty . Ainsi, \,  X_n est une variable aléatoire à valeurs dans \, (\mathcal C ([0,1]),\mathcal B ) .

Théorème (Donsker, 1951) —  La suite \, (X_n,n \geq 1) converge en loi vers un mouvement brownien standard \,  B=(B_t,t \geq 0) quand n tend vers l'infini.

Ici B est vu comme un élément aléatoire de \, (\mathcal C ([0,1]),\mathcal  B ). Les diverses normalisations, indice [nt] comme indice terminal de la sommation, et facteur  \frac{1}{\sigma\sqrt{n}}\ devant la somme, correspondent à un « zoom arrière » par rapport à la trajectoire de la marche aléatoire : on « s'éloigne » de la représentation graphique de la marche aléatoire, en rétrécissant sa représentation graphique par un facteur  \frac{1}{n}\ le long de l'axe horizontal et par un facteur  \frac{1}{\sigma\sqrt{n}}\ le long de l'axe vertical, coefficients de réduction assurant, d'après le théorème central-limite, que le résultat de la réduction sera un graphe non-trivial : un coefficient de réduction vertical plus fort donnerait une trajectoire écrasée sur l'axe des abscisses, et un coefficient plus faible ferait apparaitre de fréquentes oscillations « d'amplitude infinie ». Le théorème de Donsker peut être vu comme une justification théorique de l'utilisation du mouvement brownien pour décrire la trajectoire de certaines particules, avec ses applications à l'étude du comportement thermodynamique des gaz (théorie cinétique des gaz), et du phénomène de diffusion, ou encore comme une justification théorique de l'utilisation du mouvement brownien en mathématiques financières : le mouvement brownien se comporte comme une marche aléatoire à sauts très fréquents, ces sauts étant de petite amplitude.

Théorème de Donsker pour les processus empiriques[modifier | modifier le code]

Soit \,  (X_i,i \geq 1) une suite iid de variables aléatoires de loi uniforme sur [0,1]. On note F la fonction de répartition commune des variables \,  X_i. ( \,  F(t)=\mathbb P [X_i \leq t] ) On définit la fonction de répartition empirique Fn de l'échantillon X1,X2,...,Xn par

 F_n(t)= \frac{1}{n}\sum_{i=1}^{n} 1\!\!\!1_{X_i\leq t}\, ,\, t\in [0,1]

ainsi que le processus empirique associé Wn par

 W_n(t)=\sqrt{n}(F_n(t)-F(t))= \frac{1}{\sqrt{n}}\sum_{i=1}^{n} (1\!\!\!1_{X_i\leq t}-F(t) )\, ,\, t\in [0,1].

Considérons l'espace \,  D([0,1]) des fonctions càdlàg (continues à droite et avec limites à gauche) sur [0,1] muni de la topologie de Skorokhod.

Théorème (Donsker, 1952)(conjecture de Doob, 1949) —  La suite de processus \,  (W_n,n \geq 1) converge en loi dans l'espace \,  D ([0,1]) vers un pont brownien \,  W=(W(t),t \in [0,1]) quand n tend vers l'infini.

Ce théorème précise le théorème fondamental de la statistique, le Théorème de Glivenko-Cantelli, en donnant la vitesse de convergence, \,  \mathcal O\left(1/\sqrt n\right),\ du processus empirique vers la fonction de répartition. Il justifie l'emploi de la distribution de Kolmogorov-Smirnov dans le test du même nom.

À voir[modifier | modifier le code]

Notes[modifier | modifier le code]

  1. (en) Patrick Billingsley, Convergence of Probability Measures, Wiley,‎ , 2e éd. (ISBN 978-0-471-19745-4), p. 16
  2. Pour plus de détail sur cet exemple : voir Davidson et McKinnon (1993, chap. 4)

Références[modifier | modifier le code]

  • (en) Russell Davidson et James McKinnon, Estimation and Inference in Econometrics, New York, Oxford University Press,‎ (ISBN 0195060113), p. 874
  • (en) Geoffrey Grimmett et D.R. Stirzaker, Probability and random processes, Oxford New York, Clarendon Press Oxford University Press,‎ , 2e éd. (ISBN 0-19-853665-8), p. 271-285
  • (en) Adrianus Willem van der Vaart, Asymptotic Statistics, Cambridge, Cambridge University Press,‎ (ISBN 0521496039), p. 443