Théorème de Glivenko-Cantelli

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Le théorème de Glivenko-Cantelli, communément appelé « théorème fondamental de la statistique » exprime dans quelle mesure une loi de probabilité peut être révélée par la connaissance d'un (grand) échantillon de ladite loi de probabilité.

Notations[modifier | modifier le code]

En statistiques, la fonction de répartition empirique associée à un échantillon est la fonction de répartition de la loi de probabilité qui attribue la probabilité à chacun des nombres de cet échantillon. Soit un échantillon de variables aléatoires réelles i.i.d. définies sur un espace de probabilité avec pour fonction de répartition . La fonction de distribution empirique basée sur l'échantillon est la fonction en escalier définie par

est la fonction indicatrice de l'événement A.

Le théorème de Glivenko-Cantelli énonce la convergence uniforme de la fonction de répartition empirique vers la fonction de répartition de cette loi de probabilité. Ce résultat est important dans le sens où une loi de probabilité est caractérisée par sa fonction de répartition.

Remarque : la fonction de répartition empirique associée à un échantillon est la fonction de répartition d'une loi de probabilité aléatoire, notée ci-dessous . Cette dernière est définie comme combinaison linéaire de masses de Dirac :

souvent appelée loi empirique. La loi empirique est une loi de probabilité aléatoire c'est-à-dire une variable aléatoire à valeur mesure. Le théorème de Glivenko-Cantelli entraîne donc la convergence en loi de vers la loi de probabilité.

Énoncé[modifier | modifier le code]

Théorème de Glivenko-Cantelli[1] —  Presque sûrement, la fonction de répartition empirique converge uniformément vers la fonction de répartition , ou bien, de manière équivalente :

La fonction de répartition peut s'écrire comme une moyenne de variables aléatoires de Bernoulli, i.e.

Puisque ces variables sont de moyenne , la loi forte des grands nombres implique que

mais il n'en découle pas nécessairement que

puisqu'une intersection non dénombrable d'ensembles de probabilité 1 (ensembles presque sûrs) n'est pas nécessairement de probabilité 1. Cette intersection serait-elle de probabilité 1 qu'on n'aurait alors prouvé que la convergence simple, au lieu de la convergence uniforme énoncée par le théorème de Glivenko-Cantelli.

Le théorème de Donsker et l'inégalité DKW précisent le théorème de Glivenko-Cantelli en donnant des indications sur la rapidité de convergence, qui est de l'ordre de

Démonstration[modifier | modifier le code]

Cette preuve utilise le deuxième théorème de Dini[2]. La loi forte des grands nombres nous assurent que pour tout converge presque-sûrement vers et de plus est croissante pour tout . Néanmoins quelques problèmes se posent pour appliquer ce théorème :

  • La fonction de répartition n'est pas nécessairement continue ;
  • La convergence n'a pas lieu sur un segment ;
  • La loi forte des grands nombres nous donne une convergence sur un ensemble qui dépend de , i.e.
    Pour pouvoir appliquer le second théorème de Dini, il faudrait que

On résout les deux premiers points avec l'inverse généralisée de la fonction de répartition (appelée aussi fonction de quantile) et le troisième grâce à la séparabilité de (i.e. admet un sous-ensemble dense et au plus dénombrable comme ).

Soient des variables i.i.d. uniformes sur alors la fonction de répartition inverse vérifie la propriété [3]. Alors

Il suffit donc de montrer que le théorème de Glivenko-Cantelli est vrai dans le cas de variables aléatoires uniformes sur . Grâce à la loi forte des grands nombres, on a que :

Il faut donc trouver un ensemble de mesure pleine qui soit uniforme pour tous les . Comme est dénombrable et que l'intersection dénombrable d'ensembles de mesure pleine étant de mesure pleine, on en déduit que :

Montrons que la propriété reste vraie pour tout  : soit et alors on se donne une suite croissante et décroissante appartenant à et de limite . Alors pour fixé et  :

d'où, en faisant tendre ,

et on conclut en faisant tendre . On a donc montré que

sur . La convergence est uniforme par le deuxième théorème de Dini.

Généralisation[modifier | modifier le code]

Article détaillé : Classe de Glivenko-Cantelli.

On pose des variables i.i.d. à valeurs dans un espace de loi et une classe de fonctions définies sur à valeurs réelles. La classe est appelée classe de Glivenko-Cantelli si elle vérifie

avec la mesure empirique définie par et . Le théorème de Glivenko-Cantelli revient donc à dire que la classe des fonctions indicatrices est une classe de Glivenko-Cantelli.

Bibliographie[modifier | modifier le code]

Références[modifier | modifier le code]

  1. Billingsley 2012, p. 268
  2. Ivan Nourdin, Agrégation de mathématiques épreuve oral, Dunod, 2e éd., p. 109
  3. Philippe Barbe et Michel Ledoux, Probabilité, EDP Sciences, coll. « Enseignement Sup », p. 50