Développement de Von Mises

En statistiques, le développement de Von Mises d'une statistique $T(X)$ , est un analogue du développement de Taylor de cette statistique vue comme une fonctionnelle, c'est-à-dire comme une fonction d'une distribution. Le développement de $T(X)$ au voisinage de la distribution $F_{0}$ (par exemple la distribution de $X$ ) s'écrit donc comme une somme de terme de degrés croissants en $\mathbb {P} _{X}-F_{0}$ , où $\mathbb {P} _{X}$ désigne la distribution empirique de ces données. Le développement de Von Mises d'une statistique permet une meilleure compréhension de sa distribution asymptotique.

Le développement de Von Mises a été introduit pour la première fois par Richard Von Mises en 1947^[1].

Statistique fonctionnelle[modifier | modifier le code]

La plupart des statistiques (estimateurs, statistiques de tests, etc.) peuvent être définies en tant que fonctionnelles, c'est ce qu'on appelle des statistiques fonctionnelles.

Une statistique $T$ est généralement vue comme une fonction prenant en entrée un jeu de données $X$ et retournant une valeur ou un vecteur de valeurs $T(X)$ . On peut l'écrire $T:X\to T(X)$ .

Mais il est aussi possible de décrire cette statistique comme une fonction prenant en entrée une distribution de probabilité $F$ et retournant une valeur ou un vecteur de valeurs $T(F)$ , il s'agit alors d'une statistique fonctionnelle $T:F\mapsto T(F)$ . Cette fonctionnelle est définie de sorte que pour tout jeu de données $X$ , si nous appelons $\mathbb {P} _{X}$ la distribution empirique de $X$ , alors $T(X)=T(\mathbb {P} _{X})$ . Le terme de droite de cette égalité considère $T$ comme une fonctionnelle alors que le terme de gauche comme une statistique classique.

Exemples[modifier | modifier le code]

Pour un jeu de données $X=(X_{1},\ldots ,X_{n})$ comprenant $n$ observations :

la moyenne s'écrit classiquement comme $M(X)={\frac {1}{n}}\sum _{i=1}^{n}X_{i}$ . La fonctionnelle associée s'écrit : $M(F)=\int t\mathrm {d} F(t)$ où $\mathrm {d} F$ est la densité de probabilité associée à $F$ .
la variance s'écrit classiquement comme $V(X)={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-M(X))^{2}$ , la fonctionnelle associée s'écrit : $V(F)=\int (t-M(F))^{2}\mathrm {d} F(t)$ .
le $\alpha$ -quantile de $X$ s'écrit comme $Q_{\alpha }(X)=\inf \left\{x\in \mathbb {R} :{\frac {\mathrm {card} \{X_{i}:X_{i}\leq x\}}{n}}\geq \alpha \right\}$ (plus petite valeur $x$ telle qu'une proportion d'au moins $\alpha$ des données lui soit supérieure). La fonctionnelle associée s'écrit $Q(F)=F^{-1}(\alpha )$ où $F$ est identifiée à sa fonction de répartition (au cas, où $F^{-1}(\alpha )$ n'est pas unique, on peut prendre $\inf \,F^{-1}(\{\alpha \})$ , le plus petit antécédent de $\alpha$ par $F$ ).

Dérivabilité d'une fonctionnelle[modifier | modifier le code]

Comme pour des fonctions classiques, il est possible de parler de continuité et de dérivabilité d'une statistique fonctionnelle. On peut définir la dérivée de $T$ en $F_{0}$ dans la direction de $F$ comme

\mathrm {d} _{1}T(F_{0},F-F_{0})=\lim _{t\to 0}{\frac {T(F_{0}+t(F-F_{0}))-T(F_{0})}{t}}=\left.{\frac {\mathrm {d} T\left(F_{0}+t(F-F_{0})\right)}{\mathrm {d} t}}\right|_{t=0}

.

Les dérivées d'ordres supérieurs peuvent être définies d'une manière analogue par

\mathrm {d} _{k}T(F_{0},F-F_{0})=\left.{\frac {\mathrm {d} ^{k}T(F_{0}+t(F-F_{0}))}{\mathrm {d} t^{k}}}\right|_{t=0}

.

Il est possible de montrer que $\mathrm {d} _{1}(F,G-F)$ est linéaire en $G-F$ .

Exemples[modifier | modifier le code]

Dérivée de la moyenne : $\mathrm {d} _{1}M(F_{0},F-G)=M(F)-M(F_{0})$ . Les dérivées d'ordre supérieur sont égales à 0.
Dérivée de la variance : $\mathrm {d} _{1}V(F_{0},F-F_{0})=\int x^{2}\mathrm {d} F(x)-\int x^{2}\mathrm {d} F_{0}(x)+2M(F)^{2}-2M(F)M(F_{0})$ .

Dérivée de Gateaux et dérivée de Fréchet[modifier | modifier le code]

Article détaillé : Dérivée de Gateaux.

Il existe en réalité plusieurs notions de dérivées pour les fonctionnelles. La dérivée, définie telle qu'au-dessus, correspond à la dérivée de Gateaux, ou dérivée directionnelle. On peut aussi définir la dérivée de Fréchet, ou dérivée fonctionnelle, d'une statistique fonctionnelle $T$ . Cette dérivée est l'unique application linéaire $\mathrm {d} T_{F}$ telle que

T(G)=T(F)+\mathrm {d} T_{F}(F-G)+{\mathcal {O}}(\|F-G\|)

où $\|\cdot \|$ désigne la norme infini. Dans le cas où les dérivées au sens de Fréchet et au sens de Gateaux existent toutes les deux, elles coïncident nécessairement:

\mathrm {d} T_{F}(F-G)=\mathrm {d} _{1}T(F,F-G)

.

Cela permet de justifier que la dérivée de Gateaux est linéaire par rapport à $F-G$ , puisque $\mathrm {d} T_{F}$ est linéaire.

Comme la dérivée de Gateaux se ramène à une dérivée unidimensionnelle calculable en utilisant les règles basiques de dérivation, elle est d'un meilleur usage pratique.

Lien avec la fonction d'influence[modifier | modifier le code]

Dans de nombreux cas, la dérivée de $T$ en $F_{0}$ dans la direction de $F$ peut s'écrire $\mathrm {d} _{1}T(F_{0},F-F_{0})=\int h_{F_{0}}(x)(\mathrm {d} F(x)-\mathrm {d} F_{0}(x))$ . La fonction $h_{F_{0}}$ est alors appelée la fonction d'influence de la statistique $T$ en $F_{0}$ . La définition de $h_{F_{0}}(x)$ est d'ailleurs très similaire à celle de la dérivée de $T$ : la distribution $F$ y est simplement remplacée par une distribution de Dirac centrée en $x$ .

Développement de Von Mises[modifier | modifier le code]

Étant donnés deux distributions de probabilités $F$ et $G$ , le développement de Von Mises d'une statistique $T$ en $F$ correspond à l'approximation de $T(G)-T(F)$ par

T(G)-T(F)\approx \sum _{k=1}^{m}{\frac {1}{k!}}\mathrm {d} _{k}T(F,G-F)

pour un certain entier positif $k$ .

Cette approximation est en réalité le développement de Taylor en $0$ de la fonction réelle $t\mapsto T(F+t(G-F))$ , évalué en $t=1$ .

Étant donné un échantillon $X$ supposé issu de variables aléatoires indépendantes et identiquement distribuées selon une distribution $F$ , le développement de Von Mises est souvent appliqué pour approximer $T(\mathbb {P} _{n})$ par $T(F)+\sum _{k=1}^{m}\mathrm {d} _{k}T(F,\mathbb {P} _{n}-F)$ . Comme $T(\mathbb {P} _{n})=T(X)$ , cela permet une approximation de la $T(X)$ . En particulier, ça permet une meilleur intuition sur la distribution asymptotique de $T(X)$ ^[2].

Lien avec la distribution asymptotique[modifier | modifier le code]

Normalité asymptotique[modifier | modifier le code]

Supposons que l'échantillon $X=(X_{1},\ldots ,X_{n})$ soit composé de $n$ variables aléatoires indépendantes et identiquement distribuées suivant une distribution $F$ .

Alors, sous certaines conditions de régularité, si le terme d'ordre 1 du développement de Von Mises de $T$ en $F$ est non nul, $T(X)$ sera asymptotiquement normale.

Pour s'en rendre compte informellement, il suffit de se rappeler que $T(X)=T(\mathbb {P} _{n})$ où $\mathbb {P} _{n}={\frac {1}{n}}\sum \Delta _{X_{i}}$ est la distribution empirique de $X$ , puis d'écrire le développement de Von Mises au voisinage de $F$ :

{\begin{array}{ccl}T(\mathbb {P} _{n})&\approx &T(F)+\mathrm {d} _{1}T(F,\mathbb {P} _{n}-F)\\&\approx &T(F)+\mathrm {d} _{1}T(F,{\frac {1}{n}}\sum _{i=1}^{n}\Delta _{X_{i}}-F)\\&\approx &T(F)+\mathrm {d} _{1}T\left(F,{\frac {1}{n}}\sum _{i=1}^{n}(\Delta _{X_{i}}-F)\right)\\&\approx &T(F)+{\frac {1}{n}}\sum _{i=1}^{n}\mathrm {d} _{1}T\left(F,(\Delta _{X_{i}}-F)\right)\end{array}}

en utilisant la linéarité de $\mathrm {d} _{1}T(F,\cdot )$ . Puisque les $X_{i}$ sont indépendants et identiquement distribués, $\mathrm {d} _{1}T(F,\Delta _{X_{i}}-F)$ le sont aussi le théorème central limite s'applique et indique que ${\frac {1}{n}}\sum _{i=1}^{n}\mathrm {d} _{1}T\left(F,(\Delta _{X_{i}}-F)\right)$ est asymptotiquement normalement distribué, et donc $T(X)$ aussi.

Distribution asymptotique suivant une combinaison de χ²[modifier | modifier le code]

Lorsque le premier terme non nul du développement de Von Mises est le second terme, sous certaines conditions de régularité, la distribution asymptotique de $T(X)$ peut s'écrire comme une combinaison linéaire de variables aléatoires indépendantes distribuées suivant une loi du χ² à un degré de liberté.

Autres distributions asymptotiques[modifier | modifier le code]

Lorsque le premier terme non nul du développement de Von Mises est le troisième ou plus, il existe des expressions plus complexes de la distribution asymptotique de $T(X)$ . Toutefois, ces distributions ne s'expriment pas simplement en utilisant des lois de probabilité usuelles^[3].

Voir aussi[modifier | modifier le code]

Références[modifier | modifier le code]

↑ (en) R. v. Mises, « On the Asymptotic Distribution of Differentiable Statistical Functions », The Annals of Mathematical Statistics, vol. 18, n^o 3,‎ septembre 1947, p. 309–348 (ISSN 0003-4851, DOI 10.1214/aoms/1177730385, lire en ligne, consulté le 28 octobre 2022)
↑ Serfling, Robert J. Verfasser, Approximation Theorems of Mathematical Statistics (ISBN 978-0-470-31719-8 et 0-470-31719-1, OCLC 959994695, lire en ligne)
↑ H. Rubin et R. A. Vitale, « Asymptotic Distribution of Symmetric Statistics », The Annals of Statistics, vol. 8, n^o 1,‎ 1^er janvier 1980 (ISSN 0090-5364, DOI 10.1214/aos/1176344898, lire en ligne, consulté le 4 novembre 2022)

[1] (en) R. v. Mises, « On the Asymptotic Distribution of Differentiable Statistical Functions », The Annals of Mathematical Statistics, vol. 18, n^o 3,‎ septembre 1947, p. 309–348 (ISSN 0003-4851, DOI 10.1214/aoms/1177730385, lire en ligne, consulté le 28 octobre 2022)

[2] Serfling, Robert J. Verfasser, Approximation Theorems of Mathematical Statistics (ISBN 978-0-470-31719-8 et 0-470-31719-1, OCLC 959994695, lire en ligne)

[3] H. Rubin et R. A. Vitale, « Asymptotic Distribution of Symmetric Statistics », The Annals of Statistics, vol. 8, n^o 1,‎ 1^er janvier 1980 (ISSN 0090-5364, DOI 10.1214/aos/1176344898, lire en ligne, consulté le 4 novembre 2022)

[1]

[2]

[3]