« Méthode de Stein » : différence entre les versions

Contenu supprimé Contenu ajouté

Intégrés

Version du 21 mai 2015 à 16:55

La Méthode de Stein est une méthode générale en théorie des probabilités dont le but est de déterminer des bornes sur des distances entre deux lois selon une certaine métrique probabiliste (en). Elle fut introduite par Charles Stein, qui la publia premièrement en 1972 ^[1], afin d'obtenir une borne entre la distribution d'une somme de $m$ variables aléatoires dépendantes et la distribution d'une variable aléatoire suivant une loi normale dans la métrique uniforme de Kolmogorov (en) et ainsi prouver non-seulement un théorème central limite, mais aussi une borne sur la vitesse de convergence pour cette métrique.

Histoire

À la fin des années 1960, insatisfait des preuves alors connues d'un théorème central limite spécifique, Charles Stein développa une nouvelle manière de démontrer ce théorème dans le cadre de ses cours de statistiques.^[2] Son article original^[1] fut présenté en 1970 à la sixième édition du Symposium de Berkeley et publié dans les actes de conférence correspondants.

Plus tard, son doctorant Louis Chen Hsiao Yun (en) modifia la méthode afin d'obtenir des résultats sur les approximations par la loi de Poisson^[3], et par conséquent, la méthode de Stein appliquée au problème de l'approximation par cette loi est souvent appelée la "méthode de Chen-Stein".

De très importantes contributions à cette méthode sont probablement la monographie de Stein (1986)^[4] où il présente sa vision de celle-ci et le concept de "randomisation auxiliaire", en particulier en utilisant les "pairs échangeables (en)", ainsi que les articles de Barbour (1988)^[5] et Götze (1991) ^[6], qui introduisirent l'interprétation dite "generator interpretation", ce qui rendit possible une facile adaptation de la méthode à biens d'autres lois de probabilité. Une autre contribution notoire est également l'article de Bolthausen (1984)^[7] sur le théorème central limite appelé "combinatorial central limit theorem"^[8].

Dans les années 1990, la méthode fut adaptée à diverses distributions, telles que les processus gaussiens par Barbour (1990)^[9], la loi binomiale par Ehm (1991) ^[10], les processus de Poisson par Barbour et Brown (1992)^[11], la loi Gamma par Luk (1994) ^[12], et bien d'autres encore.

L'approche de base

Métriques probabilistes

La Méthode de Stein est une manière de borner la distance entre deux lois de probabilités en regard d'une certaine métrique probabiliste (en) (encore appelée "distance en probabilité", notion différant parfois de celle de métrique usuelle). Dans ce qui suit, le terme "métrique" se référera à la notion de métrique probabiliste, sauf mention contraire où l'on parlera de "métrique usuelle".

Soit une métrique de la forme $(1.1)\quad d(P,Q)=\sup _{h\in {\mathcal {H}}}\left|\int hdP-\int hdQ\right|=\sup _{h\in {\mathcal {H}}}\left|Eh(W)-Eh(Z)\right|$

où $P$ et $Q$ désignent des mesures de probabilité sur un même espace mesurable ${\mathcal {X}}$ , $W$ et $Z$ sont des variables aléatoires respectivement de lois $P$ et $Q$ , $E$ est l'espérance et ${\mathcal {H}}$ est un ensemble de fonctions de ${\mathcal {X}}$ à valeurs dans $\mathbb {R}$ . L'ensemble ${\mathcal {H}}$ doit être suffisamment grand pour que la définition précédente induise effectivement une métrique.

Des exemples importants sont la distance en variation totale (en) où ${\mathcal {H}}=\left\{\mathbb {I} (A)|A\subset {\mathcal {X}}\,\,{\text{mesurable}}\right\}$ ( $\mathbb {I}$ est la fonction indicatrice), la métrique uniforme de Kolmogorov (en) où ${\mathcal {H}}\left\{\mathbb {I} (w\leq 0)|w\in \mathbb {R} \right\}$ lorsque les mesures de probabilités sont prises sur $\mathbb {R}$ , et la métrique de Wassersteinmétrique de Wasserstein où l'espace mesurable est lui-même un espace métrique (au sens usuel) et ${\mathcal {H}}$ est l'ensemble des applications lipschitziennes de constante de Lipschitz 1. Il est cependant important de noter que toute métrique ne peut être représentée sous la forme de $(1.1)$ .

Dans ce qui suit, $P$ désignera la distribution que l'on cherche à approximer (e.g., la distribution d'une somme de variables aléatoires dépendantes) par $Q$ , une distribution connue et bien définie (e.g., la loi normale).

L'opérateur de Stein

Nous considérons à présent que $Q$ est de loi fixée; dans ce qui suit, nous considérons en particulier que $Q$ est la loi normale centrée réduite, i.e. $Z\sim {\mathcal {N}}(0,1)$ , ce qui constitue un exemple d'introduction classique.

Tout d'abord, nous requérons un opérateur ${\mathcal {A}}$ qui agit sur un ensemble de fonctions ${\mathcal {F}}_{\mathcal {A}}:=\left\{f:{\mathcal {X}}\to \mathbb {R} \right\}$ et qui caractérise la distribution $Q$ , dans le sens que l'équivalence suivante soit vraie:

(2.1)\quad E({\mathcal {A}}f)(Z)=0{\text{ pour tout }}f\quad \iff \quad Z\sim {\mathcal {N}}(0,1).

Un tel opérateur est appelé "Opérateur de Stein" et une telle caractérisation une "caractérisation de Stein"^[13].

Pour la loi normale centrée réduite, le Lemme de Stein (en) induit un tel opérateur:

(2.2)\quad E\left(f'(Z)-Zf(Z)\right)=0{\text{ pour tout }}f\in C_{b}^{1}\quad \iff \quad Z\sim {\mathcal {N}}(0,1)

où $C_{b}^{1}$ désigne les fonctions absolument continues et d'espérance bornée. Donc nous pouvons ici prendre

(2.3)\quad ({\mathcal {A}}f)(x)=f'(x)-xf(x).

Il y a, en général, une infinité de tels opérateurs et la question de savoir lequel choisir reste ouverte. Cependant, il semblerait pour bon nombre de distributions qu'il y en ait un "particulièrement efficace", comme $(2.3)$ pour la loi normale centrée réduite. Il existe différentes manières de construire des opérateurs de Stein (cf. Novak,^[14] ch. 12).

L'équation de Stein

$P$ est proche de $Q$ en regard de la métrique considérée si l'expression en $(1.1)$ est proche de $0$ . Le principe de la méthode de Stein repose sur le désir que l'opérateur de Stein montre un comportement similaire: si $P=Q$ , alors $E{\mathcal {A}}f(W)=0$ et, comme désiré, si $P\approx Q$ , nous avons $E{\mathcal {A}}f(W)\approx 0$ .

Il est généralement possible de trouver une fonction $f=f_{h}$ solution de l'équation

(3.1)\quad ({\mathcal {A}}f)(x)=h(x)-E[h(Z)]\qquad {\text{ pour tout }}x.

On appelle $(3.1)$ l'"équation de Stein". Remplacer $x$ par $W$ et passer aux espérances (si cela est permis) en regard de $W$ , on obtient

(3.2)\quad E({\mathcal {A}}f)(W)=E[h(W)]-E[h(Z)].

Tout le travail n'a d'intérêt que si le membre de gauche de l'équation $(3.2)$ est plus facile à borner que le membre de droite (qui n'est autre que l'argument du supremum de $(1.1)$ ).

Si $Q$ est la loi normale centrée réduite et si nous utilisons $(2.3)$ , alors l'équation de Stein correspondante est

(3.3)\quad f'(x)-xf(x)=h(x)-E[h(Z)]\qquad {\text{pour tout }}x.

Si la distribution $Q$ est de densité $q$ (par rapport à la mesure de Lebesgue) alors (Novak (2011), ch. 12)

(3.4)\quad ({\mathcal {A}}f)(x)=f'(x)+f(x)q'(x)/q(x).

Résoudre l'équation de Stein

Méthodes analytiques. L'équation $(3.3)$ peut être résolue explicitement (cf. Chen, Goldstein & Shao,^[13] ch. 2, p. 14)

(4.1)\quad f(x)=e^{x^{2}/2}\int _{-\infty }^{x}[h(s)-Eh(Z)]e^{-s^{2}/2}ds.

Méthodes des générateurs. Si ${\mathcal {A}}$ est le générateur d'un processus de Markov $(W_{t})_{t\geq 0}$ (cf. Barbour (1988),^[5] Götze (1991)^[6]), alors la solution à $(3.2)$ est

(4.2)\quad f(x)=-\int _{0}^{\infty }[E^{x}h(W_{t})-Eh(Z)]dt,

où $E^{x}$ est l'espérance en regard du processus $W$ commençant en $x$ . Cependant, il faut prouver que la solution $(4.2)$ existe pour toutes les fonctions $h\in {\mathcal {H}}$ désirées.

Propriétés de la solution de l'équation de Stein

Habituellement, on essaie de fournir des bornes pour la solution $f$ de l'équation de Stein, ainsi que pour ses dérivées (ou différences) en terme de $h$ et de ses dérivées (ou différences), c'est-à-dire des inégalités de la forme

(5.1)\quad ||D^{k}f||\leq C_{k,l}||D^{l}h||,

pour certains $k,l=0,1,2,\dots$ (typiquement, $k\geq l$ ou $k\geq l-1$ , en fonction de la forme de l'opérateur de Stein), où $\Vert \cdot \Vert$ est la norme supremum (en). Ici, $D^{k}$ dénote l'opérateur différentiel, mais dans les configurations discrètes, cela renvoie généralement à l'opérateur de différence. Les constantes $C_{k,l}$ peuvent contenir des paramètres de la distribution $Q$ . S'il y en a, ils sont souvent appelés "facteurs de Stein".

Dans le cas de $(4.1)$ , on peut montrer^[13] pour la norme supremum que

(5.2)\quad ||f||_{\infty }\leq \min\{{\sqrt {\pi /2}}||h||_{\infty },2||h'||_{\infty }\},\quad ||f'||_{\infty }\leq \min\{2||h||_{\infty },4||h'||_{\infty }\},\quad ||f''||_{\infty }\leq 2||h'||_{\infty },

où la dernière borne n'est évidemment applicable uniquement si $h$ est différentiable (ou, au moins, lipschitzienne, ce qui, par exemple, n'est pas le cas pour la distance en variation totale ou la métrique de Kolmogorov). Comme la loi normale centrée réduite n'a pas de paramètres particuliers, dans ce cas spécifique, les constantes n'en contiennent pas.

Si l'on parvient à obtenir des bornes de la forme générale $(5.1)$ , il est souvent possible de traiter de nombreuses métriques probabilistes de manière générale.

Notes

↑ ^{a et b} C. Stein, « A bound for the error in the normal approximation to the distribution of a sum of dependent random variables », Proceedings of the Sixth Berkeley Symposium on Mathematical Statistics and Probability,‎ 1972, p. 583–602 (MR 402873, zbMATH 0278.60026, lire en ligne)
↑ Charles Stein: The Invariant, the Direct and the "Pretentious" Entretien donné en 2003 à Singapour
↑ L.H.Y. Chen, « Poisson approximation for dependent trials », Annals of Probability, vol. 3, n^o 3,‎ 1975, p. 534–545 (DOI 10.1214/aop/1176996359, JSTOR 2959474, MR 428387, zbMATH 0335.60016)
↑ (en) Stein, C., Approximate computation of expectations, Hayward, Calif., Institute of Mathematical Statistics, coll. « Institute of Mathematical Statistics Lecture Notes, Monograph Series, 7 », 1986 (ISBN 0-940600-08-0)
↑ ^{a et b} Barbour A. D., « Stein's method and Poisson process convergence », J. Appl. Probab., Applied Probability Trust, vol. 25A,‎ 1988, p. 175–184 (DOI 10.2307/3214155, JSTOR 3214155)
↑ ^{a et b} Götze F., « On the rate of convergence in the multivariate CLT », Annals of Probability, vol. 19, n^o 2,‎ 1991, p. 724–739 (DOI 10.1214/aop/1176990448)
↑ Bolthausen E., « An estimate of the remainder in a combinatorial central limit theorem », Z. Wahrsch. Verw. Gebiete, vol. 66, n^o 3,‎ 1984, p. 379–386 (DOI 10.1007/BF00533704)
↑ Hoeffding, W., « A Combinatorial Central Limit Theorem », Ann. Math. Statist., vol. 22, n^o 4,‎ 1951, p. 558-566 (DOI 10.1214/aoms/1177729545, JSTOR 2236924)
↑ Barbour A. D., « Stein's method for diffusion approximations », Probab. Theory Related Fields, vol. 84, n^o 3,‎ 1990, p. 297–322 (DOI 10.1007/BF01197887)
↑ Ehm, W., « Binomial approximation to the Poisson binomial distribution », Statistics & Probability Letters, vol. 11, n^o 1,‎ 1991, p. 7–16 (DOI 10.1016/0167-7152(91)90170-V)
↑ Barbour, A. D. and Brown, T. C., « Stein's method and point process approximation », Stochastic Process. Appl., vol. 43, n^o 1,‎ 1992, p. 9–31 (DOI 10.1016/0304-4149(92)90073-Y)
↑ (en) Luk H. M., Stein's method for the gamma distribution and related statistical applications, Dissertation, 1994
↑ ^{a b et c} (en) Chen, L.H.Y., Goldstein, L., and Shao, Q.M, Normal approximation by Stein's method, www.springer.com, 2011 (ISBN 978-3-642-15006-7)
↑ Novak S.Y. (2011) Extreme value methods with applications to finance. London: CRC. ISBN 978-1-43983-574-6.

[stein1972-1] {a et b} C. Stein, « A bound for the error in the normal approximation to the distribution of a sum of dependent random variables », Proceedings of the Sixth Berkeley Symposium on Mathematical Statistics and Probability,‎ 1972, p. 583–602 (MR 402873, zbMATH 0278.60026, lire en ligne)

[2] Charles Stein: The Invariant, the Direct and the "Pretentious" Entretien donné en 2003 à Singapour

[chen1975-3] L.H.Y. Chen, « Poisson approximation for dependent trials », Annals of Probability, vol. 3, n^o 3,‎ 1975, p. 534–545 (DOI 10.1214/aop/1176996359, JSTOR 2959474, MR 428387, zbMATH 0335.60016)

[stein1986-4] (en) Stein, C., Approximate computation of expectations, Hayward, Calif., Institute of Mathematical Statistics, coll. « Institute of Mathematical Statistics Lecture Notes, Monograph Series, 7 », 1986 (ISBN 0-940600-08-0)

[barbour1988-5] {a et b} Barbour A. D., « Stein's method and Poisson process convergence », J. Appl. Probab., Applied Probability Trust, vol. 25A,‎ 1988, p. 175–184 (DOI 10.2307/3214155, JSTOR 3214155)

[gotze1991-6] {a et b} Götze F., « On the rate of convergence in the multivariate CLT », Annals of Probability, vol. 19, n^o 2,‎ 1991, p. 724–739 (DOI 10.1214/aop/1176990448)

[bolthausen1984-7] Bolthausen E., « An estimate of the remainder in a combinatorial central limit theorem », Z. Wahrsch. Verw. Gebiete, vol. 66, n^o 3,‎ 1984, p. 379–386 (DOI 10.1007/BF00533704)

[cclt-8] Hoeffding, W., « A Combinatorial Central Limit Theorem », Ann. Math. Statist., vol. 22, n^o 4,‎ 1951, p. 558-566 (DOI 10.1214/aoms/1177729545, JSTOR 2236924)

[barbour1990-9] Barbour A. D., « Stein's method for diffusion approximations », Probab. Theory Related Fields, vol. 84, n^o 3,‎ 1990, p. 297–322 (DOI 10.1007/BF01197887)

[ehm1991-10] Ehm, W., « Binomial approximation to the Poisson binomial distribution », Statistics & Probability Letters, vol. 11, n^o 1,‎ 1991, p. 7–16 (DOI 10.1016/0167-7152(91)90170-V)

[barbour1992-11] Barbour, A. D. and Brown, T. C., « Stein's method and point process approximation », Stochastic Process. Appl., vol. 43, n^o 1,‎ 1992, p. 9–31 (DOI 10.1016/0304-4149(92)90073-Y)

[luk1994-12] (en) Luk H. M., Stein's method for the gamma distribution and related statistical applications, Dissertation, 1994

[normalapprox-13] {a b et c} (en) Chen, L.H.Y., Goldstein, L., and Shao, Q.M, Normal approximation by Stein's method, www.springer.com, 2011 (ISBN 978-3-642-15006-7)

[14] Novak S.Y. (2011) Extreme value methods with applications to finance. London: CRC. ISBN 978-1-43983-574-6.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]