Loi de von Mises-Fisher

Dans les statistiques directionnelles, la loi de von Mises-Fisher (du nom de Richard von Mises et Ronald Fisher), est une loi de probabilité sur la $p -1$ -sphère dans $\mathbb {R} ^{p}$ . Si $p = 2$ , la loi se réduit à la loi de von Mises sur le cercle.

Définition[modifier | modifier le code]

La fonction de densité de probabilité de la loi de von Mises-Fisher pour le vecteur unitaire aléatoire de dimension $p$ aléatoire $\mathbf {x}$ est donnée par :

f_{p}(\mathbf {x} ;{\boldsymbol {\mu }},\kappa )=C_{p}(\kappa )\exp \left({\kappa {\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} }\right),

où $\kappa \geq 0,\left\Vert {\boldsymbol {\mu }}\right\Vert =1$ et la constante de normalisation $C_{p}(\kappa )$ est égale à

C_{p}(\kappa )={\frac {\kappa ^{p/2-1}}{(2\pi )^{p/2}I_{p/2-1}(\kappa )}},

où $I_{v}$ désigne la fonction de Bessel modifiée de première espèce à l'ordre $v$ . Si $p = 3$ , la constante de normalisation se réduit à

C_{3}(\kappa )={\frac {\kappa }{4\pi \sinh \kappa }}={\frac {\kappa }{2\pi (\mathrm {e} ^{\kappa }-\mathrm {e} ^{-\kappa })}}.

Les paramètres ${\boldsymbol {\mu }}$ et $\kappa$ sont appelés respectivement la direction moyenne et le paramètre de concentration. Plus la valeur de $\kappa$ est élevée, plus la masse de la loi est concentrée autour de la direction moyenne ${\boldsymbol {\mu }}$ . La distribution est unimodale pour $\kappa >0$ , et est uniforme sur la sphère pour $\kappa =0$ .

La loi de von Mises-Fisher pour $p = 3$ est aussi appelée loi de Fisher^[1]^,^[2]. Elle a d'abord été utilisée pour modéliser l'interaction de dipôles électriques dans un champ électrique ^[3]. D'autres applications se trouvent dans la géologie, la bio-informatique et la fouille de textes.

Remarque sur la constante de normalisation[modifier | modifier le code]

Dans le manuel de Mardia et Jupp^[3], la constante de normalisation donnée pour la densité de probabilité de Von Mises-Fisher est apparemment différente de celle donnée ici, soit $C_{p}(\kappa )$ . Dans ce livre, la constante de normalisation est spécifiée comme suit :

C_{p}^{*}(\kappa )={\frac {({\frac {\kappa }{2}})^{p/2-1}}{\Gamma (p/2)I_{p/2-1}(\kappa )}}

L'explication vient du fait que Mardia et Jupp donnent la densité "par rapport à la loi uniforme", alors que la densité est ici spécifiée de la manière classique, par rapport à la mesure de Lebesgue. La densité (par rapport à la mesure de Lebesgue) de la loi uniforme est l'inverse de la surface de la $p -1$ -sphère, de sorte que la fonction de densité uniforme est donnée par la constante :

C_{p}(0)={\frac {\Gamma (p/2)}{2\pi ^{p/2}}}

Il s'ensuit alors que :

C_{p}^{*}(\kappa )={\frac {C_{p}(\kappa )}{C_{p}(0)}}

Alors que la valeur de $C_{p}(0)$ a été dérivée ci-dessus via l'aire de la surface, le même résultat peut être obtenu en fixant $\kappa =0$ dans la formule ci-dessus pour $C_{p}(\kappa )$ . Cela peut être fait en notant que le développement en série pour $I_{p/2-1}(\kappa )$ divisé par $\kappa ^{p/2-1}$ n'a qu'un terme non nul en $\kappa =0$ . (Pour évaluer ce terme, il faut utiliser la convention $0^{0}=1$ ).

Relation avec la loi normale[modifier | modifier le code]

À partir d'une loi normale de covariance isotrope $\kappa ^{-1}\mathbf {I}$ et de moyenne ${\boldsymbol {\mu }}$ de longueur $r>0$ , dont la fonction de densité est :

G_{p}(\mathbf {x} ;{\boldsymbol {\mu }},\kappa )=\left({\sqrt {\frac {\kappa }{2\pi }}}\right)^{p}\exp \left(-\kappa {\frac {\|\mathbf {x} -{\boldsymbol {\mu }}\|^{2}}{2}}\right),

la loi de von Mises-Fisher est obtenue en imposant $\left\|\mathbf {x} \right\|=1$ . En développant

\|\mathbf {x} -{\boldsymbol {\mu }}\|^{2}=\|\mathbf {x} \|^{2}+\|{\boldsymbol {\mu }}\|^{2}-2{\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} ,

et en utilisant le fait que les deux premiers termes de droite sont fixes, la densité de von Mises-Fisher, $f_{p}(\mathbf {x} ;r^{-1}{\boldsymbol {\mu }},r\kappa )$ est récupéré en recalculant la constante de normalisation en intégrant $\mathbf {x}$ sur la sphère unité. Si $r=0$ , on obtient la distribution uniforme, de densité $f_{p}(\mathbf {x} ;{\boldsymbol {0}},0)$ .

Plus succinctement, la restriction de toute densité normale multivariée isotrope à l'hypersphère unitaire, donne une densité de Von Mises-Fisher, à normalisation près.

Cette construction peut être généralisée en partant d'une distribution normale avec une matrice de covariance générale, auquel cas en conditionnant sur $\left\|\mathbf {x} \right\|=1$ donne la distribution de Fisher-Bingham.

Estimation des paramètres[modifier | modifier le code]

Direction moyenne[modifier | modifier le code]

Une série de N vecteurs unitaires indépendants $x_{i}$ sont tirées selon une loi de von Mises-Fisher. L'estimation du maximum de vraisemblance de la direction moyenne $\mu$ est simplement la moyenne arithmétique normalisée, une statistique suffisante^[3]:

\mu ={\frac {\bar {x}}{\bar {R}}},{\text{ avec }}{\bar {x}}={\frac {1}{N}}\sum _{i}^{N}x_{i}{\text{  et  }}{\bar {R}}=\|{\bar {x}}\|,

Paramètre de concentration[modifier | modifier le code]

En utilisant la fonction de Bessel du premier type pour définir

A_{p}(\kappa )={\frac {I_{p/2}(\kappa )}{I_{p/2-1}(\kappa )}}.

Alors :

\kappa =A_{p}^{-1}({\bar {R}}).

Ainsi $\kappa$ est la solution à

A_{p}(\kappa )={\frac {1}{N}}\left\|\sum _{i=1}^{N}x_{i}\right\|={\bar {R}}.

Une simple approximation de $\kappa$ est (Sra, 2011)

{\hat {\kappa }}={\frac {{\bar {R}}(p-{\bar {R}}^{2})}{1-{\bar {R}}^{2}}},

Une inversion plus précise peut être obtenue en itérant plusieurs fois la méthode de Newton

{\hat {\kappa }}_{1}={\hat {\kappa }}-{\frac {A_{p}({\hat {\kappa }})-{\bar {R}}}{1-A_{p}({\hat {\kappa }})^{2}-{\frac {p-1}{\hat {\kappa }}}A_{p}({\hat {\kappa }})}},

{\hat {\kappa }}_{2}={\hat {\kappa }}_{1}-{\frac {A_{p}({\hat {\kappa }}_{1})-{\bar {R}}}{1-A_{p}({\hat {\kappa }}_{1})^{2}-{\frac {p-1}{{\hat {\kappa }}_{1}}}A_{p}({\hat {\kappa }}_{1})}}.

Erreur standard[modifier | modifier le code]

Pour N ≥ 25, l'erreur type sphérique estimée de la direction moyenne de l'échantillon peut être calculée comme suit ^[4]:

{\hat {\sigma }}=\left({\frac {d}{N{\bar {R}}^{2}}}\right)^{1/2}

où

d=1-{\frac {1}{N}}\sum _{i}^{N}\left(\mu ^{\mathsf {T}}x_{i}\right)^{2}

Il est alors possible d'approximer un intervalle de confiance sphérique à $100(1-\alpha )\%$ (soit un cône de confiance) sur $\mu$ avec angle semi-vertical :

q=\arcsin \left({\hat {\sigma }}e_{\alpha }\right)\,{\textrm {avec}}e_{\alpha }={\sqrt {-\ln(\alpha )}}.

Par exemple, pour un cône de confiance à 95 %, $\alpha =0,05,e_{\alpha }=-\ln(0,05)\approx 2,996,$ Et ainsi $q=\arcsin(1,731{\hat {\sigma }}).$

Espérance[modifier | modifier le code]

L'espérance de la loi de Von Mises-Fisher n'est pas sur l'hypersphère unitaire, mais a plutôt une longueur inférieure à un. Cette longueur est donnée par la constante $A_{p}(\kappa )$ définie supra. Pour une loi de Von Mises-Fisher de direction moyenne ${\boldsymbol {\mu }}$ et de concentration $\kappa >0$ , l'espérance est :

A_{p}(\kappa ){\boldsymbol {\mu }}

.

Pour $\kappa =0$ , l'espérance est à l'origine. Pour $\kappa >0$ fini, la longueur de l'espérance, est strictement comprise entre zéro et 1 et est une fonction croissante monotone de $\kappa$ .

La moyenne empirique (arithmétique) d'une collection de points sur l'hypersphère unité se comporte de manière similaire, étant proche de l'origine pour les données largement répandues et proches de la sphère pour les données concentrées. En effet, pour la loi de Von Mises-Fisher, l'espérance de l'estimateur du maximum de vraisemblance basée sur un ensemble de points est égale à la moyenne empirique de ces points.

Entropie et divergence de Kullback-Leibler[modifier | modifier le code]

L'espérance peut être utilisée pour calculer l'entropie différentielle et la divergence de Kullback-Leibler.

L'entropie différentielle de $f_{p}(\mathbf {x} ;{\boldsymbol {\mu }},\kappa )$ est:

-\log f_{p}(A_{p}(\kappa ){\boldsymbol {\mu }};{\boldsymbol {\mu }},\kappa )=-\log C_{p}(\kappa )-\kappa A_{p}(\kappa )

.

Il faut noter que l'entropie est une fonction de $\kappa$ seulement.

La divergence KL entre $f_{p}(\mathbf {x} ;{\boldsymbol {\mu _{0}}},\kappa _{0})$ et $f_{p}(\mathbf {x} ;{\boldsymbol {\mu _{1}}},\kappa _{1})$ est :

\log {\frac {f_{p}(A_{p}(\kappa _{0}){\boldsymbol {\mu _{0}}};{\boldsymbol {\mu _{0}}},\kappa _{0})}{f_{p}(A_{p}(\kappa _{0}){\boldsymbol {\mu _{0}}};{\boldsymbol {\mu _{1}}},\kappa _{1})}}

Transformation[modifier | modifier le code]

Les lois de Von Mises-Fisher (VMF) sont fermées sous les transformées linéaires orthogonales. Soit $\mathbf {U}$ une matrice orthogonale carrée. On suppose $\mathbf {x} \sim {\text{VMF}}({\boldsymbol {\mu }},\kappa )$ et on applique la transformation linéaire inversible : $\mathbf {y} =\mathbf {Ux}$ . La transformée inverse est $\mathbf {x} =\mathbf {U} ^{\mathsf {T}}\mathbf {y}$ , car l'inverse d'une matrice orthogonale est sa transposée : $\mathbf {U} ^{-1}=\mathbf {U} ^{\mathsf {T}}$ . Le jacobien de la transformation est $\mathbf {U}$ , pour lequel la valeur absolue de son déterminant est 1, également à cause de l'orthogonalité. En utilisant ces faits et la forme de la densité VMF, il s'ensuit que :

\mathbf {y} \sim {\text{VMF}}(\mathbf {U} {\boldsymbol {\mu }},\kappa ).

On peut vérifier que puisque ${\boldsymbol {\mu }}$ et $\mathbf {x}$ sont des vecteurs unitaires, puis par l'orthogonalité, $\mathbf {U} {\boldsymbol {\mu }}$ et $\mathbf {y}$ le sont également.

Généralisations[modifier | modifier le code]

La loi matricielle de von Mises-Fisher (également connue sous le nom de loi matricielle de Langevin ^[5]^,^[6] ) a la densité

f_{n,p}(\mathbf {X} ;\mathbf {F} )\propto \exp(\operatorname {tr} (\mathbf {F} ^{\mathsf {T}}\mathbf {X} ))

définie sur la variété de Stiefel de $n\times p$ p-cadres orthonormés $\mathbf {X}$ , où $\mathbf {F}$ est une matrice réelle $n\times p$ ^[7]^,^[8].

Distribution de l'angle polaire[modifier | modifier le code]

Pour $p=3$ , l'angle θ entre $\mathbf {x}$ et ${\boldsymbol {\mu }}$ vérifie $\cos \theta ={\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x}$ . Il a la répartition

p(\theta )=\int \mathrm {d} ^{2}xf(x;{\boldsymbol {\mu }},\kappa )\,\delta \left(\theta -{\text{arc cos}}({\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} )\right)

,

qui peut être facilement évalué comme

p(\theta )=2\pi C_{3}(\kappa )\,\sin \theta \,\mathrm {e} ^{\kappa \cos \theta }

.

Articles connexes[modifier | modifier le code]

Loi de Kent, une distribution connexe sur la sphère unitaire bidimensionnelle
Loi de von Mises, la loi de von Mises–Fisher où p = 2, le cercle unitaire unidimensionnel
Loi de von Mises bivariée
Statistiques directionnelles

Références[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Von_Mises–Fisher distribution » (voir la liste des auteurs).

↑ Fisher, « Dispersion on a sphere », Proc. R. Soc. Lond. A, vol. 217, n^o 1130,‎ 1953, p. 295–305 (DOI 10.1098/rspa.1953.0064, Bibcode 1953RSPSA.217..295F, S2CID 123166853)
↑ Watson, « Distributions on the Circle and on the Sphere », J. Appl. Probab., vol. 19,‎ 1980, p. 265–280 (DOI 10.2307/3213566, JSTOR 3213566)
↑ ^{a b et c} Kanti Mardia et P. E. Jupp, Directional Statistics, John Wiley & Sons Ltd., 1999 (ISBN 978-0-471-95333-3)
↑ N. I. Fisher, T. Lewis, B. J. J. Embleton, Statistical analysis of spherical data, Cambridge, 1st pbk., 1993, 115–116 (ISBN 0-521-45699-1, lire en ligne)
↑ Pal, Sengupta, Mitra et Banerjee, « Conjugate Priors and Posterior Inference for the Matrix Langevin Distribution on the Stiefel Manifold », Bayesian Analysis, vol. 15, n^o 3,‎ 2020, p. 871–908 (ISSN 1936-0975, DOI 10.1214/19-BA1176, lire en ligne, consulté le 10 juillet 2021)
↑ (en) Chikuse, « Concentrated matrix Langevin distributions », Journal of Multivariate Analysis, vol. 85, n^o 2,‎ 1^er mai 2003, p. 375–394 (ISSN 0047-259X, DOI 10.1016/S0047-259X(02)00065-9)
↑ Jupp, « Maximum likelihood estimators for the matrix von Mises-Fisher and Bingham distributions », The Annals of Statistics, vol. 7, n^o 3,‎ 1979, p. 599–606 (DOI 10.1214/aos/1176344681, lire en ligne)
↑ Downs, « Orientational statistics », Biometrika, vol. 59, n^o 3,‎ 1972, p. 665–676 (DOI 10.1093/biomet/59.3.665)

Notes et références[modifier | modifier le code]

(en) I. Dhillon et S. Sra, Modeling Data using Directional Distributions, University of Texas, Austin, Tech. rep., 2003.
(en) A. Banerjee, I.S. Dhillon, J. Ghosh , J. et S. Sra, « Clustering on the unit hypersphere using von Mises-Fisher distributions », Journal of Machine Learning Research, vol. 6,‎ 2005, p. 1345-1382.
S. Sra, « A short note on parameter approximation for von Mises-Fisher distributions: And a fast implementation of I_s(x) », Computational Statistics, vol. 27,‎ 2011, p. 177–190 (DOI 10.1007/s00180-011-0232-x, S2CID 3654195, CiteSeer^x 10.1.1.186.1887)

Portail des probabilités et de la statistique

[1] Fisher, « Dispersion on a sphere », Proc. R. Soc. Lond. A, vol. 217, n^o 1130,‎ 1953, p. 295–305 (DOI 10.1098/rspa.1953.0064, Bibcode 1953RSPSA.217..295F, S2CID 123166853)

[2] Watson, « Distributions on the Circle and on the Sphere », J. Appl. Probab., vol. 19,‎ 1980, p. 265–280 (DOI 10.2307/3213566, JSTOR 3213566)

[MardiaJupp-3] {a b et c} Kanti Mardia et P. E. Jupp, Directional Statistics, John Wiley & Sons Ltd., 1999 (ISBN 978-0-471-95333-3)

[4] N. I. Fisher, T. Lewis, B. J. J. Embleton, Statistical analysis of spherical data, Cambridge, 1st pbk., 1993, 115–116 (ISBN 0-521-45699-1, lire en ligne)

[5] Pal, Sengupta, Mitra et Banerjee, « Conjugate Priors and Posterior Inference for the Matrix Langevin Distribution on the Stiefel Manifold », Bayesian Analysis, vol. 15, n^o 3,‎ 2020, p. 871–908 (ISSN 1936-0975, DOI 10.1214/19-BA1176, lire en ligne, consulté le 10 juillet 2021)

[6] (en) Chikuse, « Concentrated matrix Langevin distributions », Journal of Multivariate Analysis, vol. 85, n^o 2,‎ 1^er mai 2003, p. 375–394 (ISSN 0047-259X, DOI 10.1016/S0047-259X(02)00065-9)

[7] Jupp, « Maximum likelihood estimators for the matrix von Mises-Fisher and Bingham distributions », The Annals of Statistics, vol. 7, n^o 3,‎ 1979, p. 599–606 (DOI 10.1214/aos/1176344681, lire en ligne)

[8] Downs, « Orientational statistics », Biometrika, vol. 59, n^o 3,‎ 1972, p. 665–676 (DOI 10.1093/biomet/59.3.665)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]