Aller au contenu

« Statistiques directionnelles » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Trad de l'anglais, distributions courantes
Louen342 (discuter | contributions)
Ligne 4 : Ligne 4 :


Les '''statistiques directionnelles''' (qui incluent les '''statistiques circulaires''' et '''sphériques''') est une discipline des [[statistique]]s qui fournit des outils mathématiques pour traiter les observations angulaires, les [[Orientation dans l'espace|directions]] (vecteurs unités dans '''R'''<sup>''n''</sup>) ou les [[Rotation vectorielle|rotations]] de '''R'''<sup>''n''</sup>. Plus généralement, les statistiques directionnelles traitent les observations dans des [[Variété (géométrie)|variétés]] riemanniennes compactes. Gaile et Burt<ref>''Directional Statistics, Concepts and Techniques'' in ''Modern Geography'', 25, 1980, http://www.qmrg.org.uk/files/2008/11/25-directional-statistics.pdf</ref> ont posé les premières bases et outils de cette discipline en 1980.
Les '''statistiques directionnelles''' (qui incluent les '''statistiques circulaires''' et '''sphériques''') est une discipline des [[statistique]]s qui fournit des outils mathématiques pour traiter les observations angulaires, les [[Orientation dans l'espace|directions]] (vecteurs unités dans '''R'''<sup>''n''</sup>) ou les [[Rotation vectorielle|rotations]] de '''R'''<sup>''n''</sup>. Plus généralement, les statistiques directionnelles traitent les observations dans des [[Variété (géométrie)|variétés]] riemanniennes compactes. Gaile et Burt<ref>''Directional Statistics, Concepts and Techniques'' in ''Modern Geography'', 25, 1980, http://www.qmrg.org.uk/files/2008/11/25-directional-statistics.pdf</ref> ont posé les premières bases et outils de cette discipline en 1980.

[[File:Fb5 cover.jpg|thumb|250px|right|La forme globale d'une [[protéine]] peut être représentée par un groupe de points situés sur la sphère unité. L'image ci-dessus illustre l'[[histogramme]] sphérique de ces points pour un ensemble de protéines. Le traitement de telles données est le domaine des statistiques directionnelles.<ref name="compbiol.plosjournals.org">{{cite journal|title=Hamelryck, T., Kent, J., Krogh, A. (2006) Sampling realistic protein conformations using local structural bias. PLoS Comput. Biol., 2(9): e131|journal=PLOS Computational Biology|volume=2|issue=9|pages=e131|doi=10.1371/journal.pcbi.0020131|pmid=17002495|pmc=1570370|year = 2006|last1 = Hamelryck|first1 = Thomas|last2=Kent|first2=John T.|last3=Krogh|first3=Anders|bibcode=2006PLSCB...2..131H}}</ref>]]


On constate que les outils statistiques usuels ne fonctionnent pas correctement sur des [[Angle|angles]] : par exemple, il serait absurde que la [[moyenne]] d'un angle de 2 [[Degré (angle)|degrés]] et d'un angle de 358 degrés soit un angle de 180 degrés, puisque 0 et 360 degrés correspondent au même angle. Cela illustre la nécessité d'outils statistiques spécifiques à l'étude de données cycliques, comme les angles, mais aussi les périodes répétées (jours de la semaines, mois de l'année, etc.). Le même problème se pose pour des données qui représenteraient des [[Angle dièdre|angle dièdres]] ou des rotations en géométrie 3D (par exemple dans l'étude de la structure des [[Molécule|molécules]].
On constate que les outils statistiques usuels ne fonctionnent pas correctement sur des [[Angle|angles]] : par exemple, il serait absurde que la [[moyenne]] d'un angle de 2 [[Degré (angle)|degrés]] et d'un angle de 358 degrés soit un angle de 180 degrés, puisque 0 et 360 degrés correspondent au même angle. Cela illustre la nécessité d'outils statistiques spécifiques à l'étude de données cycliques, comme les angles, mais aussi les périodes répétées (jours de la semaines, mois de l'année, etc.). Le même problème se pose pour des données qui représenteraient des [[Angle dièdre|angle dièdres]] ou des rotations en géométrie 3D (par exemple dans l'étude de la structure des [[Molécule|molécules]].


== Distributions circulaires ==
== Distributions circulaires ==
Une distribution circulaire représente une variable aléatoire prenant ses valeurs sur un cercle. On considère généralement son paramètre ''θ'' comme un angle compris entre 0 et 2 π ou entre -π et π.
Toute [[fonction de densité]] de probabilité <math>f(x)</math> peut être ''enroulée'' sur un cercle-unité<ref>{{Article |langue=en |auteur1=Bahlmann, Claus |titre=Directional features in online handwriting recognition |périodique=Pattern Recognition |numéro=36 |date=2006 |lire en ligne=http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.330.9384&rep=rep1&type=pdf |pages=115-125 }}</ref> : la fonction de densité de la variable angulaire <math>\theta = x \bmod 2\pi</math> est la somme de toutes valeurs de ''f'' où la valeur de ''x'' correspond à l'angle ''θ'', soit :

Toute [[fonction de densité]] de probabilité <math>f(x)</math> définie sur '''R''' peut être ''enroulée'' sur un cercle-unité<ref>{{Article |langue=en |auteur1=Bahlmann, Claus |titre=Directional features in online handwriting recognition |périodique=Pattern Recognition |numéro=36 |date=2006 |lire en ligne=http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.330.9384&rep=rep1&type=pdf |pages=115-125 }}</ref> : la fonction de densité de la variable angulaire <math>\theta = x \bmod 2\pi</math> est la somme de toutes valeurs de ''f'' où la valeur de ''x'' correspond à l'angle ''θ'', soit :


<math>f_{c}(\theta) = \sum_{k = -\infty}^{+\infty} f(\theta + 2 k \pi)</math>.
<math>f_{c}(\theta) = \sum_{k = -\infty}^{+\infty} f(\theta + 2 k \pi)</math>.
Ligne 72 : Ligne 76 :
Il existe des distributions définies sur une [[sphère]] (surface de dimension 2), par exemple la [[Loi de Kent]]<ref>{{Article |langue=en |prénom1=John T. |nom1=Kent |titre=The Fisher-Bingham Distribution on the Sphere |périodique=Journal of the Royal Statistical Society: Series B (Methodological) |volume=44 |numéro=1 |date=1982 |issn=2517-6161 |doi=10.1111/j.2517-6161.1982.tb01189.x |lire en ligne=https://onlinelibrary.wiley.com/doi/abs/10.1111/j.2517-6161.1982.tb01189.x |consulté le=2021-09-20 |pages=71–80 }}</ref>, ou plus généralement sur une [[N-sphère]] comme la {{Lien|langue=en|trad=von Mises-Fischer distribution|fr=Loi de von Mises-Fischer|texte=loi de von Mises-Fischer}}<ref>{{Article |prénom1=Ronald Aylmer |nom1=Fisher |titre=Dispersion on a sphere |périodique=Proceedings of the Royal Society of London. Series A. Mathematical and Physical Sciences |volume=217 |numéro=1130 |date=1953-05-07 |doi=10.1098/rspa.1953.0064 |lire en ligne=https://royalsocietypublishing.org/doi/abs/10.1098/rspa.1953.0064 |consulté le=2021-09-20 |pages=295–305 }}</ref>, sur un [[tore]] ({{Lien|trad=bivariate von Mises distribution|fr=Loi de von Mises bivariée|texte=loi de von Mises bivariée}}) ou sur une [[variété de Stiefel]] ({{Lien|langue=en|trad=von Mises-Fischer distribution#Generalizations|fr=Loi de von Mises-Fischer|texte=loi de von Mises-Fischer matricielle}}).
Il existe des distributions définies sur une [[sphère]] (surface de dimension 2), par exemple la [[Loi de Kent]]<ref>{{Article |langue=en |prénom1=John T. |nom1=Kent |titre=The Fisher-Bingham Distribution on the Sphere |périodique=Journal of the Royal Statistical Society: Series B (Methodological) |volume=44 |numéro=1 |date=1982 |issn=2517-6161 |doi=10.1111/j.2517-6161.1982.tb01189.x |lire en ligne=https://onlinelibrary.wiley.com/doi/abs/10.1111/j.2517-6161.1982.tb01189.x |consulté le=2021-09-20 |pages=71–80 }}</ref>, ou plus généralement sur une [[N-sphère]] comme la {{Lien|langue=en|trad=von Mises-Fischer distribution|fr=Loi de von Mises-Fischer|texte=loi de von Mises-Fischer}}<ref>{{Article |prénom1=Ronald Aylmer |nom1=Fisher |titre=Dispersion on a sphere |périodique=Proceedings of the Royal Society of London. Series A. Mathematical and Physical Sciences |volume=217 |numéro=1130 |date=1953-05-07 |doi=10.1098/rspa.1953.0064 |lire en ligne=https://royalsocietypublishing.org/doi/abs/10.1098/rspa.1953.0064 |consulté le=2021-09-20 |pages=295–305 }}</ref>, sur un [[tore]] ({{Lien|trad=bivariate von Mises distribution|fr=Loi de von Mises bivariée|texte=loi de von Mises bivariée}}) ou sur une [[variété de Stiefel]] ({{Lien|langue=en|trad=von Mises-Fischer distribution#Generalizations|fr=Loi de von Mises-Fischer|texte=loi de von Mises-Fischer matricielle}}).


La {{Lien|langue=en|trad=Bingham distribution|fr=Loi de Bingham|texte=loi de Bingham}} est une distribution sur les [[Droite (mathématiques)|droites]] passant par l'origine en dimension ''N'', ou de manière équivalente, sur un hémisphère de la (''N'' -1)-sphère (une ''N''-sphère dont les points antipodaux sont identifiés).<ref>{{Article |prénom1=Christopher |nom1=Bingham |titre=An Antipodally Symmetric Distribution on the Sphere |périodique=The Annals of Statistics |volume=2 |numéro=6 |date=1974-11-01 |issn=0090-5364 |doi=10.1214/aos/1176342874 |lire en ligne=https://projecteuclid.org/journals/annals-of-statistics/volume-2/issue-6/An-Antipodally-Symmetric-Distribution-on-the-Sphere/10.1214/aos/1176342874.full |consulté le=2021-09-20 }}</ref>
La {{Lien|langue=en|trad=Bingham distribution|fr=Loi de Bingham|texte=loi de Bingham}} est une distribution sur les [[Droite (mathématiques)|droites]] passant par l'origine en dimension ''N+1'', ou de manière équivalente, sur un hémisphère de la ''N''-sphère (une ''N''-sphère dont les points antipodaux sont identifiés).<ref>{{Article |prénom1=Christopher |nom1=Bingham |titre=An Antipodally Symmetric Distribution on the Sphere |périodique=The Annals of Statistics |volume=2 |numéro=6 |date=1974-11-01 |issn=0090-5364 |doi=10.1214/aos/1176342874 |lire en ligne=https://projecteuclid.org/journals/annals-of-statistics/volume-2/issue-6/An-Antipodally-Symmetric-Distribution-on-the-Sphere/10.1214/aos/1176342874.full |consulté le=2021-09-20 }}</ref>


Ces distributions sont utilisés par exemple en [[géologie]]<ref>{{Article |langue=en |prénom1=David |nom1=Peel |prénom2=William J |nom2=Whiten |prénom3=Geoffrey J |nom3=McLachlan |titre=Fitting Mixtures of Kent Distributions to Aid in Joint Set Identification |périodique=Journal of the American Statistical Association |volume=96 |numéro=453 |date=2001-03 |issn=0162-1459 |issn2=1537-274X |doi=10.1198/016214501750332974 |lire en ligne=http://www.tandfonline.com/doi/abs/10.1198/016214501750332974 |consulté le=2021-09-20 |pages=56–63 }}</ref>, en [[cristallographie]]<ref>{{Article |prénom1=N. C. |nom1=Krieger Lassen |prénom2=D. |nom2=Juul Jensen |prénom3=K. |nom3=Conradsen |titre=On the statistical analysis of orientation data |périodique=Acta Crystallographica Section A Foundations of Crystallography |volume=50 |numéro=6 |date=1994-11-01 |issn=0108-7673 |doi=10.1107/S010876739400437X |lire en ligne=http://scripts.iucr.org/cgi-bin/paper?S010876739400437X |consulté le=2021-09-20 |pages=741–748 }}</ref> ou bien en [[bio-informatique]] pour l'étude de la structure des [[Protéine|protéines]].<ref>{{Article |langue=en |auteur1=John T Kent |auteur2=Thomas Hamelryck |titre=Using the Fisher-Bingham distribution in stochastic models for protein structure. |périodique=Quantitative Biology, Shape Analysis, and Wavelets |volume=24 |numéro=1 |date=2005 |lire en ligne=http://www1.maths.leeds.ac.uk/statistics/workshop/lasr2005/Proceedings/kent.pdf |pages=57-60 }}</ref>
Ces distributions sont utilisés par exemple en [[géologie]]<ref>{{Article |langue=en |prénom1=David |nom1=Peel |prénom2=William J |nom2=Whiten |prénom3=Geoffrey J |nom3=McLachlan |titre=Fitting Mixtures of Kent Distributions to Aid in Joint Set Identification |périodique=Journal of the American Statistical Association |volume=96 |numéro=453 |date=2001-03 |issn=0162-1459 |issn2=1537-274X |doi=10.1198/016214501750332974 |lire en ligne=http://www.tandfonline.com/doi/abs/10.1198/016214501750332974 |consulté le=2021-09-20 |pages=56–63 }}</ref>, en [[cristallographie]]<ref>{{Article |prénom1=N. C. |nom1=Krieger Lassen |prénom2=D. |nom2=Juul Jensen |prénom3=K. |nom3=Conradsen |titre=On the statistical analysis of orientation data |périodique=Acta Crystallographica Section A Foundations of Crystallography |volume=50 |numéro=6 |date=1994-11-01 |issn=0108-7673 |doi=10.1107/S010876739400437X |lire en ligne=http://scripts.iucr.org/cgi-bin/paper?S010876739400437X |consulté le=2021-09-20 |pages=741–748 }}</ref> ou bien en [[bio-informatique]] pour l'étude de la structure des [[Protéine|protéines]].<ref>{{Article |langue=en |auteur1=John T Kent |auteur2=Thomas Hamelryck |titre=Using the Fisher-Bingham distribution in stochastic models for protein structure. |périodique=Quantitative Biology, Shape Analysis, and Wavelets |volume=24 |numéro=1 |date=2005 |lire en ligne=http://www1.maths.leeds.ac.uk/statistics/workshop/lasr2005/Proceedings/kent.pdf |pages=57-60 }}</ref>

Version du 21 septembre 2021 à 18:35


Les statistiques directionnelles (qui incluent les statistiques circulaires et sphériques) est une discipline des statistiques qui fournit des outils mathématiques pour traiter les observations angulaires, les directions (vecteurs unités dans Rn) ou les rotations de Rn. Plus généralement, les statistiques directionnelles traitent les observations dans des variétés riemanniennes compactes. Gaile et Burt[1] ont posé les premières bases et outils de cette discipline en 1980.

La forme globale d'une protéine peut être représentée par un groupe de points situés sur la sphère unité. L'image ci-dessus illustre l'histogramme sphérique de ces points pour un ensemble de protéines. Le traitement de telles données est le domaine des statistiques directionnelles.[2]

On constate que les outils statistiques usuels ne fonctionnent pas correctement sur des angles : par exemple, il serait absurde que la moyenne d'un angle de 2 degrés et d'un angle de 358 degrés soit un angle de 180 degrés, puisque 0 et 360 degrés correspondent au même angle. Cela illustre la nécessité d'outils statistiques spécifiques à l'étude de données cycliques, comme les angles, mais aussi les périodes répétées (jours de la semaines, mois de l'année, etc.). Le même problème se pose pour des données qui représenteraient des angle dièdres ou des rotations en géométrie 3D (par exemple dans l'étude de la structure des molécules.

Distributions circulaires

Une distribution circulaire représente une variable aléatoire prenant ses valeurs sur un cercle. On considère généralement son paramètre θ comme un angle compris entre 0 et 2 π ou entre -π et π.

Toute fonction de densité de probabilité définie sur R peut être enroulée sur un cercle-unité[3] : la fonction de densité de la variable angulaire est la somme de toutes valeurs de f où la valeur de x correspond à l'angle θ, soit :

.

Ce concept peut être étendu à une variable à n composantes θ en sommant n fois sur chaque dimension.

,

où les ek sont les vecteurs de la base orthonormée.

Voici quelques distributions circulaires courantes.

Distribution circulaire uniforme

Dans cette distribution, chaque angle est équiprobable : la densité de probabilité de la distribution circulaire uniforme est

.

Distribution normale enroulée

La densité de probabilité correspondant à la loi normale enroulée (notée WN pour wrapped normal distribution) selon le procédé décrit ci-dessus est :

,

μ et σ sont respectivement la moyenne et l'écart-type de la distribution normale sous-jacente.

On peut également l'écrire au moyen de la fonction thêta de Jacobi :

.

Distribution de Cauchy enroulée

La densité de probabilité correspondant à une loi de Cauchy enroulée (notée WC pour wrapped Cauchy distribution) est :

,

θ0 est le paramètre de position (c'est à dire l'angle correspondant au pic de densité) et a le paramètre d'échelle de la distribution.

Distribution de Lévy enroulée

La densité de probabilité correspondant à une loi de Lévy enroulée (notée WL pour Wrapped Lévy distribution) est :

,

en considérant comme nulles les valeurs du terme de la somme pour lesquelles , où μ est le paramètre de position et c le paramètre d'échelle de la distribution.

Distribution circulaire de von Mises

Contrairement aux distributions enroulées vues plus haut, la distribution de Von Mises est définie directement sur un cercle. Elle est donc particulièrement utile en statistiques circulaires car le calcul de sa fonction de densité ne fait pas intervenir de somme infinie. Si on peut la considérer comme une version enroulée d'une fonction de distribution sur R, il n'existe pas de formule fermée pour cette distribution.

Elle possède des paramètres similaires à la loi normale : une moyenne μ et une concentration κ dont l'inverse 1/κ est analogue à la variance σ2 d'une loi normale, ce qui amène parfois à la qualifier de "loi normale circulaire"[4]. Elle est également une bonne approximation de la loi normale enroulée. Sa fonction de densité est donnée par :

,

I0 est la fonction de Bessel modifiée d'ordre 0.

À noter que la loi circulaire uniforme est un cas particulier de la loi de von Mises pour κ = 0.

Distributions sur des variétés de dimensions supérieures

Il existe des distributions définies sur une sphère (surface de dimension 2), par exemple la Loi de Kent[5], ou plus généralement sur une N-sphère comme la loi de von Mises-Fischer (en)[6], sur un tore (loi de von Mises bivariée) ou sur une variété de Stiefel (loi de von Mises-Fischer matricielle (en)).

La loi de Bingham (en) est une distribution sur les droites passant par l'origine en dimension N+1, ou de manière équivalente, sur un hémisphère de la N-sphère (une N-sphère dont les points antipodaux sont identifiés).[7]

Ces distributions sont utilisés par exemple en géologie[8], en cristallographie[9] ou bien en bio-informatique pour l'étude de la structure des protéines.[10]

Notes et références

  1. Directional Statistics, Concepts and Techniques in Modern Geography, 25, 1980, http://www.qmrg.org.uk/files/2008/11/25-directional-statistics.pdf
  2. Thomas Hamelryck, John T. Kent et Anders Krogh, « Hamelryck, T., Kent, J., Krogh, A. (2006) Sampling realistic protein conformations using local structural bias. PLoS Comput. Biol., 2(9): e131 », PLOS Computational Biology, vol. 2, no 9,‎ , e131 (PMID 17002495, PMCID 1570370, DOI 10.1371/journal.pcbi.0020131, Bibcode 2006PLSCB...2..131H)
  3. (en) Bahlmann, Claus, « Directional features in online handwriting recognition », Pattern Recognition, no 36,‎ , p. 115-125 (lire en ligne)
  4. N. I. Fisher, Statistical analysis of circular data, Cambridge University Press, (ISBN 0-521-35018-2 et 978-0-521-35018-1, OCLC 26256299, lire en ligne)
  5. (en) John T. Kent, « The Fisher-Bingham Distribution on the Sphere », Journal of the Royal Statistical Society: Series B (Methodological), vol. 44, no 1,‎ , p. 71–80 (ISSN 2517-6161, DOI 10.1111/j.2517-6161.1982.tb01189.x, lire en ligne, consulté le )
  6. Ronald Aylmer Fisher, « Dispersion on a sphere », Proceedings of the Royal Society of London. Series A. Mathematical and Physical Sciences, vol. 217, no 1130,‎ , p. 295–305 (DOI 10.1098/rspa.1953.0064, lire en ligne, consulté le )
  7. Christopher Bingham, « An Antipodally Symmetric Distribution on the Sphere », The Annals of Statistics, vol. 2, no 6,‎ (ISSN 0090-5364, DOI 10.1214/aos/1176342874, lire en ligne, consulté le )
  8. (en) David Peel, William J Whiten et Geoffrey J McLachlan, « Fitting Mixtures of Kent Distributions to Aid in Joint Set Identification », Journal of the American Statistical Association, vol. 96, no 453,‎ , p. 56–63 (ISSN 0162-1459 et 1537-274X, DOI 10.1198/016214501750332974, lire en ligne, consulté le )
  9. N. C. Krieger Lassen, D. Juul Jensen et K. Conradsen, « On the statistical analysis of orientation data », Acta Crystallographica Section A Foundations of Crystallography, vol. 50, no 6,‎ , p. 741–748 (ISSN 0108-7673, DOI 10.1107/S010876739400437X, lire en ligne, consulté le )
  10. (en) John T Kent et Thomas Hamelryck, « Using the Fisher-Bingham distribution in stochastic models for protein structure. », Quantitative Biology, Shape Analysis, and Wavelets, vol. 24, no 1,‎ , p. 57-60 (lire en ligne)