Divergence (statistiques)

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Certaines informations figurant dans cet article ou cette section devraient être mieux reliées aux sources mentionnées dans les sections « Bibliographie », « Sources » ou « Liens externes » (avril 2016).

Vous pouvez améliorer la vérifiabilité en associant ces informations à des références à l'aide d'appels de notes.

En statistiques, une divergence est une fonction ou une fonctionnelle qui mesure la dissimilarité d'une loi de probabilité par rapport à une autre. Selon le contexte, elles peuvent être définies pour des lois, des mesures positives (non-normalisées), des vecteurs (par exemple sur l'espace des paramètres si l'on considère un modèle paramétrique), ou encore des matrices.

Les divergences sont analogues à des distances au carré et permettent de généraliser la notion de distance aux variétés statistiques, mais il s'agit d'une notion plus faible dans la mesure où elles ne sont en général pas symétriques et ne vérifient pas l'inégalité triangulaire.

Exemple[modifier | modifier le code]

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

La divergence χ² de Pearson^[1] est définie par $D(\mu ,\mu ')=\sum _{x{\text{ dans le support de }}\mu }{\frac {(\mu '(x)-\mu (x))^{2}}{\mu (x)}}$ .

Définition générale[modifier | modifier le code]

Soit $M$ une variété topologique et $V\subseteq \mathbb {R} ^{n}$ une carte locale. Une divergence est une fonction $D:V\times V\rightarrow \mathbb {R} _{+}$ (également définie sur $M$ au moyen de l'homéomorphisme associé), différentiable jusqu'à l'ordre 3 et satisfaisant les propriétés suivantes^[2] :

$D(\xi _{p},\xi _{q})\geq 0\,\forall \,\xi _{p},\xi _{q}\in V$  ;
$D(\xi _{p},\xi _{q})=0\,ssi\,\xi _{p}=\xi _{q}$  ;
Le développement limité de $D$ en $\xi _{p}$ s'écrit :

D(\xi _{p},\xi _{p}+d\xi )={\frac {1}{2}}\sum g_{ij}(\xi _{p})d\xi _{i}d\xi _{j}+O(|d\xi |^{3})

où

G(\xi _{p})=(g_{ij}(\xi _{p}))_{(1\leq i,j\leq n)}

est définie positive.

Remarques[modifier | modifier le code]

Les notations $D(\cdot ||\cdot )$ ou $D[\cdot :\cdot ]$ peuvent également être employées.

Pour une divergence $D$ donnée, il est parfois intéressant d'introduire la divergence symétrique $D_{S}$ associée : $D_{s}(p,q)=(D(p,q)+D(q,p))/2$ .

Exemples[modifier | modifier le code]

Il existe une grande variété de divergences, dont entre autres :

La divergence euclidéenne, définie comme la moitié de la racine de la distance euclidéenne ;
La divergence de Kullback-Leibler, qui est la seule à appartenir à la fois aux classes des f-divergences et des divergences de Bregman ;
Parmi les autres f-divergences :
- Les $\alpha$ -divergences,
- La distance de Hellinger ;
Autres divergences de Bregman :
- Les $\beta$ -divergences,
- Les $\gamma$ -divergences,
- La divergence d'Itakura-Saito.

Pour une bibliographie détaillée, voir Basseville 2013.

Annexes[modifier | modifier le code]

Notes[modifier | modifier le code]

↑ Karl Pearson F.R.S, « X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling », The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, vol. 50, n^o 302,‎ 1^er juillet 1900, p. 157–175 (ISSN 1941-5982, DOI 10.1080/14786440009463897, lire en ligne, consulté le 22 mai 2019)
↑ Amari 2016, p. 10

Bibliographie[modifier | modifier le code]

(en) Shun-ichi Amari (trad. du japonais), Information Geometry and Its Applications, Springer, coll. « Applied Mathematical Science », 2016, 364 p. (ISBN 978-4-431-55977-1 et 978-4-431-55978-8, ISSN 0066-5452 et 2196-968X)
(en) Michèle Basseville, « Divergence measures for statistical data processing — An annotated bibliography », Signal Processing, Elsevier, vol. 93, n^o 4,‎ 2013, p. 621-633

Portail des probabilités et de la statistique

[1] Karl Pearson F.R.S, « X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling », The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, vol. 50, n^o 302,‎ 1^er juillet 1900, p. 157–175 (ISSN 1941-5982, DOI 10.1080/14786440009463897, lire en ligne, consulté le 22 mai 2019)

[2] Amari 2016, p. 10

[1]

[2]