Entropie croisée

Cet article est une ébauche concernant les mathématiques.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

En théorie de l'information, l'entropie croisée entre deux lois de probabilité mesure le nombre de bits moyen nécessaires pour identifier un événement issu de l'« ensemble des événements » sur l'univers $\Omega$ , si la distribution des événements est basée sur une loi de probabilité $q$ , en utilisant un système de codage défini sur une distribution de référence $p$ .

L'entropie croisée pour deux distributions $p$ et $q$ sur le même espace probabilisé est définie de la façon suivante :

\mathrm {H} (p,q)=\mathrm {E} _{p}[-\log q]=\mathrm {H} (p)+D_{\mathrm {KL} }(p\|q)\!

,

où $H(p)$ est l'entropie de $p$ , et $D_{\mathrm {KL} }(p||q)$ est la divergence de Kullback-Leibler entre $q$ et $p$ .

Pour $p$ et $q$ discrets, cela signifie

\mathrm {H} (p,q)=-\sum _{x}p(x)\,\log q(x).\!

La formule est analogue pour des variables aléatoires continues :

-\int _{X}p(x)\,\log q(x)\,dx.\!

NB: La notation $\mathrm {H} (p,q)$ est parfois utilisées à la fois pour l'entropie croisée et l'entropie conjointe de $p$ et $q$ .

Minimisation de l'entropie croisée[modifier | modifier le code]

La minimisation de l'entropie croisée est souvent utilisée en optimisation et en estimation de probabilité d'événements rares ; voir méthode de l'entropie croisée.

Quand on compare une distribution $q$ avec une distribution de référence $p$ , l'entropie croisée et la divergence de Kullback-Leibler sont identiques à une constante additive près (quand $p$ est fixé): les deux atteignent leur minimum lorsque $p=q$ , ce qui donne $0$ pour la divergence KL, et $\mathrm {H} (p)$ pour l'entropie croisée.

Cependant, comme expliqué dans l'article divergence de Kullback-Leibler, la distribution $q$ est parfois la loi fixée a priori, et la distribution $p$ est optimisée pour être la plus proche possible de $q$ , sous certaines contraintes. Dans ce cas les deux minimisations ne sont pas équivalentes. Cela conduit à des ambiguïtés dans la littérature, avec des auteurs tentant de réduire la confusion en définissant l'entropie croisée par $D_{KL}(p||q)$ plutôt que par $H(p,q)$ .