Loi de probabilité d'entropie maximale

Un article de Wikipédia, l'encyclopédie libre.

En statistique et en théorie de l'information, une loi de probabilité d'entropie maximale a une entropie qui est au moins aussi grande que celle de tous les autres membres d'une classe spécifiée de lois de probabilité. Selon le principe d'entropie maximale, si rien n'est connu sur une loi , sauf qu'elle appartient à une certaine classe (généralement définie en termes de propriétés ou de mesures spécifiées), alors la loi avec la plus grande entropie doit être choisie comme la moins informative par défaut. La motivation est double : premièrement, maximiser l'entropie minimise la quantité d'informations a priori intégrées à la loi ; deuxièmement, de nombreux systèmes physiques ont tendance à évoluer vers des configurations d'entropie maximale au fil du temps.

Définition de l'entropie et de l'entropie différentielle[modifier | modifier le code]

Si X est une variable aléatoire discrète de loi donnée par

alors l'entropie de est définie comme

Si est une variable aléatoire continue de loi de probabilité p(x), alors l'entropie différentielle de X est définie par[1],[2]

La quantité p(x) log p(x) est considérée comme nulle chaque fois que p(x) = 0.

Il s'agit d'un cas particulier des formes plus générales décrites dans les articles Entropie (théorie de l'information), Principe d'entropie maximale et Entropie différentielle. Dans le cadre des lois d'entropie maximale, c'est la seule nécessaire, car la maximisation de maximisera également les formes plus générales.

La base du logarithme n'est pas importante tant que la même est utilisée de manière cohérente : le changement de base entraîne simplement une remise à l'échelle de l'entropie. Les théoriciens de l'information peuvent préférer utiliser la base 2 pour exprimer l'entropie en bits ; les mathématiciens et les physiciens préféreront souvent le logarithme naturel, résultant en une unité de nats pour l'entropie.

Le choix de la mesure dx est cependant cruciale pour déterminer l'entropie et la loi d'entropie maximale qui en résulte, même si l'utilisation habituelle à la mesure de Lebesgue est souvent défendue comme "naturel".

Lois avec constantes mesurées[modifier | modifier le code]

De nombreuses distributions statistiques d'intérêt applicable sont celles pour lesquelles les moments ou d'autres quantités mesurables sont contraints d'être des constantes. Le théorème suivant de Ludwig Boltzmann donne la forme de la densité de probabilité sous ces contraintes.

Cas continu[modifier | modifier le code]

On suppose que S est un sous-ensemble fermé de nombres réels et on choisit de spécifier n fonctions mesurables f1, ... , fn et n nombres a1, ... , an. On considère la classe C de toutes les variables aléatoires à valeur réelle prises en charge sur S (c'est-à-dire dont la fonction de densité est nulle en dehors de S) et qui satisfont aux n conditions instantanées :

S'il y a un membre dans C dont la fonction de densité est positive partout dans S, et s'il existe une distribution d'entropie maximale pour C, alors sa densité de probabilité p(x) a la forme suivante :

où l'on suppose que f0(x) = 1. La constante λ0 et les n multiplicateurs de Lagrange résolvent le problème d'optimisation contrainte avec (cette condition assure que p soit d'intégrale égale à 1)[3]:

En utilisant les conditions de Karush-Kuhn-Tucker, on peut montrer que le problème d'optimisation a une solution unique car la fonction objectif de l'optimisation est concave en λ.

On note que si les conditions de moment sont des égalités (au lieu d'inégalités), c'est-à-dire

alors la condition de contrainte λ0 est supprimée, ce qui rend l'optimisation sur les multiplicateurs de Lagrange sans contrainte.

Cas discret[modifier | modifier le code]

On considère un sous-ensemble discret (fini ou infini) des réels et on choisit de spécifier n fonctions f1, ... , fn et n nombres a1, ... , an. On considère la classe C de toutes les variables aléatoires discrètes X qui s'appuient sur S et qui satisfont les n conditions de moment

S'il existe un membre de C qui attribue une probabilité positive à tous les membres de S et s'il existe une distribution d'entropie maximale pour C, alors cette distribution a la forme suivante :

où l'on suppose que et les constantes sont solutions du problème d'optimisation contrainte avec [4] :

Encore une fois, si les conditions de moment sont des égalités (au lieu d'inégalités), alors la condition de contrainte λ0 n'est pas présent dans l'optimisation.

Preuve dans le cas des contraintes d'égalité[modifier | modifier le code]

Dans le cas des contraintes d'égalité, ce théorème est démontré avec le calcul des variations et des multiplicateurs de Lagrange. Les contraintes peuvent s'écrire sous la forme

On considère la fonctionnelle

et sont les multiplicateurs de Lagrange. La contrainte zéro garantit le deuxième axiome de probabilité. Les autres contraintes sont que les mesures de la fonction soient des constantes données jusqu'à l'ordre . L'entropie atteint un extremum lorsque la dérivée fonctionnelle s'annule :

On peut vérifier que cet extremum est bien un maximum. Par conséquent, la distribution de probabilité d'entropie maximale dans ce cas doit être de la forme ( )

La preuve de la version discrète est essentiellement la même.

Unicité du maximum[modifier | modifier le code]

On suppose , sont des lois satisfaisant les contraintes attendues. Soit et compte tenu de la distribution il est clair que cette distribution satisfait les mêmes contraintes et a de plus pour support . Par les propriétés basiques de l'entropie, il vient que . COnsidérer les valeurs limites pour et donne respectivement .

Il s'ensuit qu'une distribution satisfaisant les contraintes d'attente et maximisant l'entropie doit nécessairement avoir un support complet — c'est-à-dire que la distribution est presque partout positive. Il s'ensuit que la distribution maximisante doit être un point interne dans l'espace des distributions satisfaisant les contraintes d'espérance, c'est-à-dire qu'elle doit être un extremum local. Ainsi, il suffit de montrer que l'extremum local est unique, pour montrer à la fois que la distribution maximisant l'entropie est unique (et cela montre aussi que l'extremum local est le maximum global).

Supposons que sont des extrema locaux. En reformulant les calculs ci-dessus, ceux-ci sont caractérisés par des paramètres passant par et de même pour , où . On note maintenant une série d'identités : par la satisfaction des contraintes d'attente et l'utilisation de gradients/dérivées directionnelles, on a et de même pour . En posant on obtient :

pour certains . En calculant plus loin on a

est similaire à la loi ci-dessus, uniquement paramétrée par . En supposant qu'aucune combinaison linéaire non triviale des observables n'est presque partout constante (ce qui, par exemple, est vrai si les observables sont indépendantes et non constantes presque partout), on considère que a une variance non nulle, sauf si . Par l'équation ci-dessus, il est donc clair que ce dernier doit être le cas. Ainsi , donc les paramètres caractérisant les extrema locaux sont identiques, ce qui signifie que les lois elles-mêmes sont identiques. Ainsi, l'extremum local est unique et d'après la discussion ci-dessus, le maximum est unique, à condition qu'un extremum local existe réellement.

Mises en garde[modifier | modifier le code]

Il faut noter que toutes les classes de distributions ne contiennent pas une loi d'entropie maximale. Il est possible qu'une classe contienne des lois d'entropie arbitrairement grande (par exemple la classe de toutes les lois continues sur R avec une moyenne nulle mais un écart type arbitraire), ou que les entropies soient bornées au-dessus mais qu'aucune loi n'atteigne l'entropie maximale[Notes 1]. Il est également possible que les restrictions de valeur attendue pour la classe C forcent la loi de probabilité à être nulle dans certains sous-ensembles de S . Dans ce cas, ce théorème ne s'applique pas, mais on peut contourner ce problème en réduisant l'ensemble S.

Exemples[modifier | modifier le code]

Chaque loi de probabilité est trivialement une loi de probabilité d'entropie maximale sous la contrainte que la loi a sa propre entropie. Pour voir cela, on réécrit la densité comme et on la compare à l'expression du théorème ci-dessus. En choisissant comme fonction mesurable et

être la constante, est la loi de probabilité d'entropie maximale sous la contrainte

.

Des exemples non triviaux sont des lois soumises à de multiples contraintes différentes de l'affectation de l'entropie. Ceux-ci sont souvent trouvés en commençant par la même procédure et en remarquant que peut être séparée en parties.

Un tableau d'exemples de lois d'entropie maximale est donné dans Lisman (1972)[5] et Park & Bera (2009)[6].

Lois uniformes et uniformes par morceaux[modifier | modifier le code]

La loi uniforme continue sur l'intervalle [a , b] est la loi d'entropie maximale parmi toutes les distributions continues qui sont prises en charge dans l'intervalle [a , b], et donc la densité de probabilité est de 0 en dehors de l'intervalle. Cette densité uniforme peut être mise en relation avec le principe d'indifférence (en) de Laplace, parfois appelé principe de raison insuffisante. Plus généralement, si on donne une subdivision a = a0 < a1 < ... < ak = b de l'intervalle [a , b] et des probabilités p1 , ... , pk dont la somme vaut 1, alors on peut considérer la classe de toutes les lois continues telles que

La densité de la loi d'entropie maximale pour cette classe est constante sur chacun des intervalles [aj–1 , aj[. La loi uniforme sur l'ensemble fini x1 , ... , xn (qui attribue une probabilité de 1/ n à chacune de ces valeurs) est la loi d'entropie maximale parmi toutes les distributions discrètes supportées sur cet ensemble.

Moyenne positive et spécifiée : la loi exponentielle[modifier | modifier le code]

La loi exponentielle, pour laquelle la fonction de densité est

est la loi d'entropie maximale parmi toutes les loi continues définies sur [0,+∞[ qui ont une moyenne fixée à 1/λ.

Moyenne et variance spécifiées : la loi normale[modifier | modifier le code]

La loi normale , pour laquelle la fonction de densité est

a une entropie maximale parmi toutes les distributions à valeurs réelles supportées sur ]−∞,∞[ avec une variance spécifiée σ2 (un moment particulier). Par conséquent, l'hypothèse de normalité impose la contrainte structurelle a priori minimale au-delà de ce moment. (Voir l'article sur l'entropie différentielle pour une dérivation).

Dans le cas des lois définies sur [0,+∞[, la distribution d'entropie maximale dépend des relations entre le premier et le second moments. Dans des cas spécifiques, il peut s'agir de la distribution exponentielle, ou peut être une autre distribution, voire peut être indéfinissable[7].

Lois discrètes avec une moyenne spécifiée[modifier | modifier le code]

Parmi toutes les lois discrètes supportées sur l'ensemble { x 1 ,..., x n } avec une moyenne spécifiée μ, la loi d'entropie maximale a la forme suivante :

où les constantes positives C et r peuvent être déterminées par les exigences selon lesquelles la somme de toutes les probabilités doit être 1 et l'espérance doit valoir μ.

Par exemple, si un grand nombre N de dés sont lancés et qu'on dit que la somme de tous les nombres affichés est S . Sur la base de ces seules informations, quelle serait une hypothèse raisonnable pour le nombre de dés indiquant 1, 2, ..., 6 ? Ceci est un exemple de la situation considérée ci-dessus, avec {x1 ,..., x6} = {1,...,6} et μ = S / N.

Enfin, parmi toutes les distributions discrètes supportées sur l'ensemble infini de moyenne μ, la distribution d'entropie maximale a la forme :

où à nouveau les constantes C et r ont été déterminées par les exigences selon lesquelles la somme de toutes les probabilités doit être 1 et la valeur attendue doit être μ. Par exemple, dans le cas où x k = k, cela donne

telle que la loi d'entropie maximale respective est la loi géométrique.

Variables aléatoires circulaires[modifier | modifier le code]

Pour une variable aléatoire continue distribuée autour du cercle unité, la loi de Von Mises maximise l'entropie lorsque les parties réelle et imaginaire du premier moment circulaire sont spécifiées[8] ou, de manière équivalente, la moyenne circulaire et la variance circulaire sont spécifiées.

Lorsque la moyenne et la variance des angles modulo sont spécifiées, la loi normale enveloppée maximise l'entropie[8].

Maximiseur pour la moyenne, la variance et l'asymétrie spécifiées[modifier | modifier le code]

Il existe une borne supérieure sur l'entropie des variables aléatoires continues sur avec une moyenne, une variance et un biais spécifiés. Cependant, il n'y a pas de distribution qui atteint cette borne supérieure, car n'est pas borné lorsque (voir Cover & Thomas (2006 : chapitre 12)).

Cependant, l'entropie maximale est ε -atteignable : l'entropie d'une loi peut être arbitrairement proche de la borne supérieure. On commence avec une loi normale de moyenne et de variance spécifiées. Pour introduire un biais positif, on perturbe la loi normale vers le haut d'une petite quantité à une valeur plusieurs σ supérieure à la moyenne. L'asymétrie, étant proportionnelle au troisième moment, sera plus affectée que les moments d'ordre inférieur.

Il s'agit d'un cas particulier du cas général dans lequel l'exponentielle de tout polynôme d'ordre impair en x sera illimitée sur . Par exemple, sera également illimité sur , mais lorsque le support est limité à un intervalle borné ou semi-borné, la borne supérieure d'entropie peut être atteinte (par exemple, si x se situe dans l'intervalle [0, ∞ ] et λ < 0, la loi exponentielle en résultera).

Maximisateur pour la moyenne et la mesure de risque d'écart spécifiées[modifier | modifier le code]

Chaque loi avec une densité log-concave est une distribution d'entropie maximale avec une moyenne spécifiée μ et une mesure de risque de déviation D[9].

En particulier, la loi d'entropie maximale avec une moyenne spécifiée et de déviation est:

  • La loi normale , si est l'écart type ;
  • La loi de Laplace, si est l'écart absolu moyen[5] ;
  • La loi avec densité de la forme si est le demi-écart inférieur standard, où , et a,b,c sont des constantes[9].

Autres exemples[modifier | modifier le code]

Dans le tableau ci-dessous, chaque loi répertoriée maximise l'entropie pour un ensemble particulier de contraintes fonctionnelles répertoriées dans la troisième colonne, et la contrainte que x soit inclus dans le support de la densité de probabilité, qui est répertoriée dans la quatrième colonne[5],[6]. Plusieurs exemples (Bernoulli, géométrique, exponentielle, Laplace, Pareto) listés sont trivialement vrais car leurs contraintes associées sont équivalentes à l'affectation de leur entropie. Ils sont inclus simplement parce que leur contrainte est liée à une quantité commune ou facilement mesurable. Pour référence, est la fonction gamma, est la fonction digamma, est la fonction bêta, et γE est la constante d'Euler-Mascheroni.

Table de lois de probabilités et contraintes d'entropie maximale correspondantes
Distribution Densité Contrainte d'entropie maximale Support
Uniforme (discrète) Aucune
Uniforme (continue) Aucune
Bernoulli
Géométrique
Exponentielle
Laplace
Laplace asymétrique
Pareto
Normale
Tronquée (voir article dédié)
von Mises
Rayleigh
Beta pour

Cauchy
Chi
Chi-2
Erlang
Gamma
Log-normale
Maxwell–Boltzmann
Weibull
Normale miltidimensionnelle

Binomiale
Poisson [10]
Logistique

Le principe d'entropie maximale peut être utilisé pour majorer l'entropie des mélanges statistiques[11].

Articles connexes[modifier | modifier le code]

Remarques[modifier | modifier le code]

  1. Par exemple, la classe de toutes les lois continues X si R avec E(X) = 0 et E(X2) = E(X3) = 1 (voir Cover, Ch 12).

Citations[modifier | modifier le code]

  1. (en) D. Williams, Weighing the Odds, Cambridge University Press, , p. 197-199 (ISBN 0-521-00618-X).
  2. (en) J. M. Bernardo et A. F. M. Smith, Bayesian Theory, Wiley, , p. 209, 366 (ISBN 0-471-49464-X)
  3. (en) Botev et Kroese, « The Generalized Cross Entropy Method, with Applications to Probability Density Estimation », Methodology and Computing in Applied Probability, vol. 13, no 1,‎ , p. 1–27 (DOI 10.1007/s11009-009-9133-7, S2CID 18155189, lire en ligne)
  4. Botev et Kroese, « Non-asymptotic Bandwidth Selection for Density Estimation of Discrete Data », Methodology and Computing in Applied Probability, vol. 10, no 3,‎ , p. 435 (DOI 10.1007/s11009-007-9057-z, S2CID 122047337)
  5. a b et c Lisman et van Zuylen, « Note on the generation of most probable frequency distributions », Statistica Neerlandica, vol. 26, no 1,‎ , p. 19–23 (DOI 10.1111/j.1467-9574.1972.tb00152.x)
  6. a et b Park et Bera, « Maximum entropy autoregressive conditional heteroskedasticity model », Journal of Econometrics, vol. 150, no 2,‎ , p. 219–230 (DOI 10.1016/j.jeconom.2008.12.014, CiteSeerx 10.1.1.511.9750, lire en ligne [archive du ], consulté le )
  7. Dowson et Wragg, « Maximum-entropy distributions having prescribed first and second moments », IEEE Transactions on Information Theory, vol. 19, no 5,‎ , p. 689–693 (ISSN 0018-9448, DOI 10.1109/tit.1973.1055060)
  8. a et b S. Rao Jammalamadaka et SenGupta, A., Topics in circular statistics, New Jersey, World Scientific, (ISBN 978-981-02-3778-3, lire en ligne)
  9. a et b (en) B. Grechuk, A. Molyboha et M. Zabarankin, « Maximum Entropy Principle with General Deviation Measures », Mathematics of Operations Research, vol. 34, no 2,‎ , p. 445--467 (lire en ligne).
  10. (en) Peter Harremös, « Binomial and Poisson distributions as maximum entropy distributions », IEEE Transactions on Information Theory, vol. 47, no 5,‎ , p. 2039–2041 (DOI 10.1109/18.930936).
  11. (en) Frank Nielsen et Richard Nock, « MaxEnt upper bounds for the differential entropy of univariate continuous distributions », IEEE Signal Processing Letters, IEEE, vol. 24,‎ , p. 402-406 (DOI 10.1109/LSP.2017.2666792, Bibcode 2017ISPL...24..402N, S2CID 14092514)

Références[modifier | modifier le code]

  • (en) T. M. Cover et J. A. Thomas, Elements of Information Theory, Wiley, (ISBN 978-0471241959, lire en ligne), « 2, Maximum Entropy »
  • (en) F. Nielsen et R. Nock, « MaxEnt upper bounds for the differential entropy of univariate continuous distributions », IEEE Signal Processing Letters, vol. 24, no 4,‎ , p. 402-406 (lire en ligne)
  • (en) I. J. Taneja, Generalized Information Measures and Their Applications, (lire en ligne). Chapter 1
  • (en) Nader Ebrahimi, Ehsan S. Soofi et Refik Soyer, « Multivariate maximum entropy identification, transformation, and dependence », Journal of Multivariate Analysis, vol. 99,‎ , p. 1217–1231 (DOI 10.1016/j.jmva.2007.08.004)