Loi de probabilité d'entropie maximale

En statistique et en théorie de l'information, une loi de probabilité d'entropie maximale a une entropie qui est au moins aussi grande que celle de tous les autres membres d'une classe spécifiée de lois de probabilité. Selon le principe d'entropie maximale, si rien n'est connu sur une loi , sauf qu'elle appartient à une certaine classe (généralement définie en termes de propriétés ou de mesures spécifiées), alors la loi avec la plus grande entropie doit être choisie comme la moins informative par défaut. La motivation est double : premièrement, maximiser l'entropie minimise la quantité d'informations a priori intégrées à la loi ; deuxièmement, de nombreux systèmes physiques ont tendance à évoluer vers des configurations d'entropie maximale au fil du temps.

Définition de l'entropie et de l'entropie différentielle[modifier | modifier le code]

Si $X$ est une variable aléatoire discrète de loi donnée par

\mathbb {P} (X=x_{k})=p_{k}\quad {\mbox{ pour }}k=1,2,\ldots

alors l'entropie de $X$ est définie comme

{\mathcal {H}}(X)=-\sum _{k\geq 1}p_{k}\log p_{k}.

Si $X$ est une variable aléatoire continue de loi de probabilité $p (x)$ , alors l'entropie différentielle de $X$ est définie par^[1]^,^[2]

{\mathcal {H}}(X)=-\int _{-\infty }^{\infty }p(x)\log p(x)\,\mathrm {d} x.

La quantité $p (x) log p (x)$ est considérée comme nulle chaque fois que $p (x) = 0$ .

Il s'agit d'un cas particulier des formes plus générales décrites dans les articles Entropie (théorie de l'information), Principe d'entropie maximale et Entropie différentielle. Dans le cadre des lois d'entropie maximale, c'est la seule nécessaire, car la maximisation de ${\mathcal {H}}(X)$ maximisera également les formes plus générales.

La base du logarithme n'est pas importante tant que la même est utilisée de manière cohérente : le changement de base entraîne simplement une remise à l'échelle de l'entropie. Les théoriciens de l'information peuvent préférer utiliser la base 2 pour exprimer l'entropie en bits ; les mathématiciens et les physiciens préféreront souvent le logarithme naturel, résultant en une unité de nats pour l'entropie.

Le choix de la mesure $d x$ est cependant cruciale pour déterminer l'entropie et la loi d'entropie maximale qui en résulte, même si l'utilisation habituelle à la mesure de Lebesgue est souvent défendue comme "naturel".

Lois avec constantes mesurées[modifier | modifier le code]

De nombreuses distributions statistiques d'intérêt applicable sont celles pour lesquelles les moments ou d'autres quantités mesurables sont contraints d'être des constantes. Le théorème suivant de Ludwig Boltzmann donne la forme de la densité de probabilité sous ces contraintes.

Cas continu[modifier | modifier le code]

On suppose que $S$ est un sous-ensemble fermé de nombres réels $\mathbb {R}$ et on choisit de spécifier $n$ fonctions mesurables $f 1, ... , f n$ et $n$ nombres $a 1, ... , a n$ . On considère la classe $C$ de toutes les variables aléatoires à valeur réelle prises en charge sur $S$ (c'est-à-dire dont la fonction de densité est nulle en dehors de $S$ ) et qui satisfont aux $n$ conditions instantanées :

\mathbb {E} [f_{j}(X)]\geq a_{j}\quad {\mbox{ pour }}j=1,\ldots ,n

S'il y a un membre dans $C$ dont la fonction de densité est positive partout dans $S$ , et s'il existe une distribution d'entropie maximale pour $C$ , alors sa densité de probabilité $p (x)$ a la forme suivante :

p(x)=\exp \left(\sum _{j=0}^{n}\lambda _{j}f_{j}(x)\right)\quad {\mbox{ pour tout }}x\in S

où l'on suppose que $f 0 (x) = 1$ . La constante $λ 0$ et les $n$ multiplicateurs de Lagrange ${\boldsymbol {\lambda }}=(\lambda _{1},\ldots ,\lambda _{n})$ résolvent le problème d'optimisation contrainte avec $a_{0}=1$ (cette condition assure que $p$ soit d'intégrale égale à 1)^[3]:

\max _{\lambda _{0};{\boldsymbol {\lambda }}}\left\{\sum _{j=0}^{n}\lambda _{j}a_{j}-\int \exp \left(\sum _{j=0}^{n}\lambda _{j}f_{j}(x)\right)\mathrm {d} x\right\}\quad \mathrm {avec:\;\;} {\boldsymbol {\lambda }}\geq \mathbf {0}

En utilisant les conditions de Karush-Kuhn-Tucker, on peut montrer que le problème d'optimisation a une solution unique car la fonction objectif de l'optimisation est concave en $λ$ .

On note que si les conditions de moment sont des égalités (au lieu d'inégalités), c'est-à-dire

\mathbb {E} [f_{j}(X)]=a_{j}\quad {\mbox{ pour }}j=1,\ldots ,n,

alors la condition de contrainte $λ \geq 0$ est supprimée, ce qui rend l'optimisation sur les multiplicateurs de Lagrange sans contrainte.

Cas discret[modifier | modifier le code]

On considère $S=\{x_{1},x_{2},...\}$ un sous-ensemble discret (fini ou infini) des réels et on choisit de spécifier $n$ fonctions $f 1, ... , f n$ et $n$ nombres $a 1, ... , a n$ . On considère la classe $C$ de toutes les variables aléatoires discrètes $X$ qui s'appuient sur $S$ et qui satisfont les $n$ conditions de moment

\mathbb {E} (f_{j}(X))\geq a_{j}\quad {\mbox{ pour }}j=1,\ldots ,n

S'il existe un membre de $C$ qui attribue une probabilité positive à tous les membres de $S$ et s'il existe une distribution d'entropie maximale pour $C$ , alors cette distribution a la forme suivante :

\mathbb {P} (X=x_{k})=\exp \left(\sum _{j=0}^{n}\lambda _{j}f_{j}(x_{k})\right)\quad {\mbox{ pour }}k=1,2,\ldots

où l'on suppose que $f_{0}=1$ et les constantes $\lambda _{0},\;{\boldsymbol {\lambda }}=(\lambda _{1},\ldots ,\lambda _{n})$ sont solutions du problème d'optimisation contrainte avec $a_{0}=1$ ^[4] :

\max _{\lambda _{0};{\boldsymbol {\lambda }}}\left\{\sum _{j=0}^{n}\lambda _{j}a_{j}-\sum _{k\geq 1}\exp \left(\sum _{j=0}^{n}\lambda _{j}f_{j}(x_{k})\right)\right\}\quad \mathrm {avec:\;\;} {\boldsymbol {\lambda }}\geq \mathbf {0}

Encore une fois, si les conditions de moment sont des égalités (au lieu d'inégalités), alors la condition de contrainte $λ \geq 0$ n'est pas présent dans l'optimisation.

Preuve dans le cas des contraintes d'égalité[modifier | modifier le code]

Dans le cas des contraintes d'égalité, ce théorème est démontré avec le calcul des variations et des multiplicateurs de Lagrange. Les contraintes peuvent s'écrire sous la forme

\int _{-\infty }^{\infty }f_{j}(x)p(x)\mathrm {d} x=a_{j}

On considère la fonctionnelle

J(p)=\int _{-\infty }^{\infty }p(x)\ln {p(x)}\mathrm {d} x-\eta _{0}\left(\int _{-\infty }^{\infty }p(x)\mathrm {d} x-1\right)-\sum _{j=1}^{n}\lambda _{j}\left(\int _{-\infty }^{\infty }f_{j}(x)p(x)\mathrm {d} x-a_{j}\right)

où $\eta _{0}$ et $\lambda _{j},j\geq 1$ sont les multiplicateurs de Lagrange. La contrainte zéro garantit le deuxième axiome de probabilité. Les autres contraintes sont que les mesures de la fonction soient des constantes données jusqu'à l'ordre $n$ . L'entropie atteint un extremum lorsque la dérivée fonctionnelle s'annule :

{\frac {\delta J}{\delta p}}\left(p\right)=\ln {p(x)}+1-\eta _{0}-\sum _{j=1}^{n}\lambda _{j}f_{j}(x)=0

On peut vérifier que cet extremum est bien un maximum. Par conséquent, la distribution de probabilité d'entropie maximale dans ce cas doit être de la forme ( $\lambda _{0}:=\eta _{0}-1$ )

p(x)={\rm {e}}^{-1+\eta _{0}}\cdot {\rm {e}}^{\sum _{j=1}^{n}\lambda _{j}f_{j}(x)}=\exp \left(\sum _{j=0}^{n}\lambda _{j}f_{j}(x)\right)\;.

La preuve de la version discrète est essentiellement la même.

Unicité du maximum[modifier | modifier le code]

On suppose $p$ , $p'$ sont des lois satisfaisant les contraintes attendues. Soit $\alpha \in (0,1)$ et compte tenu de la distribution $q=\alpha \cdot p+(1-\alpha )\cdot p'$ il est clair que cette distribution satisfait les mêmes contraintes et a de plus pour support $\mathrm {supp} (q)=\mathrm {supp} (p)\cup \mathrm {supp} (p')$ . Par les propriétés basiques de l'entropie, il vient que ${\mathcal {H}}(q)\geq \alpha {\mathcal {H}}(p)+(1-\alpha ){\mathcal {H}}(p')$ . COnsidérer les valeurs limites pour $\alpha \longrightarrow 1$ et $\alpha \longrightarrow 0$ donne respectivement ${\mathcal {H}}(q)\geq {\mathcal {H}}(p),{\mathcal {H}}(p')$ .

Il s'ensuit qu'une distribution satisfaisant les contraintes d'attente et maximisant l'entropie doit nécessairement avoir un support complet — c'est-à-dire que la distribution est presque partout positive. Il s'ensuit que la distribution maximisante doit être un point interne dans l'espace des distributions satisfaisant les contraintes d'espérance, c'est-à-dire qu'elle doit être un extremum local. Ainsi, il suffit de montrer que l'extremum local est unique, pour montrer à la fois que la distribution maximisant l'entropie est unique (et cela montre aussi que l'extremum local est le maximum global).

Supposons que $p,p'$ sont des extrema locaux. En reformulant les calculs ci-dessus, ceux-ci sont caractérisés par des paramètres ${\vec {\lambda }},{\vec {\lambda }}'\in \mathbb {R} ^{n}$ passant par $p(x)={\frac {{\rm {e}}^{\langle {\vec {\lambda }},{\vec {f}}(x)\rangle }}{C({\vec {\lambda }})}}$ et de même pour $p'$ , où $C({\vec {\lambda }})=\int _{x\in \mathbb {R} }{\rm {e}}^{\langle {\vec {\lambda }},{\vec {f}}(x)\rangle }~\mathrm {d} x$ . On note maintenant une série d'identités : par la satisfaction des contraintes d'attente et l'utilisation de gradients/dérivées directionnelles, on a $D\log(C(\cdot ))\vert _{\vec {\lambda }}=\left.{\frac {DC(\cdot )}{C(\cdot )}}\right|_{\vec {\lambda }}=\mathbb {E} _{p}[{\vec {f}}(X)]={\vec {a}}$ et de même pour ${\vec {\lambda }}'$ . En posant $u={\vec {\lambda }}'-{\vec {\lambda }}\in \mathbb {R} ^{n}$ on obtient :

0=\langle u,{\vec {a}}-{\vec {a}}\rangle =D_{u}\log(C(\cdot ))\vert _{{\vec {\lambda }}'}-D_{u}\log(C(\cdot ))\vert _{\vec {\lambda }}=D_{u}^{2}\log(C(\cdot ))\vert _{\vec {\gamma }}

où ${\vec {\gamma }}=\theta {\vec {\lambda }}+(1-\theta ){\vec {\lambda }}'$ pour certains $\theta \in (0,1)$ . En calculant plus loin on a

{\begin{array}{rcl}0&=&D_{u}^{2}\log(C(\cdot ))\vert _{\vec {\gamma }}\\&=&\left.D_{u}\left({\frac {D_{u}C(\cdot )}{C(\cdot )}}\right)\right|_{\vec {\gamma }}\\&=&\left.{\frac {D_{u}^{2}C(\cdot )}{C(\cdot )}}\right|_{\vec {\gamma }}-\left.{\frac {(D_{u}C(\cdot ))^{2}}{C(\cdot )^{2}}}\right|_{\vec {\gamma }}\\&=&\mathbb {E} _{q}[(\langle u,{\vec {f}}(X)\rangle )^{2}]-\left(\mathbb {E} _{q}[\langle u,{\vec {f}}(X)\rangle ]\right)^{2}=\mathrm {Var} _{q}(\langle u,{\vec {f}}(X)\rangle )\\\end{array}}

où $q$ est similaire à la loi ci-dessus, uniquement paramétrée par ${\vec {\gamma }}$ . En supposant qu'aucune combinaison linéaire non triviale des observables n'est presque partout constante (ce qui, par exemple, est vrai si les observables sont indépendantes et non constantes presque partout), on considère que $\langle u,{\vec {f}}(X)\rangle$ a une variance non nulle, sauf si $u=0$ . Par l'équation ci-dessus, il est donc clair que ce dernier doit être le cas. Ainsi ${\vec {\lambda }}'-{\vec {\lambda }}=u=0$ , donc les paramètres caractérisant les extrema locaux $p,p'$ sont identiques, ce qui signifie que les lois elles-mêmes sont identiques. Ainsi, l'extremum local est unique et d'après la discussion ci-dessus, le maximum est unique, à condition qu'un extremum local existe réellement.

Mises en garde[modifier | modifier le code]

Il faut noter que toutes les classes de distributions ne contiennent pas une loi d'entropie maximale. Il est possible qu'une classe contienne des lois d'entropie arbitrairement grande (par exemple la classe de toutes les lois continues sur R avec une moyenne nulle mais un écart type arbitraire), ou que les entropies soient bornées au-dessus mais qu'aucune loi n'atteigne l'entropie maximale^{[Notes 1]}. Il est également possible que les restrictions de valeur attendue pour la classe C forcent la loi de probabilité à être nulle dans certains sous-ensembles de S . Dans ce cas, ce théorème ne s'applique pas, mais on peut contourner ce problème en réduisant l'ensemble S.

Exemples[modifier | modifier le code]

Chaque loi de probabilité est trivialement une loi de probabilité d'entropie maximale sous la contrainte que la loi a sa propre entropie. Pour voir cela, on réécrit la densité comme $p(x)=\exp {(\ln {p(x)})}$ et on la compare à l'expression du théorème ci-dessus. En choisissant $\ln {p(x)}\rightarrow f(x)$ comme fonction mesurable et

\int \exp {(f(x))}f(x)\mathrm {d} x=-{\mathcal {H}}

être la constante, $p(x)$ est la loi de probabilité d'entropie maximale sous la contrainte

\int p(x)f(x)\mathrm {d} x=-{\mathcal {H}}

.

Des exemples non triviaux sont des lois soumises à de multiples contraintes différentes de l'affectation de l'entropie. Ceux-ci sont souvent trouvés en commençant par la même procédure $\ln {p(x)}\rightarrow f(x)$ et en remarquant que $f(x)$ peut être séparée en parties.

Un tableau d'exemples de lois d'entropie maximale est donné dans Lisman (1972)^[5] et Park & Bera (2009)^[6].

Lois uniformes et uniformes par morceaux[modifier | modifier le code]

La loi uniforme continue sur l'intervalle $[a, b]$ est la loi d'entropie maximale parmi toutes les distributions continues qui sont prises en charge dans l'intervalle $[a, b]$ , et donc la densité de probabilité est de 0 en dehors de l'intervalle. Cette densité uniforme peut être mise en relation avec le principe d'indifférence (en) de Laplace, parfois appelé principe de raison insuffisante. Plus généralement, si on donne une subdivision $a = a 0 < a 1 < ... < a k = b$ de l'intervalle $[a, b]$ et des probabilités $p 1, ... , p k$ dont la somme vaut 1, alors on peut considérer la classe de toutes les lois continues telles que

\mathbb {P} (a_{j-1}\leq X<a_{j})=p_{j}\quad {\mbox{ pour }}j=1,\ldots ,k

La densité de la loi d'entropie maximale pour cette classe est constante sur chacun des intervalles $[a j -1, a j [$ . La loi uniforme sur l'ensemble fini $x 1, ... , x n$ (qui attribue une probabilité de $1/ n$ à chacune de ces valeurs) est la loi d'entropie maximale parmi toutes les distributions discrètes supportées sur cet ensemble.

Moyenne positive et spécifiée : la loi exponentielle[modifier | modifier le code]

La loi exponentielle, pour laquelle la fonction de densité est

p(x|\lambda )=\lambda {\rm {e}}^{-\lambda x}1\!\!1_{x\geq 0}

est la loi d'entropie maximale parmi toutes les loi continues définies sur [0,+∞[ qui ont une moyenne fixée à $1/λ$ .

Moyenne et variance spécifiées : la loi normale[modifier | modifier le code]

La loi normale ${\mathcal {N}}(\mu ,\sigma ^{2})$ , pour laquelle la fonction de densité est

p(x|\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}{\rm {e}}^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}},

a une entropie maximale parmi toutes les distributions à valeurs réelles supportées sur $]-\infty,\infty[$ avec une variance spécifiée $σ 2$ (un moment particulier). Par conséquent, l'hypothèse de normalité impose la contrainte structurelle a priori minimale au-delà de ce moment. (Voir l'article sur l'entropie différentielle pour une dérivation).

Dans le cas des lois définies sur $[0,+\infty[$ , la distribution d'entropie maximale dépend des relations entre le premier et le second moments. Dans des cas spécifiques, il peut s'agir de la distribution exponentielle, ou peut être une autre distribution, voire peut être indéfinissable^[7].

Lois discrètes avec une moyenne spécifiée[modifier | modifier le code]

Parmi toutes les lois discrètes supportées sur l'ensemble { x ₁ ,..., x _n } avec une moyenne spécifiée μ, la loi d'entropie maximale a la forme suivante :

\mathbb {P} (X=x_{k})=Cr^{x_{k}}\quad {\mbox{ pour }}k=1,\ldots ,n

où les constantes positives C et r peuvent être déterminées par les exigences selon lesquelles la somme de toutes les probabilités doit être 1 et l'espérance doit valoir μ.

Par exemple, si un grand nombre N de dés sont lancés et qu'on dit que la somme de tous les nombres affichés est S . Sur la base de ces seules informations, quelle serait une hypothèse raisonnable pour le nombre de dés indiquant 1, 2, ..., 6 ? Ceci est un exemple de la situation considérée ci-dessus, avec {x₁ ,..., x₆} = {1,...,6} et μ = S / N.

Enfin, parmi toutes les distributions discrètes supportées sur l'ensemble infini $\{x_{1},x_{2},...\}$ de moyenne μ, la distribution d'entropie maximale a la forme :

\mathbb {P} (X=x_{k})=Cr^{x_{k}}\quad {\mbox{ pour }}k=1,2,\ldots ,

où à nouveau les constantes C et r ont été déterminées par les exigences selon lesquelles la somme de toutes les probabilités doit être 1 et la valeur attendue doit être μ. Par exemple, dans le cas où x _k = k, cela donne

C={\frac {1}{\mu -1}},\quad \quad r={\frac {\mu -1}{\mu }},

telle que la loi d'entropie maximale respective est la loi géométrique.

Variables aléatoires circulaires[modifier | modifier le code]

Pour une variable aléatoire continue $\theta _{i}$ distribuée autour du cercle unité, la loi de Von Mises maximise l'entropie lorsque les parties réelle et imaginaire du premier moment circulaire sont spécifiées^[8] ou, de manière équivalente, la moyenne circulaire et la variance circulaire sont spécifiées.

Lorsque la moyenne et la variance des angles $\theta _{i}$ modulo $2\pi$ sont spécifiées, la loi normale enveloppée maximise l'entropie^[8].

Maximiseur pour la moyenne, la variance et l'asymétrie spécifiées[modifier | modifier le code]

Il existe une borne supérieure sur l'entropie des variables aléatoires continues sur $\mathbb {R}$ avec une moyenne, une variance et un biais spécifiés. Cependant, il n'y a pas de distribution qui atteint cette borne supérieure, car $p(x)=c\exp {(\lambda _{1}x+\lambda _{2}x^{2}+\lambda _{3}x^{3})}$ n'est pas borné lorsque $\lambda _{3}\neq 0$ (voir Cover & Thomas (2006 : chapitre 12)).

Cependant, l'entropie maximale est $ε$ -atteignable : l'entropie d'une loi peut être arbitrairement proche de la borne supérieure. On commence avec une loi normale de moyenne et de variance spécifiées. Pour introduire un biais positif, on perturbe la loi normale vers le haut d'une petite quantité à une valeur plusieurs $σ$ supérieure à la moyenne. L'asymétrie, étant proportionnelle au troisième moment, sera plus affectée que les moments d'ordre inférieur.

Il s'agit d'un cas particulier du cas général dans lequel l'exponentielle de tout polynôme d'ordre impair en x sera illimitée sur $\mathbb {R}$ . Par exemple, $c{\rm {e}}^{\lambda x}$ sera également illimité sur $\mathbb {R}$ , mais lorsque le support est limité à un intervalle borné ou semi-borné, la borne supérieure d'entropie peut être atteinte (par exemple, si x se situe dans l'intervalle [0, ∞ ] et λ < 0, la loi exponentielle en résultera).

Maximisateur pour la moyenne et la mesure de risque d'écart spécifiées[modifier | modifier le code]

Chaque loi avec une densité log-concave est une distribution d'entropie maximale avec une moyenne spécifiée μ et une mesure de risque de déviation D^[9].

En particulier, la loi d'entropie maximale avec une moyenne spécifiée $\mathbb {E} (x)=\mu$ et de déviation $D(x)=d$ est:

La loi normale ${\mathcal {N}}(m,d^{2})$ , si $D(x)={\sqrt {\mathbb {E} [(x-\mu )^{2}]}}$ est l'écart type ;
La loi de Laplace, si $D(x)=\mathbb {E} (|x-\mu |)$ est l'écart absolu moyen^[5] ;
La loi avec densité de la forme $f(x)=c\exp(ax+b{[x-\mu ]_{-}}^{2})$ si $D(x)={\sqrt {\mathbb {E} [{(x-\mu )_{-}}^{2}]}}$ est le demi-écart inférieur standard, où $[x]_{-}:=\max\{0,-x\}$ , et a,b,c sont des constantes^[9].

Autres exemples[modifier | modifier le code]

Dans le tableau ci-dessous, chaque loi répertoriée maximise l'entropie pour un ensemble particulier de contraintes fonctionnelles répertoriées dans la troisième colonne, et la contrainte que x soit inclus dans le support de la densité de probabilité, qui est répertoriée dans la quatrième colonne^[5]^,^[6]. Plusieurs exemples (Bernoulli, géométrique, exponentielle, Laplace, Pareto) listés sont trivialement vrais car leurs contraintes associées sont équivalentes à l'affectation de leur entropie. Ils sont inclus simplement parce que leur contrainte est liée à une quantité commune ou facilement mesurable. Pour référence, $\Gamma (x)=\int _{0}^{\infty }{\rm {e}}^{-t}t^{x-1}{\rm {d}}t$ est la fonction gamma, $\psi (x)={\frac {\rm {d}}{{\rm {d}}x}}\ln \Gamma (x)={\frac {\Gamma '(x)}{\Gamma (x)}}$ est la fonction digamma, $B(p,q)={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}$ est la fonction bêta, et $γ E$ est la constante d'Euler-Mascheroni.

Table de lois de probabilités et contraintes d'entropie maximale correspondantes
Distribution	Densité	Contrainte d'entropie maximale	Support
Uniforme (discrète)	$f(k)={\frac {1}{b-a+1}}$	Aucune	$\{a,a+1,...,b-1,b\}\,$
Uniforme (continue)	$f(x)={\frac {1}{b-a}}$	Aucune	$[a,b]\,$
Bernoulli	$f(k)=p^{k}(1-p)^{1-k}$	$\mathbb {E} (k)=p\,$	$\{0,1\}\,$
Géométrique	$f(k)=(1-p)^{k-1}\,p$	$\mathbb {E} (k)={\frac {1}{p}}\,$	$\mathbb {N} \setminus \left\{0\right\}=\{1,2,3,...\}$
Exponentielle	$f(x)=\lambda \exp \left(-\lambda x\right)$	$\mathbb {E} (x)={\frac {1}{\lambda }}\,$	$\mathbb {R} _{+}$
Laplace	$f(x)={\frac {1}{2b}}\exp \left(-{\frac {\|x-\mu \|}{b}}\right)$	$\operatorname {E} (\|x-\mu \|)=b\,$	$\mathbb {R}$
Laplace asymétrique	$f(x)={\frac {\lambda \,{\rm {e}}^{-(x-m)\lambda s\kappa ^{s}}}{\kappa +1/\kappa }}\,(s\!=\!\operatorname {sgn}(x\!-\!m))$	$\mathbb {E} ((x-m)s\kappa ^{s})={\frac {1}{\lambda }}\,$	$\mathbb {R}$
Pareto	$f(x)={\frac {\alpha x_{m}^{\alpha }}{x^{\alpha +1}}}$	$\mathbb {E} (\ln(x))={\frac {1}{\alpha }}+\ln(x_{m})\,$	$[x_{m},+\infty [\,$
Normale	$f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)$	$\mathbb {E} (x)=\mu ,\,\mathbb {E} \left[(x-\mu )^{2}\right]=\sigma ^{2}$	$\mathbb {R}$
Tronquée	(voir article dédié)	$\mathbb {E} (x)=\mu _{T},\,\mathbb {E} \left[(x-\mu _{T})^{2}\right]=\sigma _{T}^{2}$	$[a,b]$
von Mises	$f(\theta )={\frac {1}{2\pi I_{0}(\kappa )}}\exp {(\kappa \cos {(\theta -\mu )})}$	$\mathbb {E} (\cos \theta )={\frac {I_{1}(\kappa )}{I_{0}(\kappa )}}\cos \mu ,\,\mathbb {E} (\sin \theta )={\frac {I_{1}(\kappa )}{I_{0}(\kappa )}}\sin \mu$	$[0,2\pi \|\,$
Rayleigh	$f(x)={\frac {x}{\sigma ^{2}}}\exp \left(-{\frac {x^{2}}{2\sigma ^{2}}}\right)$	$\mathbb {E} (x^{2})=2\sigma ^{2},\ \mathbb {E} (\ln(x))={\frac {\ln(2\sigma ^{2})-\gamma _{\mathrm {E} }}{2}}\,$	$\mathbb {R}$
Beta	$f(x)={\frac {x^{\alpha -1}(1-x)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}$ pour $0\leq x\leq 1$	$\mathbb {E} (\ln(x))=\psi (\alpha )-\psi (\alpha +\beta )\,$ $\mathbb {E} (\ln(1-x))=\psi (\beta )-\psi (\alpha +\beta )\,$	$[0,1]\,$
Cauchy	$f(x)={\frac {1}{\pi (1+x^{2})}}$	$\mathbb {E} (\ln(1+x^{2}))=2\ln 2$	$\mathbb {R}$
Chi	$f(x)={\frac {2}{2^{k/2}\Gamma (k/2)}}x^{k-1}\exp \left(-{\frac {x^{2}}{2}}\right)$	$\mathbb {E} (x^{2})=k,\,\mathbb {E} (\ln(x))={\frac {1}{2}}\left[\psi \left({\frac {k}{2}}\right)\!+\!\ln(2)\right]$	$\mathbb {R} _{+}$
Chi-2	$f(x)={\frac {1}{2^{k/2}\Gamma (k/2)}}x^{{\frac {k}{2}}\!-\!1}\exp \left(-{\frac {x}{2}}\right)$	$\mathbb {E} (x)=k,\,\mathbb {E} (\ln(x))=\psi \left({\frac {k}{2}}\right)+\ln(2)$	$\mathbb {R} _{+}$
Erlang	$f(x)={\frac {\lambda ^{k}}{(k-1)!}}x^{k-1}\exp(-\lambda x)$	$\mathbb {E} (x)={\frac {k}{\lambda }},\,\mathbb {E} (\ln(x))=\psi (k)-\ln(\lambda )$	$\mathbb {R} _{+}$
Gamma	$f(x)={\frac {x^{k-1}\exp(-{\frac {x}{\theta }})}{\theta ^{k}\Gamma (k)}}$	$\mathbb {E} (x)=k\theta ,\,\mathbb {E} (\ln(x))=\psi (k)+\ln(\theta )$	$\mathbb {R} _{+}$
Log-normale	$f(x)={\frac {1}{\sigma x{\sqrt {2\pi }}}}\exp \left(-{\frac {(\ln x-\mu )^{2}}{2\sigma ^{2}}}\right)$	$\mathbb {E} (\ln(x))=\mu ,\ \mathbb {E} \left[(\ln(x)-\mu )^{2}\right]=\sigma ^{2}\,$	$\mathbb {R} _{+}^{*}$
Maxwell–Boltzmann	$f(x)={\frac {1}{a^{3}}}{\sqrt {\frac {2}{\pi }}}\,x^{2}\exp \left(-{\frac {x^{2}}{2a^{2}}}\right)$	$\mathbb {E} (x^{2})=3a^{2},\,\mathbb {E} (\ln(x))\!=\!1\!+\!\ln \left({\frac {a}{\sqrt {2}}}\right)\!-\!{\frac {\gamma _{\mathrm {E} }}{2}}$	$\mathbb {R} _{+}$
Weibull	$f(x)={\frac {k}{\lambda ^{k}}}x^{k-1}\exp \left(-{\frac {x^{k}}{\lambda ^{k}}}\right)$	$\mathbb {E} (x^{k})=\lambda ^{k},\ \mathbb {E} (\ln(x))=\ln(\lambda )-{\frac {\gamma _{\mathrm {E} }}{k}}\,$	$\mathbb {R} _{+}$
Normale miltidimensionnelle	$f_{X}({\vec {x}})=$ ${\frac {\exp \left(-{\frac {1}{2}}({\vec {x}}-{\vec {\mu }})^{\top }\Sigma ^{-1}\cdot ({\vec {x}}-{\vec {\mu }})\right)}{(2\pi )^{N/2}\left\|\Sigma \right\|^{1/2}}}$	$\mathbb {E} ({\vec {x}})={\vec {\mu }},\,\mathbb {E} \left[({\vec {x}}-{\vec {\mu }})({\vec {x}}-{\vec {\mu }})^{T}\right]=\Sigma \,$	$\mathbb {R} ^{n}$
Binomiale	$f(k)={n \choose k}p^{k}(1-p)^{n-k}$	$\mathbb {E} (x)=\mu ,f\in {\text{loi binomiale}}\ n{\text{-généralisée}}$	$\left\{0,{\ldots },n\right\}$
Poisson	$f(k)={\frac {\lambda ^{k}\exp(-\lambda )}{k!}}$	$\mathbb {E} (x)=\mu ,f\in {\text{loi binomiale}}\ {\infty }{\text{-généralisée}}$ ^[10]	$\mathbb {N} =\left\{0,1,{\ldots }\right\}$
Logistique	$f(x)={\frac {{\rm {e}}^{-x}}{(1+{\rm {e}}^{-x})^{2}}}$	$\mathbb {E} (x)=0,\ \mathbb {E} \left[\ln(1+{\rm {e}}^{-x})\right]=1$	$\mathbb {R}$

Le principe d'entropie maximale peut être utilisé pour majorer l'entropie des mélanges statistiques^[11].

Articles connexes[modifier | modifier le code]

Famille exponentielle
Mesure de Gibbs
Fonction de partition (mathématiques)
Marche aléatoire d'entropie maximale - maximisation du taux d'entropie pour un graphique

Remarques[modifier | modifier le code]

↑ Par exemple, la classe de toutes les lois continues X si R avec E(X) = 0 et E(X²) = E(X³) = 1 (voir Cover, Ch 12).

Citations[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Maximum_entropy_probability_distribution » (voir la liste des auteurs).

↑ (en) D. Williams, Weighing the Odds, Cambridge University Press, 2001, p. 197-199 (ISBN 0-521-00618-X).
↑ (en) J. M. Bernardo et A. F. M. Smith, Bayesian Theory, Wiley, 2000, p. 209, 366 (ISBN 0-471-49464-X)
↑ (en) Botev et Kroese, « The Generalized Cross Entropy Method, with Applications to Probability Density Estimation », Methodology and Computing in Applied Probability, vol. 13, n^o 1,‎ 2011, p. 1–27 (DOI 10.1007/s11009-009-9133-7, S2CID 18155189, lire en ligne)
↑ Botev et Kroese, « Non-asymptotic Bandwidth Selection for Density Estimation of Discrete Data », Methodology and Computing in Applied Probability, vol. 10, n^o 3,‎ 2008, p. 435 (DOI 10.1007/s11009-007-9057-z, S2CID 122047337)
↑ ^{a b et c} Lisman et van Zuylen, « Note on the generation of most probable frequency distributions », Statistica Neerlandica, vol. 26, n^o 1,‎ 1972, p. 19–23 (DOI 10.1111/j.1467-9574.1972.tb00152.x)
↑ ^{a et b} Park et Bera, « Maximum entropy autoregressive conditional heteroskedasticity model », Journal of Econometrics, vol. 150, n^o 2,‎ 2009, p. 219–230 (DOI 10.1016/j.jeconom.2008.12.014, CiteSeer^x 10.1.1.511.9750, lire en ligne [archive du 7 mars 2016], consulté le 2 juin 2011)
↑ Dowson et Wragg, « Maximum-entropy distributions having prescribed first and second moments », IEEE Transactions on Information Theory, vol. 19, n^o 5,‎ septembre 1973, p. 689–693 (ISSN 0018-9448, DOI 10.1109/tit.1973.1055060)
↑ ^{a et b} S. Rao Jammalamadaka et SenGupta, A., Topics in circular statistics, New Jersey, World Scientific, 2001 (ISBN 978-981-02-3778-3, lire en ligne)
↑ ^{a et b} (en) B. Grechuk, A. Molyboha et M. Zabarankin, « Maximum Entropy Principle with General Deviation Measures », Mathematics of Operations Research, vol. 34, n^o 2,‎ 2009, p. 445--467 (lire en ligne).
↑ (en) Peter Harremös, « Binomial and Poisson distributions as maximum entropy distributions », IEEE Transactions on Information Theory, vol. 47, n^o 5,‎ 2001, p. 2039–2041 (DOI 10.1109/18.930936).
↑ (en) Frank Nielsen et Richard Nock, « MaxEnt upper bounds for the differential entropy of univariate continuous distributions », IEEE Signal Processing Letters, IEEE, vol. 24,‎ 2017, p. 402-406 (DOI 10.1109/LSP.2017.2666792, Bibcode 2017ISPL...24..402N, S2CID 14092514)

Références[modifier | modifier le code]

(en) T. M. Cover et J. A. Thomas, Elements of Information Theory, Wiley, 2006 (ISBN 978-0471241959, lire en ligne), « 2, Maximum Entropy »
(en) F. Nielsen et R. Nock, « MaxEnt upper bounds for the differential entropy of univariate continuous distributions », IEEE Signal Processing Letters, vol. 24, n^o 4,‎ 2017, p. 402-406 (lire en ligne)
(en) I. J. Taneja, Generalized Information Measures and Their Applications, 2001 (lire en ligne). Chapter 1
(en) Nader Ebrahimi, Ehsan S. Soofi et Refik Soyer, « Multivariate maximum entropy identification, transformation, and dependence », Journal of Multivariate Analysis, vol. 99,‎ 2008, p. 1217–1231 (DOI 10.1016/j.jmva.2007.08.004)

Portail des probabilités et de la statistique

[5] Par exemple, la classe de toutes les lois continues X si R avec E(X) = 0 et E(X²) = E(X³) = 1 (voir Cover, Ch 12).

[1] (en) D. Williams, Weighing the Odds, Cambridge University Press, 2001, p. 197-199 (ISBN 0-521-00618-X).

[2] (en) J. M. Bernardo et A. F. M. Smith, Bayesian Theory, Wiley, 2000, p. 209, 366 (ISBN 0-471-49464-X)

[3] (en) Botev et Kroese, « The Generalized Cross Entropy Method, with Applications to Probability Density Estimation », Methodology and Computing in Applied Probability, vol. 13, n^o 1,‎ 2011, p. 1–27 (DOI 10.1007/s11009-009-9133-7, S2CID 18155189, lire en ligne)

[4] Botev et Kroese, « Non-asymptotic Bandwidth Selection for Density Estimation of Discrete Data », Methodology and Computing in Applied Probability, vol. 10, n^o 3,‎ 2008, p. 435 (DOI 10.1007/s11009-007-9057-z, S2CID 122047337)

[ReferenceA-6] {a b et c} Lisman et van Zuylen, « Note on the generation of most probable frequency distributions », Statistica Neerlandica, vol. 26, n^o 1,‎ 1972, p. 19–23 (DOI 10.1111/j.1467-9574.1972.tb00152.x)

[Elsevier-7] {a et b} Park et Bera, « Maximum entropy autoregressive conditional heteroskedasticity model », Journal of Econometrics, vol. 150, n^o 2,‎ 2009, p. 219–230 (DOI 10.1016/j.jeconom.2008.12.014, CiteSeer^x 10.1.1.511.9750, lire en ligne [archive du 7 mars 2016], consulté le 2 juin 2011)

[8] Dowson et Wragg, « Maximum-entropy distributions having prescribed first and second moments », IEEE Transactions on Information Theory, vol. 19, n^o 5,‎ septembre 1973, p. 689–693 (ISSN 0018-9448, DOI 10.1109/tit.1973.1055060)

[SRJ-9] {a et b} S. Rao Jammalamadaka et SenGupta, A., Topics in circular statistics, New Jersey, World Scientific, 2001 (ISBN 978-981-02-3778-3, lire en ligne)

[Grechuk1-10] {a et b} (en) B. Grechuk, A. Molyboha et M. Zabarankin, « Maximum Entropy Principle with General Deviation Measures », Mathematics of Operations Research, vol. 34, n^o 2,‎ 2009, p. 445--467 (lire en ligne).

[harremoes-11] (en) Peter Harremös, « Binomial and Poisson distributions as maximum entropy distributions », IEEE Transactions on Information Theory, vol. 47, n^o 5,‎ 2001, p. 2039–2041 (DOI 10.1109/18.930936).

[12] (en) Frank Nielsen et Richard Nock, « MaxEnt upper bounds for the differential entropy of univariate continuous distributions », IEEE Signal Processing Letters, IEEE, vol. 24,‎ 2017, p. 402-406 (DOI 10.1109/LSP.2017.2666792, Bibcode 2017ISPL...24..402N, S2CID 14092514)

[1]

[2]

[3]

[4]

[Notes 1]

[5]

[6]

[7]

[8]

[9]

[10]

[11]