Famille exponentielle

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article n’est pas rédigé dans un style encyclopédique (mai 2017).

En théorie des probabilités et en statistique, une famille exponentielle est une classe de lois de probabilité dont la forme générale est la suivante :

f_{X}(x;\theta )=a(x)\,b(\theta )\,\mathrm {e} ^{\eta (\theta )\cdot T(x)}

où $X$ est la variable aléatoire, $x$ est un réel, $\theta$ est un paramètre, $a$ et $b$ sont des fonctions réelles et $\eta$ est appelé son « paramètre naturel ».

Propriétés algébriques[modifier | modifier le code]

Les familles exponentielles présentent certaines propriétés algébriques et inférentielles particulières.

La caractérisation d'une loi dans la famille exponentielle permet de reformuler ladite loi en utilisant des paramètres naturels spécifiques.

En statistiques inférentielles, ces familles permettent d'obtenir des statistiques d'échantillonnage, à savoir les statistiques suffisantes naturelles de la famille. Celles-ci résument un échantillon de données à l'aide d'un nombre réduit de valeurs, constituant les variables de décision en statistiques inférentielles.

En statistiques bayésiennes, elles possèdent des lois a priori conjuguées qui facilitent la mise à jour des lois dites « subjectives ». En effet, après inférence bayésienne, la distribution a posteriori d'une variable aléatoire de la famille exponentielle avec une loi a priori conjuguée peut toujours être écrite sous une forme analytique fermée à condition que la constante de normalisation de la distribution de la famille exponentielle puisse être exprimée sous une forme analytique fermée. ^[pas clair]. Voici quelques exemples courants : la loi t de Student, la loi bêta-binomiale ou la loi de Dirichlet multinomiale.

Les familles exponentielles apparaissent de façon naturelle dans la recherche de lois lors d'applications statistiques, en particulier dans les méthodes bayésiennes.

La famille exponentielle comprend une grande quantité de lois parmi les plus courantes : loi normale, loi exponentielle, loi Gamma, loi du χ², loi bêta, loi de Dirichlet, loi de Bernoulli, loi multinomiale, loi de Poisson, loi de Wishart, loi de Wishart inverse, etc. D'autres lois courantes ne forment une famille exponentielle que si certains paramètres sont fixes et de valeur connue, telles les lois binomiale et multinomiale (pour un nombre de tirages fixe dans les deux cas), et la loi binomiale négative (pour un nombre d'échecs fixe). Parmi les lois d'usage courant qui ne sont pas de famille exponentielle, on peut citer la loi de Student, la plupart des lois de mélange, ainsi que la famille des lois uniformes de bornes non fixées.

Origine et terminologie[modifier | modifier le code]

Cette section n’est pas rédigée dans un style encyclopédique. Améliorez sa rédaction !

La notion de famille exponentielle a été développée aux alentours des années 1935 et 1936 par Georges Darmois^[1], Edwin Pitman^[2] et B. Koopman ^[3].
Le terme classe exponentielle est parfois utilisé dans le même sens^[4]^,^[5].

Une loi est définie par les valeurs spécifiques des constantes utilisées dans sa formulation : par exemple, la loi normale ${\mathcal {N}}(10,200)$ donne une loi normale avec une moyenne $\mu =10$ et un écart-type $\sigma =10{\sqrt {2}}$ . Une « famille » de lois est définie par un ou plusieurs paramètres variables : par exemple, les familles de Poisson $P(\lambda )$ . Cette famille est dite exponentielle lorsque la fonction de densité de probabilité prend une forme algébrique particulière entre la variable aléatoire et les paramètres : la séparation des facteurs.

La loi binomiale est une famille de lois caractérisées par un paramètre n (nombre de tirages) et un paramètre p (probabilité de succès) tels que :

Si n et p ont tous deux reçu une valeur particulière, par exemple $n=20,p=0.1$ , alors ${\mathcal {B}}(20,0.1)$ est une loi binomiale unique.
Si n a reçu une valeur particulière, par exemple $n=20$ mais que p peut varier, il s'agit d'une famille de lois binomiales, caractérisée par le paramètre p, où n est une constante et non un paramètre.
Si n et p sont tous deux libres de varier, il s'agira d'une famille plus large de lois binomiales, de paramètres n et p.

Les trois situations sont habituellement dénommées « la loi binomiale », mais seule la seconde constitue une famille exponentielle.

Cas de la loi uniforme :
- Parfois, l'expression « nombre aléatoire tiré d'une loi uniforme » fait référence à la loi uniforme continue entre 0 et 1. Cette loi se note ${\mathcal {U}}([0;1])$ , et elle est décrite comme un cas particulier de la loi Bêta. Bien que la loi Bêta soit de famille exponentielle, on ne peut pas dire que la loi uniforme ${\mathcal {U}}([0;1])$ est une famille exponentielle : ce n'est qu'une seule loi.
- Quant à la famille de lois uniformes, elle est caractérisée par la nature paramétrique d'une ou des deux bornes. Aucune de ces familles n'est une famille exponentielle.

Définition[modifier | modifier le code]

Une famille exponentielle est un ensemble de lois dont la loi de probabilité (discrète ou continue) peut s'écrire sous la forme de facteurs séparables :

f_{X}(x;\theta )=a(\theta )\,b(x)\,\mathrm {e} ^{\eta (\theta )\cdot T(x)}

où $T(x)$ , $b(x)$ , $\eta (\theta )$ et $a(\theta )$ sont précisées.

Souvent, la densité s'écrira sous la forme alternative :

f_{X}(x;\theta )=b(x)\,\mathrm {e} ^{\eta (\theta )\cdot T(x)-A(\theta )}

ou même :

f_{X}(x;\theta )=\mathrm {e} ^{\eta (\theta )\cdot T(x)-A(\theta )+B(x)}

La valeur $\theta$ est le paramètre de la famille.

La variable aléatoire $X$ peut représenter un vecteur de plusieurs mesures. Dans ce cas, $T$ est une fonction de plusieurs variables. Que $X$ soit scalaire ou vectoriel, et même s'il y a un paramètre unique, les fonctions $\eta$ et $T$ peuvent prendre la forme de vecteurs.

Forme canonique[modifier | modifier le code]

La famille exponentielle est dite en forme canonique (ou naturelle) lorsque $\eta (\theta )=\theta$ . Il est toujours possible de convertir une famille exponentielle en forme canonique, par la définition d'un paramètre transformé $\theta '=\eta (\theta )$ :

f_{X}(x;\eta )=b(x)\,\mathrm {e} ^{\eta \cdot T(x)\ -\ A(\eta )}

La valeur $η$ est un paramètre naturel de la famille.

La forme canonique n'est pas unique, puisque $\eta (\theta )$ peut être multiplié par une constante non nulle, pourvu que $T(x)$ soit multiplié par la constante inverse.

La fonction $A(\theta )$ (alternativement $a(\theta )$ ) est définie automatiquement par le choix des autres fonctions : elle assure que la loi est normalisée (la somme ou l'intégrale sur toutes les valeurs doit donner une probabilité égale à 1). On notera que ces deux fonctions sont toujours des fonctions de $\eta$ . Ceci veut dire que si $\eta (\theta )$ n'est pas bijective, c'est-à-dire si plusieurs valeurs de $\theta$ donnent la même valeur de $\eta (\theta )$ , alors toutes les valeurs $\theta$ ayant la même image $\eta (\theta )$ auront également la même valeur pour $A(\theta )$ ou $a(\theta )$ ^[pas clair].

Famille exponentielle vectorielle[modifier | modifier le code]

La définition ci-dessus, bien qu'à première vue exprimée en termes d'un paramètre scalaire, reste valable pour un paramètre vecteur de réels ${\vec {\theta }}=\left(\theta _{1},\theta _{2},\ldots ,\theta _{d}\right)^{T}$ . La loi est dite de famille exponentielle vectorielle si la fonction de densité (ou de probabilité, pour les discrètes) s'écrit :

f_{X}(x;{\vec {\theta }})=b(x)\,a({\vec {\theta }})\,\exp \left(\sum _{i=1}^{s}\eta _{i}({\vec {\theta }})\,T_{i}(x)\right)

ou, en forme compacte :

f_{X}(x;{\vec {\theta }})=b(x)\,a({\vec {\theta }})\,\mathrm {e} ^{{\vec {\eta }}({\vec {\theta }})\cdot {\vec {T}}(x)}

La somme est écrite comme le produit scalaire des fonctions-vecteurs ${\vec {\eta }}(\theta )$ et ${\vec {T}}(x)$ .

On peut également rencontrer une forme alternative du type :

f_{X}(x;{\vec {\theta }})=b(x)\,\mathrm {e} ^{{\vec {\eta }}({\vec {\theta }})\cdot {\vec {T}}(x)-A({\vec {\theta }})}

Comme précédemment, la famille exponentielle est sous forme canonique si $\eta _{i}({\vec {\theta }})=\theta _{i}$ , pour tout $i$ .

Famille exponentielle vectorielle courbe[modifier | modifier le code]

Une famille exponentielle vectorielle est dite courbe si la dimension $d$ du vecteur paramètre ${\vec {\theta }}$ est inférieure à la dimension $s$ du vecteur ${\vec {\eta }}({\vec {\theta }})=\left(\eta _{1}({\vec {\theta }}),\eta _{2}({\vec {\theta }}),\ldots ,\eta _{s}({\vec {\theta }})\right)^{T}$ , le nombre de fonctions du vecteur paramètre dans la représentation factorisée.

Il est à noter que la plupart des lois courantes de famille exponentielle ne sont pas courbes, de sorte que nombre d'algorithmes conçus pour la famille exponentielle supposent implicitement ou explicitement que la loi n'est pas courbe.

La fonction de normalisation $A({\vec {\theta }})$ ou $a({\vec {\theta }})$ peut toujours s'écrire en fonction de ${\vec {\eta }}$ , quelles que soient les transformations de ${\vec {\theta }}$ en ${\vec {\eta }}$ . La famille exponentielle suivante est en « forme naturelle » (paramétrée par son paramètre naturel) :

f_{X}(x;{\vec {\eta }})=b(x)\,\mathrm {e} ^{{\vec {\eta }}\cdot {\vec {T}}(x)-A({\vec {\eta }})}

ou :

f_{X}(x;{\vec {\eta }})=b(x)\,a({\vec {\eta }})\,\mathrm {e} ^{{\vec {\eta }}\cdot {\vec {T}}(x)}

Variable vectorielle[modifier | modifier le code]

De même qu'un paramètre scalaire est généralisable à un paramètre vectoriel, une variable aléatoire simple (scalaire) peut se généraliser à une loi conjointe sur un vecteur de variables aléatoires : chaque notation scalaire $x$ est alors remplacée par un vecteur ${\vec {x}}=\left(x_{1},x_{2},\ldots ,x_{k}\right)$ . Il est à noter que la dimension $k$ du vecteur aléatoire ne correspond pas nécessairement à la dimension $d$ du vecteur paramètre, ni (pour une fonction exponentielle courbe) à la dimension $s$ du paramètre naturel ${\vec {\eta }}$ et de la statistique suffisante $T({\vec {x}})$ .

La loi s'écrit alors :

f_{X}({\vec {x}};{\vec {\theta }})=b({\vec {x}})\,\mathrm {e} ^{{\vec {\eta }}({\vec {\theta }})\cdot {\vec {T}}({\vec {x}})-A({\vec {\theta }})}

ou :

f_{X}({\vec {x}};{\vec {\theta }})=b({\vec {x}})\,a({\vec {\theta }})\,\mathrm {e} ^{{\vec {\eta }}({\vec {\theta }})\cdot {\vec {T}}(\mathbf {x} )}

Propriétés[modifier | modifier le code]

Les fonctions $T(x)$ , $\eta (\theta )$ et $A(\eta )$ qui apparaissent dans les définitions ne sont pas totalement arbitraires. Elles jouent un rôle important pour l'analyse statistique.

$T (x)$ est une statistique suffisante (ou exhaustive) de la loi. Une statistique suffisante est une fonction qui résume parfaitement les données mesurées $x$ dans le cadre d'un échantillon tiré de cette loi : même si un autre jeu de données $y$ diffère complètement de $x$ , mais que $T (x) = T (y)$ , alors la densité estimée à partir des observations sera la même, c.à.d. elle aura le même paramètre.

La dimension de $T (x)$ égale le nombre de paramètres de $η$ .

La statistique suffisante d'une collection de données indépendantes et identiquement distribuées (i.i.d.) est la somme des statistiques suffisantes individuelles. En estimation bayésienne, elle contient toute l'information nécessaire au calcul de la loi a posteriori des paramètres, conditionnellement aux observations. En estimation classique, elle suffit pour construire un estimateur des paramètres :

$η$ est le paramètre naturel de la loi. L'ensemble des valeurs de $η$ pour lesquelles la fonction $f X (x | θ)$ est finie est appelé l' espace paramétrique naturel. On peut montrer que cet espace paramétrique naturel est toujours convexe.

$A (η)$ est parfois appelée la fonction de log-partition parce qu'elle est le logarithme du facteur de normalisation $a (η)$ (la « fonction de partition » des statisticiens) :

a(\eta )={\frac {1}{\int _{x}b(x)\mathrm {e} ^{\eta (\theta )\cdot T(x)}\operatorname {d} \!x}}

ou :

A(\eta )=\ln \int _{x}b(x)\ \mathrm {e} ^{\eta (\theta )\cdot T(x)}\operatorname {d} \!x

L'utilité de la fonction

A

apparaît quand il faut calculer la moyenne, la variance et les autres moments de la statistique suffisante

T (x)

: il suffit de dériver

A (η)

.

Par exemple, on veut calculer l'espérance du logarithme d'une variable aléatoire suivant une loi gamma. Comme

ln(x)

est une composante de la statistique suffisante de cette loi, l'espérance

\mathbb {E} [\ln x]

se calcule aisément en dérivant

A(\eta )=\ln \Gamma (r)-r\ln \lambda \,

.

$b (x)$ est la mesure de base. Elle sert au calcul d'une prieure non informative (= entropie maximale).

Factorisation[modifier | modifier le code]

Un moyen de caractériser une famille exponentielle est sa factorisation en un produit de termes contenant chacun un seul type de variable, paramètres ou variables aléatoires. Ces facteurs sont présents soit directement, soit dans l'exponentiation (base ou exposant). De façon générale, les facteurs multipliés entre eux devront donc avoir une des formes suivantes :

$f(x)$	$c^{f(x)}$	${[f(x)]}^{c}$	${[f(x)]}^{g(\theta )}$	${[f(x)]}^{h(x)g(\theta )}$
$g(\theta )$	$c^{g(\theta )}$	${[g(\theta )]}^{c}$	${[g(\theta )]}^{f(x)}$	${[g(\theta )]}^{h(x)j(\theta )}$

où $f (x)$ et $h (x)$ sont des fonctions quelconques de $x$ , $g (θ)$ et $j (θ)$ sont des fonctions quelconques de $θ$ , et $c$ est une expression quelconque « constante » (c.à.d. ne comportant ni $x$ ni $θ$ ).

La forme ${[f(x)]}^{g(\theta )}$ est acceptable parce que ${[f(x)]}^{g(\theta )}={\rm {e}}^{g(\theta )\ln f(x)}\,$ qui se factorise dans l'exposant. De même pour ${[f(x)]}^{h(x)g(\theta )}={\rm {e}}^{h(x)g(\theta )\ln f(x)}={\rm {e}}^{[h(x)\ln f(x)]g(\theta )}\,$ .

Ces facteurs sont toutefois limités en nombre. Par exemple, l'expression ${[f(x)g(\theta )]}^{h(x)j(\theta )}$ est identique à ${[f(x)]}^{h(x)j(\theta )}[g(\theta )]^{h(x)j(\theta )}$ , un produit de deux facteurs « autorisés ». Pourtant, sa forme factorisée

{[f(x)]}^{h(x)j(\theta )}[g(\theta )]^{h(x)j(\theta )}=\exp \left([h(x)\ln f(x)]j(\theta )+h(x)[j(\theta )\ln g(\theta )]\right)\,,

n'a pas la forme requise. Par contre, ce genre d'expression constitue une famille exponentielle courbe, qui permet plusieurs termes factorisés dans l'exposant.

Une somme incluant les deux types de variables, comme par exemple le facteur $[1+ f (x) g (θ)]$ , ne se prête pas toujours à la factorisation. C'est la raison pour laquelle la loi de Cauchy et la t de Student, par exemple, ne sont pas de famille exponentielle.

Exemples de factorisation[modifier | modifier le code]

La distinction entre paramètres et constantes est fondamentale pour déterminer si une « loi » est ou non de famille exponentielle.

Paramètre scalaire[modifier | modifier le code]

La variable aléatoire normale de moyenne inconnue $μ$ mais de variance $σ 2$ constante a pour fonction de densité :

f_{\sigma }(x;\mu )={\frac {1}{{\sqrt {2\pi }}|\sigma |}}{\rm {e}}^{-(x-\mu )^{2}/2\sigma ^{2}}

.

En posant :

b_{\sigma }(x)={\frac {1}{{\sqrt {2\pi }}|\sigma |}}{\rm {e}}^{-x^{2}/2\sigma ^{2}},\,T_{\sigma }(x)={\frac {x}{\sigma }}\,A_{\sigma }(\mu )={\frac {\mu ^{2}}{2\sigma ^{2}}}\,\eta _{\sigma }(\mu )={\frac {\mu }{\sigma }},\,

on voit que c'est une famille exponentielle, à paramètre simple $μ$ .

Si $σ = 1$ , elle est en forme canonique, car alors $η (μ) = μ$ .

Paramètre vectoriel[modifier | modifier le code]

Dans le cas de la normale de moyenne inconnue $μ$ et de variance inconnue $σ 2$ , la fonction de densité

f(x;\mu ,\sigma )={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}{\rm {e}}^{-(x-\mu )^{2}/2\sigma ^{2}}

est une famille exponentielle à paramètre vectoriel $(μ, σ)$ qui s'écrit sous forme canonique en posant :

b(x)={1 \over {\sqrt {2\pi }}},\,{\boldsymbol {T}}(x)={\binom {x}{x^{2}}},\,{\boldsymbol {\eta }}(\mu ,\sigma )={\begin{pmatrix}{\frac {\mu }{\sigma ^{2}}}\\-{\frac {1}{2\sigma ^{2}}}\end{pmatrix}},\,A(\mu ,\sigma )={\mu ^{2} \over 2\sigma ^{2}}+\ln |\sigma |=A({\boldsymbol {\eta }})=-\eta _{1}^{2}/4\eta _{2}+1/2\ln |1/2\eta _{2}|

loi discrète[modifier | modifier le code]

La loi binomiale à nombre de tirages n constant constitue un exemple de famille exponentielle discrète. Sa densité de probabilité

f(x)={\binom {n}{x}}p^{x}(1-p)^{n-x},\quad x\in \{0,1,2,\ldots ,n\}

se factorise en

f(x)={\binom {n}{x}}\exp \left[x\ln \left({p \over 1-p}\right)+n\ln \left(1-p\right)\right]

.

Son paramètre naturel vaut :

\eta =\ln {p \over 1-p}

qu'on appelle la fonction logit.

Tableau de familles exponentielles[modifier | modifier le code]

Ce tableau reprend une sélection de lois courantes et leur réécriture en famille exponentielle à paramètres naturels, de forme générale :

f_{X}(\mathbf {x} |{\boldsymbol {\theta }})=b(\mathbf {x} )\ \exp \left(\ {\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\eta }})\ \right)\,\!

On a privilégié la forme fonctionnelle avec une fonction de log-partition $A (η)$ parce que les moments de la statistique suffisante se calculent facilement en dérivant cette dernière fonction. On a donné également la fonction $A (θ)$ .

Sont de famille exponentielle les lois : normale, exponentielle, log-normale, Gamma, khi-2, Bêta, Dirichlet, Bernoulli, multinomiale, Poisson, géométrique, inverse-gaussienne, von Mises et von Mises-Fisher.
Sont de famille exponentielle uniquement si un paramètre est fixé (« constant ») : la Pareto à borne inférieure $x m$ fixée, les binomiales et multinomiales à nombre de tirages n fixé, les binomiales négatives à nombre d'échecs (ou paramètre d'arrêt) r fixé.

En règle générale, le domaine de définition, ou support, reste constant parmi toutes les lois d'une famille exponentielle. Ceci explique pourquoi la variation des paramètres fixés ci-dessus (comme la binomiale à nombre de tirages variable) rend la famille non exponentielle — le paramètre en question affecte le support (en l'occurrence, il modifie la valeur minimum ou maximum possible). C'est pour la même raison que la famille des Uniformes n'est pas non plus exponentielle.

La loi de Weibull à paramètre de forme k fixé est une famille exponentielle. Pourtant, le paramètre de forme ne modifie pas le support. Dans ce cas, c'est la forme particulière de sa fonction de densité (k apparaît dans l'exposant d'un exposant) qui empêche la factorisation de la Weibull si k varie.

Ne sont pas de famille exponentielle : les lois F de Fisher-Snedecor, Cauchy, hypergéométrique et logistique. De même, la plupart des lois qui résultent du mélange fini ou infini de lois ne sont pas des familles exponentielles : les mélanges gaussiens, les lois à queue lourde construites par composition telles la t de Student (composition d'une loi normale par une loi gamma), la Bêta-binomiale et la Dirichlet-multinomiale.

loi	paramètre $θ$	paramètre naturel $η$	fonction réciproque $θ (η)$	mesure de base $b (x)$	statistique suffisante $T (x)$	log-partition $A (η)$	$A (θ)$
Bernoulli	$p$	$\ln {\frac {p}{1-p}}$ (fonction logit)	${\frac {1}{1+{\rm {e}}^{-\eta }}}={\frac {{\rm {e}}^{\eta }}{1+{\rm {e}}^{\eta }}}$ (fonction logistique)	1	$x$	$\ln(1+{\rm {e}}^{\eta })$	$-\ln(1-p)$
binomiale (n constant)	p	$\ln {\frac {p}{1-p}}$	${\frac {1}{1+{\rm {e}}^{-\eta }}}={\frac {{\rm {e}}^{\eta }}{1+{\rm {e}}^{\eta }}}$	$\mathbf {C} _{n}^{x}$	$x$	$n\ln(1+{\rm {e}}^{\eta })$	$-n\ln(1-p)$
Poisson	λ	$\ln \lambda$	$\exp(\eta )$	${\frac {1}{x!}}$	$x$	$\exp(\eta )$	$λ$
Binomiale négative (r constant)	p	$ln(p)$	$\exp(\eta )$	$\Gamma _{r}^{x}$	$x$	$-r\ln(1-\exp(\eta ))$	$- r ln(1- p)$
Exponentielle	$λ$	$-λ$	$-\eta$	1	$x$	$-\ln(-\eta )$	$-\ln \lambda$
Pareto (minimum $x m$ constant)	$α$	$-\alpha -1$	$-1-\eta$	1	$ln(x)$	$-\ln(-1-\eta )$ $+(1+\eta )\ln x_{\mathrm {m} }$	$-\ln \alpha$ $-\alpha \ln x_{\mathrm {m} }$
Weibull (k constant)	$λ$	$-λ k$	$(-\eta )^{1/k}$	$x^{k-1}$	$x k$	$\ln(-\eta )-\ln k$	$k\ln \lambda -\ln k$
Laplace (μ constant)	$b$	$-{\frac {1}{b}}$	$-{\frac {1}{\eta }}$	1	$\|x-\mu \|$	$\ln \left(-{\frac {2}{\eta }}\right)$	$ln(2 b)$
Khi-carré	$ν$	${\frac {\nu }{2}}-1$	$2(\eta +1)$	${\rm {e}}^{-x/2}$	$ln(x)$	$\ln \Gamma (\eta +1)$ $+(\eta +1)\ln 2$	$\ln \Gamma \left({\frac {\nu }{2}}\right)$ $+{\frac {\nu }{2}}\ln 2$
Normale (variance constante)	$μ$	${\frac {\mu }{\sigma }}$	$σ η$	${\frac {1}{{\sqrt {2\pi }}\sigma }}{\rm {e}}^{-{\frac {x^{2}}{2\sigma ^{2}}}}$	${\frac {x}{\sigma }}$	$-{\frac {\eta ^{2}}{2}}$	${\frac {\mu ^{2}}{2\sigma ^{2}}}$
Normale	$μ, σ 2$	${\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[10pt]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}$	${\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[15pt]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}$	${\frac {1}{\sqrt {2\pi }}}$	${\begin{bmatrix}x\\x^{2}\end{bmatrix}}$	$-{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\ln(-2\eta _{2})$	${\frac {\mu ^{2}}{2\sigma ^{2}}}+\ln \sigma$
Log-normale	$μ, σ 2$	${\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[10pt]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}$	${\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[15pt]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}$	${\frac {1}{{\sqrt {2\pi }}x}}$	${\begin{bmatrix}\ln x\\(\ln x)^{2}\end{bmatrix}}$	$-{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\ln(-2\eta _{2})$	${\frac {\mu ^{2}}{2\sigma ^{2}}}+\ln \sigma$
Normale inverse	$μ, λ$	${\begin{bmatrix}-{\dfrac {\lambda }{2\mu ^{2}}}\\[15pt]-{\dfrac {\lambda }{2}}\end{bmatrix}}$	${\begin{bmatrix}{\sqrt {\dfrac {\eta _{2}}{\eta _{1}}}}\\[15pt]-2\eta _{2}\end{bmatrix}}$	${\frac {1}{{\sqrt {2\pi }}x^{3/2}}}$	${\begin{bmatrix}x\\[5pt]{\dfrac {1}{x}}\end{bmatrix}}$	$-2{\sqrt {\eta _{1}\eta _{2}}}-{\frac {1}{2}}\ln(-2\eta _{2})$	$-{\frac {\lambda }{\mu }}-{\frac {1}{2}}\ln \lambda$
Gamma-Normale	$α, β, μ, λ$	${\begin{bmatrix}\alpha -{\frac {1}{2}}\\-\beta -{\dfrac {\lambda \mu ^{2}}{2}}\\\lambda \mu \\-{\dfrac {\lambda }{2}}\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+{\frac {1}{2}}\\-\eta _{2}+{\dfrac {\eta _{3}^{2}}{4\eta _{4}}}\\-{\dfrac {\eta _{3}}{2\eta _{4}}}\\-2\eta _{4}\end{bmatrix}}$	${\dfrac {1}{\sqrt {2\pi }}}$	${\begin{bmatrix}\ln \tau \\\tau \\\tau x\\\tau x^{2}\end{bmatrix}}$	$\ln \Gamma \left(\eta _{1}+{\frac {1}{2}}\right)$ $-{\frac {1}{2}}\ln \left(-2\eta _{4}\right)$ $-\left(\eta _{1}+{\frac {1}{2}}\right)\ln \left({\dfrac {\eta _{3}^{2}}{4\eta _{4}}}-\eta _{2}\right)$	$\ln \Gamma \left(\alpha \right)-\alpha \ln \beta \|$ $-{\frac {1}{2}}\ln \lambda$
Gamma	$r, λ$	${\begin{bmatrix}r-1\\-\lambda \end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\-\eta _{2}\end{bmatrix}}$	1	${\begin{bmatrix}\ln x\\x\end{bmatrix}}$	$\ln \Gamma (\eta _{1}+1)$ $-(\eta _{1}+1)\ln(-\eta _{2})$	$\ln \Gamma (r)-r\ln \lambda$
Gamma	$k, θ$	${\begin{bmatrix}k-1\\[5pt]-{\dfrac {1}{\theta }}\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\[5pt]-{\dfrac {1}{\eta _{2}}}\end{bmatrix}}$	1	${\begin{bmatrix}\ln x\\x\end{bmatrix}}$	$\ln \Gamma (\eta _{1}+1)$ $-(\eta _{1}+1)\ln(-\eta _{2})$	$\ln \Gamma (k)+k\ln \theta$
Gamma inverse	$r, λ$	${\begin{bmatrix}-r-1\\-\lambda \end{bmatrix}}$	${\begin{bmatrix}-\eta _{1}-1\\-\eta _{2}\end{bmatrix}}$	1	${\begin{bmatrix}\ln x\\1/x\end{bmatrix}}$	$\ln \Gamma (-\eta _{1}-1)$ $-(-\eta _{1}-1)\ln(-\eta _{2})$	$\ln \Gamma (r)-r\ln \lambda$
Khi-carré inverse	$ν, σ 2$	${\begin{bmatrix}-{\dfrac {\nu }{2}}-1\\[10pt]-{\dfrac {\nu \sigma ^{2}}{2}}\end{bmatrix}}$	${\begin{bmatrix}-2(\eta _{1}+1)\\[10pt]{\dfrac {\eta _{2}}{\eta _{1}+1}}\end{bmatrix}}$	1	${\begin{bmatrix}\ln x\\1/x\end{bmatrix}}$	$\ln \Gamma (-\eta _{1}-1)$ $-(-\eta _{1}-1)\ln(-\eta _{2})$	$\ln \Gamma \left({\frac {\nu }{2}}\right)\|$ $-{\frac {\nu }{2}}\ln {\frac {\nu \sigma ^{2}}{2}}$
Bêta	$α, β$	${\begin{bmatrix}\alpha \\\beta \end{bmatrix}}$	${\begin{bmatrix}\eta _{1}\\\eta _{2}\end{bmatrix}}$	${\frac {1}{x(1-x)}}$	${\begin{bmatrix}\ln x\\\ln(1-x)\end{bmatrix}}$	$\ln \Gamma (\eta _{1})+\ln \Gamma (\eta _{2})$ $-\ln \Gamma (\eta _{1}+\eta _{2})$	$\ln \Gamma (\alpha )+\ln \Gamma (\beta )$ $-\ln \Gamma (\alpha +\beta )$
Dirichlet	$α 1,..., α k$	${\begin{bmatrix}\alpha _{1}-1\\\vdots \\\alpha _{k}-1\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\\vdots \\\eta _{k}+1\end{bmatrix}}$	1	${\begin{bmatrix}\ln x_{1}\\\vdots \\\ln x_{k}\end{bmatrix}}$	$\sum _{i=1}^{k}\ln \Gamma (\eta _{i}+1)$ $-\ln \Gamma \left(\sum _{i=1}^{k}\left(\eta _{i}+1\right)\right)$	$\sum _{i=1}^{k}\ln \Gamma (\alpha _{i})\|$ $-\ln \Gamma \left(\sum _{i=1}^{k}\alpha _{i}\right)$
Normale multivariée	$μ, Σ$	${\begin{bmatrix}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\Sigma }}^{-1}\end{bmatrix}}$	${\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}\end{bmatrix}}$	$(2\pi )^{-k/2}$	${\begin{bmatrix}\mathbf {x} \\[5pt]\mathbf {x} \mathbf {x} ^{\mathrm {T} }\end{bmatrix}}$	$-{\frac {1}{4}}{\boldsymbol {\eta }}_{1}^{\rm {T}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}$ $-{\frac {1}{2}}\ln \left\|-2{\boldsymbol {\eta }}_{2}\right\|$	${\frac {1}{2}}{\boldsymbol {\mu }}^{\rm {T}}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\|$ $+{\frac {1}{2}}\ln \|{\boldsymbol {\Sigma }}\|$
Wishart	$V, n$	${\begin{bmatrix}-{\frac {1}{2}}\mathbf {V} ^{-1}\\[5pt]{\dfrac {n-p-1}{2}}\end{bmatrix}}$	${\begin{bmatrix}-{\frac {1}{2}}{{\boldsymbol {\eta }}_{1}}^{-1}\\[5pt]2\eta _{2}+p+1\end{bmatrix}}$	1	${\begin{bmatrix}\mathbf {X} \\\ln \|\mathbf {X} \|\end{bmatrix}}$	$-\left(\eta _{2}+{\frac {p+1}{2}}\right)\ln \|-{\boldsymbol {\eta }}_{1}\|$ $+\ln \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)=$ $-{\frac {n}{2}}\ln \|-{\boldsymbol {\eta }}_{1}\|+\ln \Gamma _{p}\left({\frac {n}{2}}\right)=$ $\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2+\ln \|\mathbf {V} \|)$ $+\ln \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)$	${\frac {n}{2}}(p\ln 2+\ln \|\mathbf {V} \|)$ $+\ln \Gamma _{p}\left({\frac {n}{2}}\right)$
Wishart	$A (η)$ est donnée sous trois formes, afin de faciliter le calcul des moments. Note : Se rappeler que $Tr(A'B) = vec(A) • vec(B)$ ; autrement dit, la trace d'un produit matriciel est semblable à un produit scalaire. Les paramètres matriciels sont considérés comme des vecteurs dans la forme exponentielle. Par ailleurs, $V$ et $X$ sont symétriques.
Wishart inverse	$Ψ, m$	${\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\Psi }}\\[5pt]-{\dfrac {m+p+1}{2}}\end{bmatrix}}$	${\begin{bmatrix}-2{\boldsymbol {\eta }}_{1}\\[5pt]-(2\eta _{2}+p+1)\end{bmatrix}}$	1	${\begin{bmatrix}\mathbf {X} ^{-1}\\\ln \|\mathbf {X} \|\end{bmatrix}}$	$\ln \Gamma _{p}\left(-\left(\eta _{2}+{\frac {p+1}{2}}\right)\right)+$ $\left(\eta _{2}+{\frac {p+1}{2}}\right)\ln \|-{\boldsymbol {\eta }}_{1}\|=$ $\ln \Gamma _{p}\left({\frac {m}{2}}\right)-{\frac {m}{2}}\ln \|-{\boldsymbol {\eta }}_{1}\|=$ $\ln \Gamma _{p}\left(-\left(\eta _{2}+{\frac {p+1}{2}}\right)\right)-$ $\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2-\ln \|{\boldsymbol {\Psi }}\|)$	${\frac {m}{2}}(p\ln 2-\ln \|{\boldsymbol {\Psi }}\|)$ $+\ln \Gamma _{p}\left({\frac {m}{2}}\right)$
multinomiale (n constant) (= Multi-Bernoulli si n=1) version 1	$p 1,..., p k$ avec $\sum _{i=1}^{k}p_{i}=1$	${\begin{bmatrix}\ln p_{1}\\\vdots \\\ln p_{k}\end{bmatrix}}$	${\begin{bmatrix}{\rm {e}}^{\eta _{1}}\\\vdots \\{\rm {e}}^{\eta _{k}}\end{bmatrix}}$ $\textstyle \sum _{i=1}^{k}\mathrm {e} ^{\eta _{i}}=1$	${\frac {n!}{\prod _{i=1}^{k}x_{i}!}}$	${\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}$	0	0
Multinomiale (n constant) version 2	$p 1,..., p k -1$ avec $p_{k}=$ $1-\sum _{i=1}^{k-1}p_{i}$	${\begin{bmatrix}\ln {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\ln {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}$	${\begin{bmatrix}{\dfrac {{\rm {e}}^{\eta _{1}}}{\sum _{i=1}^{k}{\rm {e}}^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {{\rm {e}}^{\eta _{k}}}{\sum _{i=1}^{k}{\rm {e}}^{\eta _{i}}}}\end{bmatrix}}$	${\frac {n!}{\prod _{i=1}^{k}x_{i}!}}$	${\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}$	$\ln \left(\sum _{i=1}^{k}{\rm {e}}^{\eta _{i}}\right)$	$-\ln p_{k}$

La variante de la multinomiale résulte du fait que les paramètres $p i$ sont contraints par $\sum _{i=1}^{k}p_{i}=1$ . Il n'y a donc que k-1 paramètres indépendants.

Dans la version 1, on voit k paramètres naturels et une relation simple entre les paramètres standard et naturel. Cependant, k-1 seulement des paramètres naturels sont indépendants, et du coup l'ensemble des k paramètres naturels est non identifiable. La contrainte sur les paramètres normaux se transpose à l'identique sur les paramètres naturels.

Notez que la version 1 n'est pas une famille exponentielle standard. C'est une famille exponentielle courbe, puisque k-1 paramètres indépendants sont incorporés dans un espace k-dimensionnel. Les propriétés de base des familles exponentielles ne s'appliquent pas aux familles exponentielles courbes. Par exemple on voit que la fonction de log-partition $A (x)$ a la valeur 0.

La version 2 montre une manière simple de rendre les paramètres identifiables en fixant $p k$ . Cela force le dernier paramètre naturel à la valeur constante 0. Les autres formules sont écrites de façon à ne pas utiliser $p k$ , de sorte que le modèle n'a bien que k-1 paramètres, tant sous forme normale que sous forme canonique.

Applications[modifier | modifier le code]

Inférence statistique[modifier | modifier le code]

Estimation classique : exhaustivité[modifier | modifier le code]

Le théorème de Pitman–Koopman–Darmois montre que parmi les familles de lois dont le domaine ne dépend pas du paramètre à estimer, seules les familles exponentielles offrent une statistique suffisante dont la dimension reste bornée quand la taille d'échantillon croît.

Concrètement, soient $X k$ , (où k = 1, 2, 3, ... n) des variables aléatoires indépendantes, identiquement distribuées. Il faut que leur loi soit de famille exponentielle pour qu'existe une statistique suffisante $T (X 1, ..., X n)$ dont le nombre de composantes scalaires n'augmente pas avec la taille d'échantillon n : sa dimension ne changera pas quand on collecte plus de données.

Estimation bayésienne : lois conjuguées[modifier | modifier le code]

En inférence bayésienne, une loi a priori d'un paramètre à estimer est multipliée par une fonction de vraisemblance (puis normalisée) pour aboutir à une loi a posteriori.

Une prieure conjuguée est une loi a priori qui, après combinaison à la fonction de vraisemblance, donne une loi a posteriori de même type, ce qui rend particulièrement facile le calcul de la postérieure. Par exemple, pour estimer la probabilité de succès p d'une loi binomiale, si on prend une loi bêta comme prieure, la postérieure sera une autre loi bêta. De même, l'estimation du paramètre d'une Poisson par une prieure Gamma donne une postérieure Gamma. Les prieures conjuguées sont souvent très pratiques, de par leur flexibilité.

Lorsque la fonction de vraisemblance est de famille exponentielle, il existe une prieure conjuguée, qui sera en général elle aussi de famille exponentielle.

En règle générale, une fonction de vraisemblance ne sera pas de famille exponentielle, et donc il n'existera pas de prieure conjuguée. La postérieure devra être calculée par des méthodes numériques.

La prieure conjuguée $π$ (pour « prior ») sur le paramètre $η$ d'une famille exponentielle est donnée par :

\pi ({\boldsymbol {\eta }}|{\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}-\nu \,A({\boldsymbol {\eta }}))=f({\boldsymbol {\chi }},\nu )a({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}),

où

$ν > 0$ représente le nombre virtuel d'observations fournies par la prieure.
${\boldsymbol {\chi }}\in \mathbb {R} ^{s}$ ( $s$ étant la dimension de $η$ ) représente la contribution de ces pseudo-observations dans la statistique suffisante constituée de toutes les observations et pseudo-observations.

$χ$ et $ν$ sont des hyperparamètres (paramètres contrôlant des paramètres).

$f (χ, ν)$ est la constante de normalisation, déterminée automatiquement par les autres fonctions, qui sert à assurer que $π(η | χ, ν)$ est une fonction de densité.
$A (η)$ (resp. $a (η)$ ) sont les mêmes fonctions que dans la loi $p (x | χ)$ pour laquelle $π$ est prieure conjuguée.

Pour voir que cette loi a priori est une prieure conjuguée, on peut en calculer la postérieure.

Soit la fonction de densité (ou de probabilité) d'une observation, de famille exponentielle, écrite en paramètre naturel :

p(x|{\boldsymbol {\eta }})=b(x)a({\boldsymbol {\eta }})\exp \left(\ {\boldsymbol {\eta }}^{\rm {T}}\mathbf {T} (x)\ \right)\,\!

La vraisemblance des données $X = (x 1, ..., x n)$ est donnée par :

p(\mathbf {X} |{\boldsymbol {\eta }})=\left(\prod _{i=1}^{n}b(x_{i})\right)a({\boldsymbol {\eta }})^{n}\exp \left(\ {\boldsymbol {\eta }}^{\rm {T}}\left(\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\ \right)

Par conséquent, en appliquant la loi a priori susdite :

{\begin{aligned}\pi ({\boldsymbol {\eta }}|{\boldsymbol {\chi }},\nu )&=f({\boldsymbol {\chi }},\nu )a({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})&\propto a({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\end{aligned}}

,

on dérive la postérieure :

{\begin{aligned}p({\boldsymbol {\eta }}|\mathbf {X} ,{\boldsymbol {\chi }},\nu )&\propto p(\mathbf {X} |{\boldsymbol {\eta }})\pi ({\boldsymbol {\eta }}|{\boldsymbol {\chi }},\nu )\\&=\left(\prod _{i=1}^{n}b(x_{i})\right)a({\boldsymbol {\eta }})^{n}\exp \left(\ {\boldsymbol {\eta }}^{\rm {T}}\left(\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\ \right)f({\boldsymbol {\chi }},\nu )a({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\\&\propto a({\boldsymbol {\eta }})^{n}\exp \left(\ {\boldsymbol {\eta }}^{\rm {T}}\left(\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\ \right)a({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\\&\propto a({\boldsymbol {\eta }})^{\nu +n}\exp \left(\ {\boldsymbol {\eta }}^{\rm {T}}\left({\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\ \right)\end{aligned}}

Ainsi, la postérieure a effectivement la même forme que la prieure :

p({\boldsymbol {\eta }}|\mathbf {X} ,{\boldsymbol {\chi }},\nu )=\pi ({\boldsymbol {\eta }}|[{\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})],[\nu +n])

.

On peut remarquer que les observations $X$ n'entrent dans la formule qu'à travers $\mathbf {T} (\mathbf {X} )=\sum _{i=1}^{n}\mathbf {T} (x_{i})$ , autrement dit la statistique suffisante des observations. Ceci confirme que la valeur de la statistique suffisante détermine complètement la loi a posteriori. Les valeurs individuelles des observations ne sont pas nécessaires : tout ensemble de données avec la même valeur pour la statistique suffisante produira la même loi. Or, la dimension de la statistique suffisante ne croît pas avec la taille d'échantillon : elle a au plus le nombre de composantes de $η$ (à savoir, le nombre de paramètres de la loi d'une seule donnée).

Les nouveaux hyperparamètres sont :

{\boldsymbol {\chi }}\implies {\boldsymbol {\chi }}+\mathbf {T} (\mathbf {X} )={\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})

\nu \implies \nu +n

La mise à jour bayésienne ne nécessite que de savoir le nombre d'observations et la valeur de la statistique suffisante des données.

Tests d'hypothèses : tests uniformément plus puissants[modifier | modifier le code]

Pour une famille exponentielle à paramètre simple $θ$ , si $η (θ)$ est non-décroissant, le ratio de vraisemblance est une fonction monotone non-décroissante de la statistique suffisante $T (x)$ . En conséquence, il existe un test d'hypothèse « uniformément plus puissant » pour tester $H 0 : θ \geq θ 0$ contre $H 1 : θ < θ 0$ .

Article détaillé : test d'hypothèse.

Modèle linéaire généralisé[modifier | modifier le code]

La famille exponentielle est à la base des fonctions de loi utilisées dans le modèle linéaire généralisé, qui comprend la plupart des modèles de régression en statistique et en économétrie.

Moments et cumulants de la statistique suffisante[modifier | modifier le code]

Calcul des cumulants de T par différenciation[modifier | modifier le code]

La fonction génératrice des moments de $T (x)$ est définie comme :

m_{T}(u)\equiv \mathbb {E} [{\rm {e}}^{u'T(x)}|\eta ]=\int _{x}b(x){\rm {e}}^{(\eta +u)'T(x)-A(\eta )}\mathrm {d} x={\rm {e}}^{A(\eta +u)-A(\eta )}

.

Par conséquent, $K (u | η) = A (η + u) - A (η)$ est la fonction génératrice des cumulants de $T$ .

N.B. : Dans la sous-famille exponentielle naturelle (où

T (x) = x

), c'est la fonction génératrice des moments de

x

.

Par définition de la fonction génératrice des cumulants,

\mathbb {E} (T_{j})={\frac {\partial A(\eta )}{\partial \eta _{j}}}\ {\textrm {et}}\ \mathrm {cov} (T_{i},T_{j})={\frac {\partial ^{2}A(\eta )}{\partial \eta _{i}\,\partial \eta _{j}}}.

Les moments et cumulants d'ordre supérieur sont fournis par les dérivées supérieures. Cette technique est particulièrement utile lorsque $T$ est une fonction compliquée, dont les moments sont difficiles à calculer par intégration.

Ce résultat est démontrable sans recourir à la théorie des cumulants.

Exemple : soit

p(x)=a(\eta )b(x){\rm {e}}^{\eta T(x)}

.

Par contrainte de normalisation,

1=\int _{x}p(x)\,\mathrm {d} x=\int _{x}a(\eta )b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x=a(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x

.

On dérive les deux côtés par rapport à $η$ :

{\begin{aligned}0&=a(\eta ){\frac {d}{d\eta }}\int _{x}b(x){\rm {e}}^{\eta T(x)}\,\mathrm {d} x+a'(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x\\&=a(\eta )\int _{x}b(x)\left({\frac {d}{d\eta }}{\rm {e}}^{\eta T(x)}\right)\,\mathrm {d} x+a'(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x\\&=a(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}T(x)\,\mathrm {d} x+a'(\eta )\int _{x}b(x){\rm {e}}^{\eta T(x)}\,\mathrm {d} x\\&=\int _{x}T(x)a(\eta )b(x){\rm {e}}^{\eta T(x)}\,\mathrm {d} x+{\frac {a'(\eta )}{a(\eta )}}\int _{x}a(\eta )b(x){\rm {e}}^{\eta T(x)}\mathrm {d} x\\&=\int _{x}T(x)p(x)\mathrm {d} x+{\frac {a'(\eta )}{a(\eta )}}\int _{x}p(x)\mathrm {d} x\\&=\mathbb {E} [T(x)]+{\frac {a'(\eta )}{a(\eta )}}\\&=\mathbb {E} [T(x)]+{\frac {\mathrm {d} }{\mathrm {d} \eta }}\ln a(\eta )\end{aligned}}

Par conséquent,

\mathbb {E} [T(x)]=-{\frac {\mathrm {d} }{\mathrm {d} \eta }}\ln a(\eta )={\frac {\mathrm {d} }{\mathrm {d} \eta }}A(\eta ).

Exemples[modifier | modifier le code]

Loi gamma

La loi gamma est définie par la fonction de densité

p(x)={\frac {\lambda ^{r}}{\Gamma (r)}}x^{r-1}{\rm {e}}^{-\lambda x}.

Le tableau ci-dessus donne pour paramètre naturel :

\eta _{1}=r-1,

\eta _{2}=-\lambda ,

dont les réciproques sont :

r=\eta _{1}+1,

\lambda =-\eta _{2}.

Les statistiques suffisantes sont $(ln x, x)$ , et la fonction de log-partition vaut :

A(\eta _{1},\eta _{2})=\ln \Gamma (\eta _{1}+1)-(\eta _{1}+1)\ln(-\eta _{2}).

On cherche la moyenne de la statistique suffisante. Pour $η 1$ :

{\begin{aligned}\mathbb {E} [\ln x]&={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{1}}}={\frac {\partial }{\partial \eta _{1}}}\left(\ln \Gamma (\eta _{1}+1)-(\eta _{1}+1)\ln(-\eta _{2})\right)\\&=\psi (\eta _{1}+1)-\ln(-\eta _{2})\\&=\psi (r)-\ln \lambda ,\end{aligned}}

où $ψ (x)$ est la fonction digamma (dérivée du log gamma).

De même, pour $η 2$ :

{\begin{aligned}\mathbb {E} [x]&={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{2}}}={\frac {\partial }{\partial \eta _{2}}}\left(\ln \Gamma (\eta _{1}+1)-(\eta _{1}+1)\ln(-\eta _{2})\right)\\&=-(\eta _{1}+1){\frac {1}{-\eta _{2}}}(-1)={\frac {\eta _{1}+1}{-\eta _{2}}}\\&={\frac {r}{\lambda }},\end{aligned}}

Pour trouver la variance de $x$ , il faut différencier à nouveau :

{\begin{aligned}\operatorname {Var} (x)&={\frac {\partial ^{2}A(\eta _{1},\eta _{2})}{\partial \eta _{2}^{2}}}={\frac {\partial }{\partial \eta _{2}}}{\frac {\eta _{1}+1}{-\eta _{2}}}\\&={\frac {\eta _{1}+1}{\eta _{2}^{2}}}\\&={\frac {r}{\lambda ^{2}}}.\end{aligned}}

Tous ces calculs peuvent se faire par intégration, en partant de la fonction gamma, mais cela demande plus d'efforts.

Loi logistique asymétrique

Soit une variable aléatoire réelle $X$ de loi logistique asymétrique.

p_{\theta }(x)={\frac {\theta {\rm {e}}^{-x}}{(1+{\rm {e}}^{-x})^{\theta +1}}}

où $θ > 0$ est un paramètre de forme. Cette densité se factorise comme suit :

{\frac {{\rm {e}}^{-x}}{1+{\rm {e}}^{-x}}}\exp(-\theta \log(1+{\rm {e}}^{-x})+\log(\theta ))

C'est donc une famille exponentielle de paramètre naturel $η = - θ$ , donc une statistique suffisante est $T = log(1 + e - x)$ , et la fonction de log-partition vaut : $A (η) = -log(θ) = -log(- η)$ .

Ainsi, par la première équation,

\mathbb {E} (\log(1+{\rm {e}}^{-X}))=\mathbb {E} (T)={\frac {\partial A(\eta )}{\partial \eta }}={\frac {\partial }{\partial \eta }}[-\log(-\eta )]={\frac {1}{-\eta }}={\frac {1}{\theta }},

et par la seconde,

\mathrm {Var} (\log(1+{\rm {e}}^{-X}))={\frac {\partial ^{2}A(\eta )}{\partial \eta ^{2}}}={\frac {\partial }{\partial \eta }}\left[{\frac {1}{-\eta }}\right]={\frac {1}{(-\eta )^{2}}}={\frac {1}{\theta ^{2}}}.

Dans cet exemple, l'usage de la méthode simplifie les calculs, une approche directe alourdissant grandement les égalités.

Loi de Wishart

La loi de Wishart est définie sur des matrices aléatoires. Ce dernier exemple aborde un cas où l'intégration serait particulièrement ardue. N.B. : la dérivation elle-même est difficile, car elle exige du calcul matriciel, mais l'intégration est pire.

Le tableau donne le paramètre naturel :

{\boldsymbol {\eta }}_{1}=-{\frac {1}{2}}\mathbf {V} ^{-1},

\eta _{2}={\frac {n-p-1}{2}},

dont la transformation réciproque est :

\mathbf {V} =-{\frac {1}{2}}{{\boldsymbol {\eta }}_{1}}^{-1},

n=2\eta _{2}+p+1

.

Les statistiques suffisantes sont $(X, ln| X |)$ .

La fonction de log-partition est donnée sous différentes formes, afin de faciliter la différentiation et les transformations. On utilisera les formes suivantes :

A({\boldsymbol {\eta }}_{1},n)=-{\frac {n}{2}}\ln |-{\boldsymbol {\eta }}_{1}|+\ln \Gamma _{p}\left({\frac {n}{2}}\right),

A(\mathbf {V} ,\eta _{2})=\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2+\ln |\mathbf {V} |)+\ln \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right).

Espérance de

X

(associé à

η 1

)

La dérivée par rapport à $η 1$ repose sur l'égalité calcul matriciel :

{\frac {\partial \ln |a\mathbf {X} |}{\partial \mathbf {X} }}=(\mathbf {X} ^{-1})^{\rm {T}}

Dès lors :

{\begin{aligned}\mathbb {E} [\mathbf {X} ]&={\frac {\partial A({\boldsymbol {\eta }}_{1},\ldots )}{\partial {\boldsymbol {\eta }}_{1}}}={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}\left[-{\frac {n}{2}}\ln |-{\boldsymbol {\eta }}_{1}|+\ln \Gamma _{p}\left({\frac {n}{2}}\right)\right]\\&=-{\frac {n}{2}}({\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}={\frac {n}{2}}(-{\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}\\&=n(\mathbf {V} )^{\rm {T}}\\&=n\mathbf {V} \end{aligned}}

car $V$ est symétrique.

Espérance de

ln| X |

(associé à

η 2

)

D'abord, on développe la partie de la log-partition qui contient la fonction gamma multivariée :

\ln \Gamma _{p}(y)=\ln \left(\pi ^{p(p-1)/4}\prod _{j=1}^{p}\Gamma \left[y+(1-j)/2\right]\right)=p(p-1)/4\ln \pi +\sum _{j=1}^{p}\ln \Gamma \left[y+(1-j)/2\right]

On introduit la fonction digamma $\psi (x)={\frac {d}{dx}}\ln \Gamma (x)$ .

Dès lors :

{\begin{aligned}\mathbb {E} [\ln |\mathbf {X} |]&={\frac {\partial A(\ldots ,\eta _{2})}{\partial \eta _{2}}}={\frac {\partial }{\partial \eta _{2}}}\left[-\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2+\ln |\mathbf {V} |)+\ln \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)\right]\\&={\frac {\partial }{\partial \eta _{2}}}\left[\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\ln 2+\ln |\mathbf {V} |)+p(p-1)/4\ln \pi +\sum _{j=1}^{p}\ln \Gamma \left(\eta _{2}+{\frac {p+1}{2}}+(1-j)/2\right)\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left[\eta _{2}+{\frac {p+1}{2}}+(1-j)/2\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left[{\frac {n-p-1}{2}}+{\frac {p+1}{2}}+(1-j)/2\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left[{\frac {n}{2}}+(1-j)/2\right]\\&=p\ln 2+\ln |\mathbf {V} |+\sum _{j=1}^{p}\psi \left({\frac {n+1-j}{2}}\right)\end{aligned}}

Ces deux espérances sont nécessaires pour dériver les équations d'adaptation variationnelle d'un réseau bayésien qui comporte une loi de Wishart (laquelle est la prieure conjuguée de la normale multivariée).

Entropie maximale[modifier | modifier le code]

On cherche la loi dont l'entropie est maximale, conditionnellement à une série de contraintes sur les espérances. La réponse est une famille exponentielle.

L'entropie informationnelle d'une loi de probabilité dF(x) se calcule par rapport à une autre loi de probabilité (ou, de façon plus générale, une mesure positive), telle que les deux mesures soient mutuellement absolument continues.

Soit une mesure de base dH(x) de même support que dF(x).

L'entropie de dF(x) relativement à dH(x) est définie comme :

S[dF|dH]=-\int {dF \over dH}\ln {dF \over dH}\,dH=\int \ln {dH \over dF}\,dF

où dF/dH et dH/dF sont les dérivées de Radon–Nikodym.

On note que la définition habituelle de l'entropie d'une loi discrète sur un ensemble Y, à savoir

\mathbf {S} =-\sum _{i\in Y}p_{i}\ln p_{i}

, suppose implicitement que la mesure dH choisie est la mesure de comptage de Y.

De même, pour une loi continue, H(x)=x donne :

S=-\int {dF \over dx}\ln {dF \over dx}\,dx=-\int f(x)\ln f(x)\,dx

Soit un échantillon de quantités observables (variables aléatoires) T_j.
La loi dF d'entropie maximale par rapport à dH, conditionnellement à ce que l'espérance de T_j soit égale à t_j, sera un membre de la famille exponentielle ayant dH pour mesure de base et (T₁, ..., T_n) pour statistique(s) suffisante(s).

Ce résultat se déduit par le calcul des variations à l'aide de multiplicateurs de Lagrange. La normalisation est garantie en imposant la contrainte T₀ = 1. Les paramètres naturels de la loi sont les multiplicateurs de Lagrange associés aux t_j et le facteur de normalisation est le multiplicateur de Lagrange associé à T₀.

Notes et références[modifier | modifier le code]

↑ G. Darmois, « Sur les lois de probabilités à estimation exhaustive », C.R. Acad. Sci. Paris, vol. 200,‎ 1935, p. 1265–1266.
↑ (en) E. Pitman et J. Wishart, « Sufficient statistics and intrinsic accuracy », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 32, n^o 4,‎ 1936, p. 567–579 (DOI 10.1017/S0305004100019307).
↑ (en) B Koopman, « On distribution admitting a sufficient statistic », Transactions of the American Mathematical Society, vol. 39, n^o 3,‎ 1936, p. 399–409 (DOI 10.2307/1989758, JSTOR 1989758, MR 1501854).
↑ Kupperman, M. (1958) "Probabilities of Hypotheses et Information-Statistics in Sampling from Exponential-Class Populations", Annals of Mathematical Statistics, 9 (2), 571–575 JSTOR:2237349.
↑ (en) Erling etersen, « Sufficiency et Exponential Families for Discrete Sample Spaces », Journal of the American statistique Association, vol. 65, n^o 331,‎ septembre 1970, p. 1248–1255 (DOI 10.2307/2284291, JSTOR 2284291, MR 268992).

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

(en) E. L. Lehmann, Casella, G., Theory of Point Estimation, 1998, 2nd ed., sec. 1.5
(en) Robert W. Keener, Statistical Theory: Notes for a Course in Theoretical Statistics, Springer, 2006, 27–28, 32–33
(en) Ludwig Fahrmeier, Tutz, G., Multivariate statistical modelling based on generalized linear models, Springer, 1994, 18–22, 345–349

Liens externes[modifier | modifier le code]

Portail des probabilités et de la statistique

[1] G. Darmois, « Sur les lois de probabilités à estimation exhaustive », C.R. Acad. Sci. Paris, vol. 200,‎ 1935, p. 1265–1266.

[2] (en) E. Pitman et J. Wishart, « Sufficient statistics and intrinsic accuracy », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 32, n^o 4,‎ 1936, p. 567–579 (DOI 10.1017/S0305004100019307).

[3] (en) B Koopman, « On distribution admitting a sufficient statistic », Transactions of the American Mathematical Society, vol. 39, n^o 3,‎ 1936, p. 399–409 (DOI 10.2307/1989758, JSTOR 1989758, MR 1501854).

[4] Kupperman, M. (1958) "Probabilities of Hypotheses et Information-Statistics in Sampling from Exponential-Class Populations", Annals of Mathematical Statistics, 9 (2), 571–575 JSTOR:2237349.

[5] (en) Erling etersen, « Sufficiency et Exponential Families for Discrete Sample Spaces », Journal of the American statistique Association, vol. 65, n^o 331,‎ septembre 1970, p. 1248–1255 (DOI 10.2307/2284291, JSTOR 2284291, MR 268992).

[1]

[2]

[3]

[4]

[5]