Famille exponentielle

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Ne doit pas être confondu avec loi exponentielle.


En probabilité et statistique, une famille exponentielle est une classe de distributions de probabilité dont la forme générale est

 f_X(x|\theta) = a(x)\ b(\theta) \exp[\ \eta(\theta) \cdot T(x)\ ]\,
x est la variable aléatoire et θ un paramètre.

Les familles exponentielles ont des propriétés algébriques intéressantes. Souvent, elles sont les seules à présenter ces propriétés. Exemples:

  • La caractérisation d'une distribution en famille exponentielle permet de reformuler la distribution à l'aide de ce qu'on appelle des paramètres naturels .
  • Statistique fréquentiste : elles permettent d'obtenir facilement des statistiques d'échantillonnage, à savoir les statistiques suffisantes naturelles de la famille, qui résument un échantillon de données à l'aide d'un nombre réduit de valeurs.
  • Statistique bayésienne : elles possèdent des prieures conjuguées qui facilitent la mise à jour des distributions dites "subjectives".
De plus, la distribution prédictive a posteriori d'une variable aléatoire de famille exponentielle (à prieure conjuguée) peut toujours s'écrire en forme close (pour autant que le facteur de normalisation de la famille exponentielle puisse lui- même s'écrire en forme close). Il est à noter toutefois que souvent ces distributions ne sont pas elles-mêmes de famille exponentielle. Exemples courants : la t de Student, la bêta-binomiale ou la Dirichlet-multinomiale.

Les familles exponentielles apparaissent de façon naturelle dans la recherche de distributions lors d'applications statistiques, en particulier dans les méthodes bayesiennes.

La famille exponentielle comprend quantité de distributions parmi les plus courantes : Normale, exponentielle, gamma, chi-carré, bêta, Dirichlet, Bernoulli, Bernoulli multinomiale, Poisson, Wishart, Wishart Inverse, etc. D'autres distributions courantes ne forment une famille exponentielle que si certains paramètres sont fixes et de valeur connue, telles la binomiale (nombre de tirages fixe), multinomiale (idem) et binomiale négative (nombre d'échecs fixe). Parmi les distributions d'usage courant qui ne sont pas de famille exponentielle, on peut citer la t de Student, la plupart des mixtures, ainsi que la famille des distributions uniformes de bornes non fixées.

Origine et terminologie[modifier | modifier le code]

La notion de famille exponentielle a été développée en 1935/36 par Georges Darmois[1], E. J. G. Pitman[2] et Bernard Koopman [3].
Le terme classe exponentielle est parfois utilisé dans le même sens[4],[5].

Signification du terme "famille"[modifier | modifier le code]

À proprement parler, "une" distribution est définie par les valeurs spécifiques des constantes utilisées dans sa formulation : par ex. "la" Normale (10;200). Une "famille" de distributions est définie par un ou plusieurs paramètres variables : p. ex. "les" Poisson (λ). Cette famille est "exponentielle" lorsque la fonction de densité/probabilité prend une forme algébrique particulière entre la variable aléatoire et les paramètres: la séparation des facteurs.

Dans la pratique cependant, on entend parler de la famille exponentielle, là où il faudrait citer "des" familles exponentielles ; de même qu'on parle de distribution pour dire "famille de distributions". Ainsi, nous disons couramment la distribution normale pour parler de "la famille de distributions normales à moyenne et variance inconnues" N(μ;σ²).

  • La célèbre distribution binomiale est en réalité une famille de distributions-sœurs caractérisées par un paramètre n (tirages) et un paramètre p (probabilité de succès).
  1. Si n et p ont tous deux reçu une valeur particulière (p. ex. n=20, p=0.1), il s'agit d'une distribution binomiale unique.
  2. Si n a reçu une valeur particulière (n=20), mais p peut varier, il s'agit d'une famille de distributions binomiales, caractérisée par le paramètre p. n est une constante et non un paramètre.
  3. Si n et p sont tous deux libres de varier, il s'agira d'une famille plus large de distributions binomiales, de paramètres n etp.

Les trois situations sont habituellement dénommées "la distribution binomiale", mais seule la seconde constitue une famille exponentielle.


  • Le cas de la distribution uniforme est à remarquer.
    • Parfois, l'expression "nombre aléatoire tiré d'une distribution uniforme" fait référence à la distribution uniforme continue entre 0 et 1. Cette même U[0;1] est décrite comme un cas particulier de la distribution Bêta. Comme la Bêta est de famille exponentielle, d'aucuns seraient tentés de conclure que l'Uniforme est aussi de famille exponentielle. Mais en réalité cet exemple n'est qu'une distribution uniforme particulière, et non une famille.
    • Quant à la famille de distributions uniformes, elle est caractérisée par la nature paramétrique d'une ou des deux bornes. Aucune de ces familles n'est une famille exponentielle.

Définition[modifier | modifier le code]

Une famille exponentielle est un ensemble de distributions dont la loi de probabilité (discrète ou continue) peut s'écrire sous la forme de facteurs séparables

 f_X(x|\theta) = a(\theta) b(x)\ \exp[\ \eta(\theta) \cdot T(x)\ ]\,

T(x), b(x), η(θ), et a(θ) sont précisées.


Souvent, la densité s'écrira sous la forme alternative

 f_X(x|\theta) = b(x)\ \exp[\ \eta(\theta) \cdot T(x)\ -\ A(\theta)\ ]

ou même

 f_X(x|\theta) = \exp[\ \eta(\theta) \cdot T(x)\ -\ A(\theta) + B(x)\ ]

La valeur θ est le paramètre de la famille.
La variable aléatoire x peut représenter un vecteur de plusieurs mesures. Dans ce cas T(x) est une fonction de plusieurs variables.
Que x soit scalaire ou vectoriel, et même s'il y a un paramètre unique, les fonctions η(θ) et T(x) peuvent prendre la forme de vecteurs. (Voir plus bas)

  • La famille exponentielle est dite en forme canonique (ou naturelle) lorsque η(θ) = θ. Il est toujours possible de convertir une famille exponentielle en forme canonique, par la définition d'un paramètre transformé θ' = η(θ) :
 f_X(x|\eta) = b(x)\ \exp[\ \eta \cdot T(x)\ -\ A(\eta)\ ]

La valeur η est un paramètre naturel de la famille. La forme canonique n'est pas unique, puisque η(θ) peut être multiplié par une constante non nulle, pourvu que T(x) soit multiplié par la constante inverse.

  • La fonction A(θ) (alternativement a(θ) ) est définie automatiquement par le choix des autres fonctions : elle assure que la distribution soit normalisée (la somme ou l'intégrale sur toutes les valeurs doit donner une probabilité égale à un). On notera que ces deux fonctions sont toujours des fonctions de η. Ceci veut dire que si η(θ) n'est pas bijective, c.à.d. si plusieurs valeurs de θ donnent la même valeur de η(θ), alors toutes les valeurs θ ayant la même image η(θ) auront également la même valeur pour A(θ) ou a(θ).
Paramètre vectoriel

La définition ci-dessus, bien qu'à première vue exprimée en termes d'un paramètre scalaire, reste valable pour un paramètre vecteur de réels {\boldsymbol \theta} = (\theta_1, \theta_2, \ldots, \theta_d)^T. La distribution est de famille exponentielle vectorielle si la fonction de densité (ou de probabilité, pour les discrètes) s'écrit

 f_X(x|\boldsymbol \theta) = b(x) a(\boldsymbol \theta) \exp\left(\sum_{i=1}^s \eta_i({\boldsymbol \theta}) T_i(x) \right) \,\!

ou en forme compacte,

 f_X(x|\boldsymbol \theta) = b(x) a(\boldsymbol \theta) \exp\Big(\ \boldsymbol\eta({\boldsymbol \theta}) \cdot \mathbf{T}(x) \Big) \,\!

La somme est écrite comme le produit scalaire des fonctions-vecteurs \boldsymbol\eta({\boldsymbol \theta}) et \mathbf{T}(x).

Forme alternative fréquente :

 f_X(x|\boldsymbol \theta) = b(x) \exp\Big(\ \boldsymbol\eta({\boldsymbol \theta}) \cdot \mathbf{T}(x) - A({\boldsymbol \theta}) \ \Big) \,\!

Comme précédemment, la famille exponentielle est sous forme canonique si \eta_i({\boldsymbol \theta}) = \theta_i, pour tout i.


Une famille exponentielle vectorielle est dite courbe si la dimension d du vecteur paramètre {\boldsymbol \theta} = (\theta_1, \theta_2, \ldots, \theta_d)^T est inférieure à la dimension s du vecteur {\boldsymbol \eta}(\boldsymbol \theta) = (\eta_1(\boldsymbol \theta), \eta_2(\boldsymbol \theta), \ldots, \eta_s(\boldsymbol \theta))^T, le nombre de fonctions du vecteur paramètre dans la représentation factorisée. N.B. la plupart des distributions courantes de famille exponentielle ne sont pas courbes, de sorte que nombre d'algorithmes conçus pour la famille exponentielle supposent implicitement ou explicitement que la distribution n'est pas courbe.


La fonction de normalisation A(\boldsymbol \theta) ou a(\boldsymbol \theta) peut toujours s'écrire en fonction de \boldsymbol\eta, quelles que soient les transformations de \boldsymbol\theta en \boldsymbol\eta. La famille exponentielle suivante est en "forme naturelle" (paramétrée par son paramètre naturel)

 f_X(x|\boldsymbol \eta) = b(x) \exp\Big(\ \boldsymbol\eta \cdot \mathbf{T}(x) - A({\boldsymbol \eta})\ \Big) \,\!

ou

 f_X(x|\boldsymbol \eta) = b(x) a(\boldsymbol \eta) \exp\Big(\ \boldsymbol\eta \cdot \mathbf{T}(x)\ \Big) \,\!

Note : on lit indifféremment les notations \boldsymbol\eta^T \mathbf{T}(x)\, ou \boldsymbol\eta' \mathbf{T}(x)\, pour \boldsymbol\eta \cdot \mathbf{T}(x)\,.


Variable vectorielle

De même qu'on a généralisé d'un paramètre scalaire à un paramètre vectoriel, on généralise aisément d'une variable aléatoire simple (scalaire) à une distribution conjointe sur un vecteur de variables aléatoires. Il suffit de remplacer chaque notation scalaire x par un vecteur \mathbf{x} = (x_1, x_2, \ldots, x_k). Attention ! La dimension k du vecteur aléatoire ne correspond pas nécessairement à la dimension d du vecteur paramètre, ni (pour une fonction exponentielle courbe) à la dimension s du paramètre naturel η et de la statistique suffisante T(x).

Notation (sous forme compacte):

 f_X(\mathbf{x}|\boldsymbol \theta) = b(\mathbf{x})\ \exp\Big(\ \boldsymbol\eta({\boldsymbol \theta}) \cdot \mathbf{T}(\mathbf{x}) - A({\boldsymbol \theta})\ \Big) \,\!

ou

 f_X(\mathbf{x}|\boldsymbol \theta) = b(\mathbf{x})\ a(\boldsymbol \theta)\ \exp\Big(\ \boldsymbol\eta({\boldsymbol \theta}) \cdot \mathbf{T}(\mathbf{x})\ \Big) \,\!

Propriétés[modifier | modifier le code]

Les fonctions T(x), \eta(\theta), et A(\eta) qui apparaissent dans les définitions ne sont pas totalement arbitraires. Elles jouent un rôle important pour l'analyse statistique.


  • T(x) est une statistique suffisante (ou exhaustive) de la distribution. Une statistique suffisante est une fonction qui résume parfaitement les données mesurées x dans le cadre d'un échantillon tiré de cette distribution : même si un autre jeu de données  y diffère complètement de x, mais que T(x)=T(y), alors la densité estimée àpartir des observations sera la même, c.à.d. elle aura le même paramètre.

La dimension de T(x) égale le nombre de paramètres de \eta.

La statistique suffisante d'une collection de données indépendantes et identiquement distribuées (i.i.d.) est la somme des statistiques suffisantes individuelles. En estimation bayesienne, elle contient toute l'information nécessaire au calcul de la distribution a posteriori des paramètres, conditionnellement aux observations. En estimation classique, elle suffit pour construire un estimateur des paramètres.


  • \eta est le paramètre naturel de la distribution. L'ensemble des valeurs de \eta pour lesquelles la fonction f_X(x|\theta) est finie est appelé l' espace paramétrique naturel. On peut montrer que cet espace paramétrique naturel est toujours convexe.


  • A(\eta) est parfois appelée la fonction de log-partition parce qu'elle est le logarithme du facteur de normalisation a(\eta) (la "fonction de partition" des statisticiens)  :
 a(\eta) =   \left\{\int_x b(x)\ \exp[\ \eta(\theta) \cdot T(x)\ ] \operatorname{d}\!x\right\}^{-1}
ou
 A(\eta) = \ln\left\{ \int_x b(x)\ \exp[\ \eta(\theta) \cdot T(x)\ ] \operatorname{d}\!x\right\}


L'utilité de la fonction A apparaît quand il faut calculer la moyenne, la variance et les autres moments de la statistique suffisante T(x) : il suffit de dériver  A(\eta) .
Par exemple, on veut calculer l'espérance du logarithme d'une v.a. Gamma. Comme \ln x est une composante de la statistique suffisante de la distribution Gamma, l'espérance \mathbb{E}[\ln x] se calcule aisément en dérivant A(\eta) = \ln \Gamma (r) - r \ln \lambda \,.


  • b(x) est la mesure de base . Elle sert au calcul d'une prieure non informative (= entropie maximale).

Factorisation[modifier | modifier le code]

Ce qui caractérise une famille exponentielle est sa factorisation en un produit de termes contenant chacun un seul type de variable, paramètres ou variables aléatoires. Ces facteurs sont présents soit directement, soit dans l'exponentiation (base ou exposant). De façon générale, les facteurs multipliés entre eux devront donc avoir une des formes suivantes :

f(x) c^{f(x)} {[f(x)]}^c {[f(x)]}^{g(\theta)} {[f(x)]}^{h(x)g(\theta)}
g(\theta) c^{g(\theta)} {[g(\theta)]}^c {[g(\theta)]}^{f(x)} {[g(\theta)]}^{h(x)j(\theta)}

f(x) et h(x) sont des fonctions quelconques de x ;
g(\theta) et j(\theta) sont des fonctions quelconques de \theta ;
et c est une expression quelconque "constante" (c.à.d. ne comportant ni x ni \theta).

La forme {[f(x)]}^{g(\theta)} est acceptable parce que {[f(x)]}^{g(\theta)} = e^{g(\theta) \ln f(x)}\, qui se factorise dans l'exposant.
De même pour {[f(x)]}^{h(x)g(\theta)} = e^{h(x)g(\theta)\ln f(x)} =  e^{[h(x) \ln f(x)] g(\theta)}\,.

Ces facteurs sont toutefois limités en nombre. Par exemple, l'expression {[f(x) g(\theta)]}^{h(x)j(\theta)} est identique à {[f(x)]}^{h(x)j(\theta)} [g(\theta)]^{h(x)j(\theta)}, un produit de deux facteurs "autorisés". Pourtant, sa forme factorisée

 {[f(x)]}^{h(x)j(\theta)} [g(\theta)]^{h(x)j(\theta)} = e^{[h(x) \ln f(x)] j(\theta) + h(x) [j(\theta) \ln g(\theta)]}\, ,

n'a pas la forme requise. (Par contre, ce genre d'expression constitue une famille exponentielle courbe, qui permet plusieurs termes factorisés dans l'exposant.)


Une somme incluant les deux types de variables, comme p.ex. le facteur [1+f(x)g(θ)], ne se prête pas à la factorisation (sauf bien sûr si elle apparaît dans un exposant). C'est la raison pour laquelle la loi de Cauchy et la t de Student, par exemple, ne sont pas de famille exponentielle.

Exemples de factorisation[modifier | modifier le code]

Pour rappel, la distinction entre paramètres et constantes est fondamentale pour déterminer si une "distribution" est ou non de famille exponentielle.

Paramètre scalaire[modifier | modifier le code]

La variable aléatoire Normale de moyenne inconnue \mu mais de variance \sigma² constante a pour fonction de densité

f_\sigma(x;\mu) = \frac{1}{\sqrt{2 \pi}|\sigma|} e^{-(x-\mu)^2/2\sigma^2}.

En posant

b_\sigma(x) = e^{-x^2/2\sigma^2}/\sqrt{2\pi}|\sigma|
T_\sigma(x) = x/\sigma\!\,
A_\sigma(\mu) = \mu^2/2\sigma^2\!\,
\eta_\sigma(\mu) = \mu/\sigma.\!\,

on voit que c'est une famille exponentielle, à paramètre simple μ.

Si σ = 1, elle est en forme canonique, car alors η(μ) = μ.

Paramètre vectoriel[modifier | modifier le code]

Dans le cas de la Normale de moyenne inconnue \mu et variance inconnue \sigma^2, la fonction de densité

f(x;\mu,\sigma) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-(x-\mu)^2/(2 \sigma^2)}

est une famille exponentielle à paramètre vectoriel (μ,σ) qui s'écrit sous forme canonique en posant

 b(x) = {1 \over \sqrt{2 \pi}}
 \boldsymbol T(x) = \left( x, x^2 \right)^{'}
 {\boldsymbol \eta}(\mu,\sigma) = \left({\mu \over \sigma^2},{-1 \over 2\sigma^2} \right)^{'}
 A(\mu,\sigma)  = { \mu^2 \over 2 \sigma^2} + \ln |\sigma| = A({\boldsymbol \eta})  = -\eta_1^2/4\eta_2 + 1/2\ln|1/2\eta_2|

Distribution discrète[modifier | modifier le code]

La distribution binomiale à nombre de tirages n constant constitue un exemple de famille exponentielle discrète. Sa densité de probabilité

f(x)={C_n^x}p^x (1-p)^{n-x}, \quad x \in \{0, 1, 2, \ldots, n\}

se factorise en

f(x)={C_n^x}\exp\left[x \ln\left({p \over 1-p}\right) + n \ln\left(1-p\right)\right].

Son paramètre naturel vaut

\eta = \ln{p \over 1-p}

qu'on appelle la fonction logit.

Tableau de familles exponentielles[modifier | modifier le code]

Ce tableau reprend une sélection de distributions courantes et leur réécriture en famille exponentielle à paramètres naturels, de forme générale

 f_X(\mathbf{x}|\boldsymbol \theta) = b(\mathbf{x})\ \exp\Big(\ \boldsymbol\eta({\boldsymbol \theta}) \cdot \mathbf{T}(\mathbf{x}) - A({\boldsymbol \eta})\ \Big) \,\!

On a privilégié la forme fonctionnelle avec une fonction de log-partition A({\boldsymbol \eta}), parce que les moments de la statistique suffisante se calculent facilement en dérivant cette dernière fonction. On a donné également la fonction A(\boldsymbol\theta).

Sont de famille exponentielle : les distributions Normale, Exponentielle, log-normale, Gamma, khi-carré, Bêta, Dirichlet, Bernoulli, Multi-Bernoulli, Poisson, géométrique, inverse Gaussienne, von Mises et von Mises-Fisher.
Sont de famille exponentielle uniquement si un paramètre est fixé ("constant") : la Pareto à borne inférieure xm fixée ; les binomiales et multinomiales à nombre de tirages n fixé ; les binomiales négatives à nombre d'échecs (ou paramètre d'arrêt) r fixé.
En règle générale, le domaine de définition, ou support, reste constant parmi toutes les distributions d'une famille exponentielle. Ceci explique pourquoi la variation des paramètres fixés ci-dessus (p.ex. la binomiale à nombre de tirages variable) rend la famille non exponentielle — le paramètre en question affecte le support (en l'occurrence, il modifie la valeur minimum ou maximum possible). C'est pour la même raison que la famille des Uniformes n'est pas non plus exponentielle.
La distribution Weibull à paramètre de forme k fixé est une famille exponentielle. Pourtant, le paramètre de forme ne modifie pas le support. Dans ce cas, c'est la forme particulière de sa fonction de densité (k apparaît dans l'exposant d'un exposant) qui empêche la factorisation de la Weibull si k varie.
Ne sont pas de famille exponentielle : les distributions F de Fisher-Snedecor, Cauchy, hypergéometrique et logistique. De même, la plupart des distributions qui résultent du mélange fini ou infini de distributions ne sont pas des familles exponentielles : les mélanges Gaussiens, les distributions "à grosse queue" construites par composition telles la t de Student (composition d'une Normale par une Gamma), la Bêta-binomiale et la Dirichlet-multinomiale.


Distribution paramètre \boldsymbol \theta paramètre naturel \boldsymbol\eta fonction réciproque \boldsymbol\theta({\boldsymbol \eta}) mesure de base
b(x)
statistique suffisante T(x) log-partition A(\boldsymbol\eta) A(\boldsymbol\theta)
Bernoulli p \ln\frac{p}{1-p}

(fonction logit)

\frac{1}{1+e^{-\eta}} = \frac{e^\eta}{1+e^{\eta}}

(fonction logistique)

 1  x  \ln (1+e^{\eta})  -\ln (1-p)
Binomiale
(n constant)
p \ln\frac{p}{1-p} \frac{1}{1+e^{-\eta}} = \frac{e^\eta}{1+e^{\eta}}  \mathbf{C}_n^x  x  n \ln (1+e^{\eta})  -n \ln (1-p)
Poisson λ \ln\lambda e^\eta  \frac{1}{x!}  x  e^{\eta}  \lambda
Binomiale négative
(r constant)
p \ln p e^\eta \Gamma_r^x  x  -r \ln (1-e^{\eta})  -r \ln (1-p)
Exponentielle λ -\lambda -\eta  1  x  -\ln(-\eta)  -\ln\lambda
Pareto
(minimum xm constant)
α -\alpha-1 -1-\eta  1  \ln x  -\ln (-1-\eta)
    + (1+\eta) \ln x_{\mathrm m}
 -\ln \alpha
    - \alpha \ln x_{\mathrm m}
Weibull
(k constant)
λ -\lambda^k (-\eta)^{1/k}  x^{k-1}  x^k  \ln(-\eta) -\ln k  k\ln\lambda -\ln k
Laplace
(μ constant)
b -\frac{1}{b} -\frac{1}{\eta}  1  |x-\mu|  \ln\left(-\frac{2}{\eta}\right)  \ln 2b
Khi-carré ν \frac{\nu}{2}-1 2(\eta+1)  e^{-x/2}  \ln x  \ln \Gamma(\eta+1)

  +(\eta+1)\ln 2
 \ln \Gamma\left(\frac{\nu}{2}\right)
   +\frac{\nu}{2}\ln 2
Normale
(variance constante)
μ \frac{\mu}{\sigma} \sigma\eta  \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2\sigma^2}}  \frac{x}{\sigma}  -\frac{\eta^2}{2}  \frac{\mu^2}{2\sigma^2}
Normale μ,σ2 \begin{bmatrix} \dfrac{\mu}{\sigma^2} \\[10pt] -\dfrac{1}{2\sigma^2} \end{bmatrix} \begin{bmatrix} -\dfrac{\eta_1}{2\eta_2} \\[15pt] -\dfrac{1}{2\eta_2} \end{bmatrix}  \frac{1}{\sqrt{2\pi}}  \begin{bmatrix} x \\ x^2 \end{bmatrix}  -\frac{\eta_1^2}{4\eta_2} - \frac12\ln(-2\eta_2)  \frac{\mu^2}{2\sigma^2} + \ln \sigma
Log-normale μ,σ2 \begin{bmatrix} \dfrac{\mu}{\sigma^2} \\[10pt] -\dfrac{1}{2\sigma^2} \end{bmatrix} \begin{bmatrix} -\dfrac{\eta_1}{2\eta_2} \\[15pt] -\dfrac{1}{2\eta_2} \end{bmatrix}  \frac{1}{\sqrt{2\pi}x}  \begin{bmatrix} \ln x \\ (\ln x)^2 \end{bmatrix}  -\frac{\eta_1^2}{4\eta_2} - \frac12\ln(-2\eta_2)  \frac{\mu^2}{2\sigma^2} + \ln \sigma
Normale inverse μ,λ \begin{bmatrix} -\dfrac{\lambda}{2\mu^2} \\[15pt] -\dfrac{\lambda}{2} \end{bmatrix} \begin{bmatrix} \sqrt{\dfrac{\eta_2}{\eta_1}} \\[15pt] -2\eta_2 \end{bmatrix}  \frac{1}{\sqrt{2\pi}x^{3/2}}  \begin{bmatrix} x \\[5pt] \dfrac{1}{x} \end{bmatrix}  -2\sqrt{\eta_1\eta_2} -\frac12\ln(-2\eta_2)  -\frac{\lambda}{\mu} -\frac12\ln\lambda
Gamma-Normale α,β,μ,λ \begin{bmatrix} \alpha-\frac12 \\ -\beta-\dfrac{\lambda\mu^2}{2} \\ \lambda\mu \\ -\dfrac{\lambda}{2}\end{bmatrix} \begin{bmatrix} \eta_1+\frac12 \\ -\eta_2 + \dfrac{\eta_3^2}{4\eta_4} \\ -\dfrac{\eta_3}{2\eta_4} \\ -2\eta_4 \end{bmatrix}  \dfrac{1}{\sqrt{2\pi}}  \begin{bmatrix} \ln \tau \\ \tau \\ \tau x \\ \tau x^2 \end{bmatrix}  \ln \Gamma\left(\eta_1+\frac12\right)
   - \frac12\ln\left(-2\eta_4\right)

   - \left(\eta_1+\frac12\right)\ln\left(\dfrac{\eta_3^2}{4\eta_4}-\eta_2\right)

 \ln \Gamma\left(\alpha\right)-\alpha\ln\beta|

      -\frac12\ln\lambda

Gamma r;,λ \begin{bmatrix} r-1 \\ -\lambda \end{bmatrix} \begin{bmatrix} \eta_1+1 \\ -\eta_2 \end{bmatrix}  1  \begin{bmatrix} \ln x \\ x \end{bmatrix}  \ln \Gamma(\eta_1+1)

  -(\eta_1+1)\ln(-\eta_2)
 \ln \Gamma(r)-r\ln\lambda
k,θ \begin{bmatrix} k-1 \\[5pt] -\dfrac{1}{\theta} \end{bmatrix} \begin{bmatrix} \eta_1+1 \\[5pt] -\dfrac{1}{\eta_2} \end{bmatrix}  \ln \Gamma(k)+k\ln\theta
Gamma inverse r;,λ \begin{bmatrix} -r-1 \\ -\lambda \end{bmatrix} \begin{bmatrix} -\eta_1-1 \\ -\eta_2 \end{bmatrix}  1  \begin{bmatrix} \ln x \\ 1/x \end{bmatrix}  \ln \Gamma(-\eta_1-1)

  -(-\eta_1-1)\ln(-\eta_2)
 \ln \Gamma(r)-r\ln\lambda
Khi-carré inverse ν,σ2 \begin{bmatrix} -\dfrac{\nu}{2}-1 \\[10pt] -\dfrac{\nu\sigma^2}{2} \end{bmatrix} \begin{bmatrix} -2(\eta_1+1) \\[10pt] \dfrac{\eta_2}{\eta_1+1} \end{bmatrix}  1 \begin{bmatrix} \ln x \\ 1/x \end{bmatrix}  \ln \Gamma(-\eta_1-1)

  -(-\eta_1-1)\ln(-\eta_2)
 \ln \Gamma\left(\frac{\nu}{2}\right)|

      -\frac{\nu}{2}\ln\frac{\nu\sigma^2}{2}

Bêta α,β \begin{bmatrix} \alpha \\ \beta \end{bmatrix} \begin{bmatrix} \eta_1 \\ \eta_2 \end{bmatrix}  \frac{1}{x(1-x)}  \begin{bmatrix} \ln x \\ \ln (1-x)  \end{bmatrix}  \ln \Gamma(\eta_1) + \ln \Gamma(\eta_2)

  - \ln \Gamma(\eta_1+\eta_2)
 \ln \Gamma(\alpha) + \ln \Gamma(\beta)

  - \ln \Gamma(\alpha+\beta)
Dirichlet α1,...,αk \begin{bmatrix} \alpha_1-1 \\ \vdots \\ \alpha_k-1 \end{bmatrix} \begin{bmatrix} \eta_1+1 \\ \vdots \\ \eta_k+1 \end{bmatrix}  1  \begin{bmatrix} \ln x_1 \\ \vdots \\ \ln x_k \end{bmatrix}  \sum_{i=1}^k \ln \Gamma(\eta_i+1)
   - \ln \Gamma\left(\sum_{i=1}^k\Big(\eta_i+1\Big)\right)
 \sum_{i=1}^k \ln \Gamma(\alpha_i)|

      - \ln \Gamma\left(\sum_{i=1}^k\alpha_i\right)

Normale multivariée μ,Σ \begin{bmatrix} \boldsymbol\Sigma^{-1}\boldsymbol\mu \\[5pt] -\frac12\boldsymbol\Sigma^{-1} \end{bmatrix} \begin{bmatrix} -\frac12\boldsymbol\eta_2^{-1}\boldsymbol\eta_1 \\[5pt] -\frac12\boldsymbol\eta_2^{-1} \end{bmatrix} (2\pi)^{-k/2} \begin{bmatrix} \mathbf{x} \\[5pt] \mathbf{x}\mathbf{x}^\mathrm{T} \end{bmatrix}  -\frac{1}{4}\boldsymbol\eta_1^{\rm T}\boldsymbol\eta_2^{-1}\boldsymbol\eta_1

       - \frac12\ln\left|-2\boldsymbol\eta_2\right|

 \frac12\boldsymbol\mu^{\rm T}\boldsymbol\Sigma^{-1}\boldsymbol\mu|

       + \frac12 \ln |\boldsymbol\Sigma|

Wishart V,n \begin{bmatrix} -\frac12\mathbf{V}^{-1} \\[5pt] \dfrac{n-p-1}{2} \end{bmatrix} \begin{bmatrix} -\frac12{\boldsymbol\eta_1}^{-1} \\[5pt] 2\eta_2+p+1 \end{bmatrix}  1  \begin{bmatrix} \mathbf{X} \\ \ln|\mathbf{X}| \end{bmatrix} -\left(\eta_2+\frac{p+1}{2}\right)\ln|-\boldsymbol\eta_1|

      + \ln\Gamma_p\left(\eta_2+\frac{p+1}{2}\right) =
-\frac{n}{2}\ln|-\boldsymbol\eta_1| + \ln\Gamma_p\left(\frac{n}{2}\right) =
\left(\eta_2+\frac{p+1}{2}\right)(p\ln 2 + \ln|\mathbf{V}|)
      + \ln\Gamma_p\left(\eta_2+\frac{p+1}{2}\right)

 \frac{n}{2}(p\ln 2 + \ln|\mathbf{V}|)

   + \ln\Gamma_p\left(\frac{n}{2}\right)

  • A(\eta) est donnée sous trois formes, afin de faciliter le calcul des moments.
  • NOTE: Se rappeler que tr(A'B) = vec(A)\cdot vec(B) ; autrement dit, la trace d'un produit matriciel est semblable à un produit scalaire. Les paramètres matriciels sont considérés comme des vecteurs dans la forme exponentielle. Par ailleurs, V et X sont symétriques.
Wishart inverse Ψ,m \begin{bmatrix} -\frac12\boldsymbol\Psi \\[5pt] -\dfrac{m+p+1}{2} \end{bmatrix} \begin{bmatrix} -2\boldsymbol\eta_1 \\[5pt] -(2\eta_2+p+1) \end{bmatrix}  1  \begin{bmatrix} \mathbf{X}^{-1} \\ \ln|\mathbf{X}| \end{bmatrix}  \ln\Gamma_p\left(-\Big(\eta_2 + \frac{p + 1}{2}\Big)\right)+

   \left(\eta_2 + \frac{p + 1}{2}\right)\ln|-\boldsymbol\eta_1| =
 \ln\Gamma_p\left(\frac{m}{2}\right) -\frac{m}{2}\ln|-\boldsymbol\eta_1| =
 \ln\Gamma_p\left(-\Big(\eta_2 + \frac{p + 1}{2}\Big)\right)-
 \left(\eta_2 +\frac{p+1}{2}\right)(p\ln 2-\ln|\boldsymbol\Psi|)

\frac{m}{2}(p\ln 2 - \ln|\boldsymbol\Psi|)

   + \ln\Gamma_p\left(\frac{m}{2}\right)

Multinomiale
(n constant)
(= Multi-Bernoulli
si n=1)
version 1
p1,...,pk

avec
\sum_{i=1}^k p_i=1
\begin{bmatrix} \ln p_1 \\ \vdots \\ \ln p_k \end{bmatrix} \begin{bmatrix} e^{\eta_1} \\ \vdots \\ e^{\eta_k} \end{bmatrix}

\textstyle\sum_{i=1}^k e^{\eta_i}=1
 \frac{n!}{\prod_{i=1}^{k} x_i!} \begin{bmatrix} x_1 \\ \vdots \\ x_k \end{bmatrix}  0  0
Multinomiale
(n constant) version 2
p1,...,pk-1

avec
p_k = 1 - \sum_{i=1}^{k-1} p_i
\begin{bmatrix} \ln \dfrac{p_1}{p_k} \\[10pt] \vdots \\[5pt] \ln \dfrac{p_{k-1}}{p_k} \\[15pt] 0 \end{bmatrix} =

\begin{bmatrix} \ln \dfrac{p_1}{1- \sum p_i} \\[10pt] \vdots \\[5pt] \ln \dfrac{p_{k-1}}{1- \sum p_i} \\[15pt] 0 \end{bmatrix}
\begin{bmatrix} \dfrac{e^{\eta_1}}{\sum_{i=1}^{k}e^{\eta_i}} \\[10pt] \vdots \\[5pt] \dfrac{e^{\eta_{k}}}{\sum_{i=1}^{k}e^{\eta_i}} \end{bmatrix} =

\begin{bmatrix} \dfrac{e^{\eta_1}}{1+\sum_{1}^{k-1}e^{\eta_i}} \\[10pt] \vdots \\[5pt] \dfrac{e^{\eta_{k-1}}}{1+\sum_{1}^{k-1}e^{\eta_i}} \\[15pt] \dfrac{1}{1+\sum_{1}^{k-1}e^{\eta_i}} \end{bmatrix}

 \frac{n!}{\prod_{i=1}^{k} x_i!} \begin{bmatrix} x_1 \\ \vdots \\ x_{k} \end{bmatrix}  \ln \left(\sum_{i=1}^{k} e^{\eta_i}\right)

   = \ln \left(1+\sum_{1}^{k-1} e^{\eta_i}\right)
 -\ln p_{k} =

  -\ln \left(1 - \sum_{1}^{k-1} p_i\right)

La variante de la Multinomiale résulte du fait que les paramètres p_i sont contraints par \sum_{i=1}^{k} p_i = 1 . Il n'y a donc que k-1 paramètres indépendants.

  • Dans la version 1, on voit k paramètres naturels et une relation simple entre les paramètres standard et naturel. Cependant, k-1 seulement des paramètres naturels sont indépendants, et du coup l'ensemble des k paramètres naturels est non identifiable. La contrainte sur les paramètres normaux se transpose à l'identique sur les paramètres naturels.

Notez que la version 1 n'est pas une famille exponentielle standard. C'est une famille exponentielle courbe, puisque k-1 paramètres independent sont incorporés dans un espace k-dimensionnel. Les propriétés de base des familles exponentielles ne s'appliquent pas aux familles exponentielles courbes. Par exemple on voit que la fonction de log-partition A(x) a la valeur 0.

  • La version 2 montre une manière simple de rendre les paramètres identifiables en fixant  p_k . Cela force le dernier paramètre naturel à la valeur constante 0. Les autres formules sont écrites de façon à ne pas utiliser p_k, de sorte que le modèle n'a bien que k-1 paramètres, tant sous forme normale que sous forme canonique.

Applications[modifier | modifier le code]

Inférence statistique[modifier | modifier le code]

Estimation classique : exhaustivité[modifier | modifier le code]

Le théorème de Pitman–Koopman–Darmois montre que parmi les familles de distributions dont le domaine ne dépend pas du paramètre à estimer, seules les familles exponentielles offrent une statistique suffisante dont la dimension reste bornée quand la taille d'échantillon croît.

Concrètement, soient Xk, (où k = 1, 2, 3, ... n) des variables aléatoires indépendantes, identiquement distribuées. Il faut que leur distribution soit de famille exponentielle pour qu'existe une statistique suffisante T(X1, ..., Xn) dont le nombre de composantes scalaires n'augmente pas avec la taille d'échantillon n : sa dimension ne changera pas quand on collecte plus de données.

Estimation bayesienne : distributions conjuguées[modifier | modifier le code]

En inférence bayésienne, une distribution a priori d'un paramètre à estimer est multipliée par une fonction de vraisemblance (puis normalisée) pour aboutir à une distribution a posteriori.

Une prieure conjuguée est une distribution a priori qui, après combinaison à la fonction de vraisemblance, donne une distribution a posteriori de même type, ce qui rend particulièrement facile le calcul de la postérieure. Par exemple, pour estimer la probabilité de succès p d'une Binomiale, si on prend une distribution Bêta comme prieure, la postérieure sera une autre distribution Bêta. De même, l'estimation du paramètre d'une Poisson par une prieure Gamma donne une postérieure Gamma. Les prieures conjuguées sont souvent très pratiques, de par leur flexibilité.


Lorsque la fonction de vraisemblance est de famille exponentielle, il existe une prieure conjuguée, qui sera en général elle aussi de famille exponentielle. (En règle générale, une fonction de vraisemblance ne sera pas de famille exponentielle, et donc il n'existera pas de prieure conjuguée. La postérieure devra être calculée par des méthodes numériques.)

La prieure conjuguée \pi (pour "prior") sur le paramètre \boldsymbol\eta d'une famille exponentielle est donnée par

\pi(\boldsymbol\eta|\boldsymbol\chi,\nu) = f(\boldsymbol\chi,\nu) \exp(\boldsymbol\eta^{\rm T} \boldsymbol\chi - \nu\, A(\boldsymbol\eta)) =  f(\boldsymbol\chi,\nu) a(\boldsymbol\eta)^\nu \exp(\boldsymbol\eta^{\rm T} \boldsymbol\chi),


  • \nu>0 représente le nombre virtuel d'observations fournies par la prieure.
  • \boldsymbol\chi \in \mathbb{R}^s (s étant la dimension de \boldsymbol\eta) représente la contribution de ces pseudo-observations dans la statistique suffisante constituée de toutes les observations et pseudo-observations.

\boldsymbol\chi et \nu sont des hyperparamètres (paramètres contrôlant des paramètres).

  • f(\boldsymbol\chi,\nu) est la constante de normalisation, déterminée automatiquement par les autres fonctions, qui sert à assurer que \pi(\boldsymbol\eta|\boldsymbol\chi,\nu) est une fonction de densité.
  • A(\boldsymbol\eta) (resp. a(\boldsymbol\eta) ) sont les mêmes fonctions que dans la distribution p(x|\boldsymbol\eta) pour laquelle \pi est prieure conjuguée.


Pour voir que cette distribution a priori est une prieure conjuguée, calculons-en la postérieure.

Soit la fonction de densité (ou de probabilité) d'une observation, de famille exponentielle, écrite en paramètre naturel :

 p(x|\boldsymbol \eta) = b(x) a(\boldsymbol\eta) \exp\Big(\ \boldsymbol\eta^{\rm T} \mathbf{T}(x)\ \Big) \,\!

La vraisemblance des données \mathbf{X} = (x_1,\ldots,x_n) est donnée par :

p(\mathbf{X}|\boldsymbol\eta) = \left( \prod_{i=1}^n b(x_i) \right) a(\boldsymbol\eta)^n
 \exp\left(\ \boldsymbol\eta^{\rm T} \Big(\sum_{i=1}^n \mathbf{T}(x_i)\Big) \ \right)

Par conséquent, en appliquant la distribution a priori susdite :


\begin{align}
\pi(\boldsymbol\eta|\boldsymbol\chi,\nu) &= f(\boldsymbol\chi,\nu) a(\boldsymbol\eta)^\nu \exp(\boldsymbol\eta^{\rm T} \boldsymbol\chi)
&\propto a(\boldsymbol\eta)^\nu \exp(\boldsymbol\eta^{\rm T} \boldsymbol\chi)
\end{align}

on dérive la postérieure :


\begin{align}
p(\boldsymbol\eta|\mathbf{X},\boldsymbol\chi,\nu)& \propto p(\mathbf{X}|\boldsymbol\eta) \pi(\boldsymbol\eta|\boldsymbol\chi,\nu) \\
& = \left( \prod_{i=1}^n b(x_i) \right) a(\boldsymbol\eta)^n
 \exp\left(\ \boldsymbol\eta^{\rm T} \Big(\sum_{i=1}^n \mathbf{T}(x_i)\Big) \ \right)
f(\boldsymbol\chi,\nu) a(\boldsymbol\eta)^\nu \exp(\boldsymbol\eta^{\rm T} \boldsymbol\chi) \\
& \propto a(\boldsymbol\eta)^n
 \exp\left(\ \boldsymbol\eta^{\rm T} \Big(\sum_{i=1}^n \mathbf{T}(x_i)\Big) \ \right)
 a(\boldsymbol\eta)^\nu \exp(\boldsymbol\eta^{\rm T} \boldsymbol\chi) \\
& \propto a(\boldsymbol\eta)^{\nu + n} \exp\left(\ \boldsymbol\eta^{\rm T} \Big(\boldsymbol\chi + \sum_{i=1}^n \mathbf{T}(x_i)\Big) \ \right)
\end{align}

Ainsi, la postérieure a effectivement la même forme que la prieure :

p(\boldsymbol\eta|\mathbf{X},\boldsymbol\chi,\nu) = \pi(\boldsymbol\eta|[\boldsymbol\chi + \sum_{i=1}^n \mathbf{T}(x_i)], [\nu + n])


Notons que les observations \mathbf{X} n'entrent dans la formule que à travers \mathbf{T}(\mathbf{X}) = \sum_{i=1}^n \mathbf{T}(x_i), autrement dit la statistique suffisante des observations. Ceci confirme que la valeur de la statistique suffisante détermine complètement la distribution a posteriori. Les valeurs individuelles des observations ne sont pas nécessaires ; tout ensemble de données avec la même valeur pour la statistique suffisante produira la même distribution. Or, rappelons que la dimension de la statistique suffisante ne croît pas avec la taille d'échantillon : elle a au plus le nombre de composantes de \boldsymbol\eta (à savoir, le nombre de paramètres de la distribution d'une seule donnée).

Les nouveaux hyperparamètres sont


\boldsymbol\chi \implies  \boldsymbol\chi + \mathbf{T}(\mathbf{X}) = \boldsymbol\chi + \sum_{i=1}^n \mathbf{T}(x_i)

\nu \implies \nu + n

La mise à jour bayesienne ne nécessite que de savoir le nombre d'observations et la valeur de la statistique suffisante des données.

Tests d'hypothèses : tests uniformément plus puissants[modifier | modifier le code]

Pour une famille exponentielle à paramètre simple θ, si η(θ) est non-décroissant, le ratio de vraisemblance est une fonction monotone non-décroissante de la statistique suffisante T(x). En conséquence, il existe un test d'hypothèse "uniformément plus puissant" pour tester H0: θ ≥ θ0 contre H1: θ < θ0.

Article détaillé : test d'hypothèse.

Modèle linéaire généralisé[modifier | modifier le code]

La famille exponentielle est à la base des fonctions de distribution utilisées dans le Modèle linéaire généralisé, qui comprend la plupart des modèles de régression en statistique et en économétrie.

Moments et cumulants de la statistique suffisante[modifier | modifier le code]

Calcul des cumulants de T par différenciation[modifier | modifier le code]

La fonction génératrice des moments de T(x) est définie comme

m_T(u) \equiv E[e^{u' T(x)}|\eta] = \int_x b(x) e^{(\eta+u)' T(x)-A(\eta)} dx = e^{A(\eta + u)-A(\eta)}

Par conséquent, K(u|\eta) = A(\eta+u) - A(\eta) est la fonction génératrice des cumulants de T.

N.B. : Dans la sous-famille exponentielle naturelle (où T(x)=x ), c'est la fonction génératrice des moments de x.


Par définition de la fonction génératrice des cumulants,

 E(T_{j}) = \frac{ \partial A(\eta) }{ \partial \eta_{j} }    et    \mathrm{cov}(T_{i},T_{j}) = \frac{ \partial^{2} A(\eta) }{ \partial \eta_{i} \, \partial \eta_{j} }.

Les moments et cumulants d'ordre supérieur sont fournis par les dérivées supérieures. Cette technique est particulièrement utile lorsque T est une fonction compliquée, dont les moments sont difficiles à calculer par intégration.

Ce résultat est démontrable sans recourir à la théorie des cumulants. Voici une illustration pour le cas simple d'un paramètre scalaire, mais il est possible de le faire pour le cas général.

Soit

p(x) = a(\eta) b(x) e^{\eta T(x)}.

Par contrainte de normalisation,

1 = \int_x p(x) dx = \int_x a(\eta) b(x) e^{\eta T(x)} dx = a(\eta) \int_x b(x) e^{\eta T(x)} dx .

On dérive les deux côtés par rapport à η :


\begin{align}
0 &= a(\eta) \frac{d}{d\eta} \int_x b(x) e^{\eta T(x)} dx + a'(\eta)\int_x b(x) e^{\eta T(x)} dx \\
&= a(\eta) \int_x b(x) \left(\frac{d}{d\eta} e^{\eta T(x)}\right) dx + a'(\eta)\int_x b(x) e^{\eta T(x)} dx \\
&= a(\eta) \int_x b(x) e^{\eta T(x)} T(x) dx + a'(\eta)\int_x b(x) e^{\eta T(x)} dx \\
&= \int_x T(x) a(\eta) b(x) e^{\eta T(x)} dx + \frac{a'(\eta)}{a(\eta)}\int_x a(\eta) b(x) e^{\eta T(x)} dx \\
&= \int_x T(x) p(x) dx + \frac{a'(\eta)}{a(\eta)}\int_x p(x) dx \\
&= \mathbb{E}[T(x)] + \frac{a'(\eta)}{a(\eta)} \\
&= \mathbb{E}[T(x)] + \frac{d}{d\eta} \ln a(\eta)
\end{align}

Par conséquent,

\mathbb{E}[T(x)] = - \frac{d}{d\eta} \ln a(\eta) = \frac{d}{d\eta} A(\eta).

Exemples[modifier | modifier le code]

  • 1

La distribution Gamma est définie par la fonction de densité

p(x) = \frac{\lambda^r}{\Gamma(r)} x^{r-1}e^{-\lambda x}.

Le tableau ci-dessus donne pour paramètre naturel

\eta_1 = r-1,
\eta_2 = -\lambda,

dont les réciproques sont

r = \eta_1+1,
\lambda = -\eta_2.

Les statistiques suffisantes sont (\ln x, x), et la fonction de log-partition vaut

A(\eta_1,\eta_2) = \ln \Gamma(\eta_1+1)-(\eta_1+1)\ln(-\eta_2).

Cherchons la moyenne de la statistique suffisante.

Primo, pour η1 :


\begin{align}
\mathbb{E}[\ln x] &= \frac{ \partial A(\eta_1,\eta_2) }{ \partial \eta_1 } = \frac{ \partial }{ \partial \eta_1 } \left(\ln \Gamma(\eta_1+1)-(\eta_1+1)\ln(-\eta_2)\right) \\
&= \psi(\eta_1+1) - \ln(-\eta_2) \\
&= \psi(r) - \ln \lambda,
\end{align}

\psi(x) est la fonction digamma (dérivée du log gamma).

Secundo, pour η2 :


\begin{align}
\mathbb{E}[x] &= \frac{ \partial A(\eta_1,\eta_2) }{ \partial \eta_2 } = \frac{ \partial }{ \partial \eta_2 } \left(\ln \Gamma(\eta_1+1)-(\eta_1+1)\ln(-\eta_2)\right) \\
&= -(\eta_1+1)\frac{1}{-\eta_2}(-1) = \frac{\eta_1+1}{-\eta_2} \\
&= \frac{r}{\lambda},
\end{align}


Pour trouver la variance de x, il faut différencier à nouveau :


\begin{align}
\operatorname{Var}(x) &= \frac{ \partial^2 A(\eta_1,\eta_2) }{ \partial \eta_2^2 } = \frac{ \partial }{ \partial \eta_2 } \frac{\eta_1+1}{-\eta_2} \\
&= \frac{\eta_1+1}{\eta_2^2} \\
&= \frac{r}{\lambda^2}.
\end{align}

Tous ces calculs peuvent se faire par intégration, en partant de la fonction gamma, mais cela demande plus d'effort.


  • 2

Soit une variable aléatoire réelle \scriptstyle X de densité logistique asymétrique.

 p_\theta (x) = \frac{ \theta e^{-x} }{(1 + e^{-x})^{\theta + 1} }

 \theta \in (0,\infty) est un paramètre de forme. Cette densité se factorise comme suit :

 \frac{ e^{-x} } { 1 + e^{-x} } \exp( -\theta \log(1 + e^{-x}) + \log(\theta))

C'est donc une famille exponentielle de paramètre naturel  \eta = -\theta, \,

statistique suffisante  T = \log(1 + e^{-x}), \,

et fonction de log-partition  A(\eta) = -\log(\theta) = -\log(-\eta) \,

Ainsi, par la première équation,

 E(\log(1 + e^{-X})) = E(T) = \frac{ \partial A(\eta) }{ \partial \eta } = \frac{ \partial }{ \partial \eta } [-\log(-\eta)] = \frac{1}{-\eta} = \frac{1}{\theta},

et par la seconde,

 \mathrm{var}(\log(1 + e^{-X})) = \frac{ \partial^2 A(\eta) }{ \partial \eta^2 } = \frac{ \partial }{ \partial \eta } \left[\frac{1}{-\eta}\right] = \frac{1}{(-\eta)^2} = \frac{1}{\theta^2}.

Dans cet exemple, l'usage de la méthode est des plus simple, alors que le calcul direct aurait été quasi impossible.


  • 3

La distribution Wishart est définie sur des matrices aléatoires. Ce dernier exemple aborde un cas où l'intégration serait particulièrement ardue. N.B. : la dérivation elle-même est difficile, car elle exige du calcul matriciel, mais l'intégration est pire.

Le tableau nous a donné le paramètre naturel

\boldsymbol\eta_1 = -\frac12\mathbf{V}^{-1},
\eta_2 = \frac{n-p-1}{2},

dont la transformation réciproque est

\mathbf{V} = -\frac12{\boldsymbol\eta_1}^{-1},
n = 2\eta_2+p+1.

Les statistiques suffisantes sont (\mathbf{X}, \ln|\mathbf{X}|).

La fonction de log-partition est donnée sous différentes formes, afin de faciliter la différentiation et les transformations. Nous utiliserons les formes suivantes :

A(\boldsymbol\eta_1, n) = -\frac{n}{2}\ln|-\boldsymbol\eta_1| + \ln\Gamma_p\left(\frac{n}{2}\right),
A(\mathbf{V},\eta_2) = \left(\eta_2+\frac{p+1}{2}\right)(p\ln 2 + \ln|\mathbf{V}|) + \ln\Gamma_p\left(\eta_2+\frac{p+1}{2}\right).


1. Espérance de X (associé à η1)

La dérivée par rapport à η1 repose sur ce résultat de calcul matriciel :

\frac{\partial \ln |a\mathbf{X}|}{\partial \mathbf{X}} =(\mathbf{X}^{-1})^{\rm T}

Dès lors :


\begin{align}
\mathbb{E}[\mathbf{X}] &= \frac{ \partial A(\boldsymbol\eta_1,\ldots) }{ \partial \boldsymbol\eta_1 } = \frac{ \partial }{ \partial \boldsymbol\eta_1 } \left[-\frac{n}{2}\ln|-\boldsymbol\eta_1| + \ln\Gamma_p\left(\frac{n}{2}\right) \right] \\
&= -\frac{n}{2}(\boldsymbol\eta_1^{-1})^{\rm T} = \frac{n}{2}(-\boldsymbol\eta_1^{-1})^{\rm T} \\
&= n(\mathbf{V})^{\rm T} \\
&= n\mathbf{V}
\end{align}

(Pour rappel, V est symétrique.)


2. Espérance de ln|X| (associé à η2)

D'abord, il est nécessaire de développer la partie de la log-partition qui contient la fonction gamma multivariée:


\ln \Gamma_p(y)=
\ln \left(\pi^{p(p-1)/4}\prod_{j=1}^p
\Gamma\left[ y+(1-j)/2\right]\right) = p(p-1)/4 \ln \pi + \sum_{j=1}^p \ln \Gamma\left[ y+(1-j)/2\right]

Rappelons aussi la définition de la fonction digamma \psi(x) = \frac{d}{dx} \ln \Gamma(x).

Dès lors :


\begin{align}
\mathbb{E}[\ln |\mathbf{X}|] &= \frac{ \partial A(\ldots,\eta_2) }{ \partial \eta_2 } = \frac{ \partial }{ \partial \eta_2 } \left[ -\left(\eta_2+\frac{p+1}{2}\right)(p\ln 2 + \ln|\mathbf{V}|) + \ln\Gamma_p\left(\eta_2+\frac{p+1}{2}\right) \right] \\
&= \frac{ \partial }{ \partial \eta_2 } \left[ \left(\eta_2+\frac{p+1}{2}\right)(p\ln 2 + \ln|\mathbf{V}|) + p(p-1)/4 \ln \pi + \sum_{j=1}^p \ln \Gamma\left(\eta_2+\frac{p+1}{2}+(1-j)/2\right) \right] \\
&= p\ln 2 + \ln|\mathbf{V}| + \sum_{j=1}^p \psi\left[\eta_2+\frac{p+1}{2}+(1-j)/2\right] \\
&= p\ln 2 + \ln|\mathbf{V}| + \sum_{j=1}^p \psi\left[\frac{n-p-1}{2}+\frac{p+1}{2}+(1-j)/2\right] \\
&= p\ln 2 + \ln|\mathbf{V}| + \sum_{j=1}^p \psi\left[\frac{n}{2}+(1-j)/2\right] \\
&= p\ln 2 + \ln|\mathbf{V}| + \sum_{j=1}^p \psi\left(\frac{n+1-j}{2}\right)
\end{align}

Ces deux espérances sont nécessaires pour dériver les équations d'adaptation variationnelle d'un réseau bayésien qui comporte une distribution Wishart (laquelle est la prieure conjuguée de la Normale multivariée).

Entropie maximale[modifier | modifier le code]

On cherche la distribution dont l'entropie est maximale, conditionnellement à une série de contraintes sur les espérances. La réponse est une famille exponentielle.

L'entropie informationnelle d'une distribution de probabilité dF(x) se calcule par rapport à une autre distribution de probabilité (ou, de façon plus générale, une mesure positive), telle que les deux mesures soient mutuellement absolument continues. Soit une mesure de base dH(x) de même support que dF(x).

L'entropie de dF(x) relativement à dH(x) est définie comme

S[dF|dH]=-\int {dF\over dH}\ln{dF\over dH}\,dH =\int\ln{dH\over dF}\,dF

dF/dH et dH/dF sont les dérivées de Radon–Nikodym.

Notez que la définition habituelle de l'entropie d'une distribution discrète sur un ensemble Y, à savoir S = - \sum_{i \in Y} pi ln pi , suppose implicitement que la mesure dH choisie est la mesure de comptage de Y.
De même, pour une distribtuion continue, H(x)=x donne S=-\int {dF\over dx}\ln{dF\over dx}\,dx =-\int f(x)\ln f(x)\,dx


Soit un échantillon de quantités observables (variables aléatoires) Tj.
La distribution dF d'entropie maximale par rapport à dH, conditionnellement à ce que l'espérance de Tj soit égale à tj, sera un membre de la famille exponentielle ayant dH pour mesure de base et (T1, ..., Tn) pour statistique(s) suffisante(s).

Ce résultat se déduit par le calcul des variations à l'aide de multiplicateurs de Lagrange. La normalisation est garantie en imposant la contrainte T0 = 1. Les paramètres naturels de la distribution sont les multiplicateurs de Lagrange associés aux tj et le facteur de normalisation est le multiplicateur de Lagrange associé à T0.

Voir Maximum entropy probability distribution (en)

Notes et références[modifier | modifier le code]

  1. G. Darmois, « Sur les lois de probabilités à estimation exhaustive », C.R. Acad. Sci. Paris, vol. 200,‎ 1935, p. 1265–1266
  2. (en) E. Pitman et J. Wishart, « Sufficient statistics and intrinsic accuracy », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 32, no 4,‎ 1936, p. 567–579 (lien DOI?)
  3. (en) B Koopman, « On distribution admitting a sufficient statistic », Transactions of the American Mathematical Society, vol. 39, no 3,‎ 1936, p. 399–409 (liens DOI? et JSTOR?)
  4. Kupperman, M. (1958) "Probabilities of Hypotheses et Information-Statistics in Sampling from Exponential-Class Populations", Annals of Mathematical Statistics, 9 (2), 571–575 JSTOR 2237349
  5. (en) Erling etersen, « Sufficiency et Exponential Families for Discrete Sample Spaces », Journal of the American statistique Association, vol. 65, no 331,‎ septembre 1970, p. 1248–1255 (liens DOI? et JSTOR?)

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

  • (en) E. L. Lehmann, Casella, G., Theory of Point Estimation,‎ 1998, 2nd ed., sec. 1.5 p.
  • (en) Robert W. Keener, Statistical Theory: Notes for a Course in Theoretical Statistics, Springer,‎ 2006, 27–28, 32–33 p.
  • (en) Ludwig Fahrmeier, Tutz, G., Multivariate statistical modelling based on generalized linear models, Springer,‎ 1994, 18–22, 345–349 p.

Liens externes[modifier | modifier le code]