Maximum de vraisemblance

Un article de Wikipédia, l'encyclopédie libre.
Aller à : Navigation, rechercher

L'estimation du maximum de vraisemblance est une méthode statistique courante utilisée pour inférer les paramètres de la distribution de probabilité d'un échantillon donné. Cette méthode a été développée par le statisticien Ronald Aylmer Fisher en 1922[1],[2].

Sommaire

Histoire [modifier]

En 1912, au moment où Ronald Fisher rédige son premier article consacré au maximum de vraisemblance, les deux méthodes statistiques les plus utilisées sont la méthode des moindres carrés et la méthode des moments[2]. Dans son article de 1912, il propose l'estimateur du maximum de vraisemblance qu'il appelle à l'époque le critère absolu[3],[2]. Il prend l'exemple d'une loi normale[2]. En 1921, il applique la même méthode à l'estimation d'un coefficient de corrélation[4],[2]. En 1912, un malentendu a laissé croire que le critère absolu pouvait être interprété comme un estimateur bayésien avec une loi a priori uniforme[2]. Fisher réfute cette interprétation en 1921[2]. En 1922, il utilise la loi binomiale pour illustrer son critère et montre en quoi il est différent d'un estimateur bayésien[5],[2]. C'est aussi en 1922, qu'il donne le nom de maximum de vraisemblance à sa méthode[2].

Principe [modifier]

Soit une famille paramétrée de distributions de probabilités Dθ dont les éléments sont associés soit à une densité de probabilité connue (distribution continue), soit à une fonction de masse connue (distribution discrète), notée fθ. On tire un échantillon de n valeurs x1, x2, ..., xn de la distribution, et l'on calcule la densité de probabilité associée aux données observées

 f_\theta(x_1,\dots,x_n \mid \theta).\,

Ceci étant une fonction de θ avec x1, ..., xn fixés, c'est une vraisemblance.

L(\theta) = f_\theta(x_1,\dots,x_n \mid \theta).\,

Lorsque θ n'est pas observable, la méthode du maximum de vraisemblance utilise les valeurs de θ qui maximisent L(θ) estimateur de θ : c'est l'estimateur du maximum de vraisemblance de θ noté \widehat{\theta}. Par exemple dans le cas du produit discret, on effectue un tirage de n valeurs, il faut donc trouver le paramètre qui maximise la probabilité d'avoir tiré ce tirage.

Cette méthode se distingue de la recherche d'un estimateur non biaisé de θ, ce qui ne donne pas nécessairement la valeur la plus probable pour θ.


L'estimateur du maximum de vraisemblance peut exister et être unique, ne pas être unique, ou ne pas exister.

Définitions [modifier]

Soit X une variable aléatoire réelle, de loi discrète ou continue, dont on veut estimer un paramètre \theta. On note \mathcal{D}_\theta cette famille de lois paramétriques. Alors on définit une fonction f telle que : 
f(x;\theta) = \begin{cases} f_\theta(x) & \text{si }X \text{ est une v.a. continue} \\ P_\theta(X=x) & \text{si }X \text{ est une v.a. discrète} \end{cases}

f_\theta(x) représente la densité de X (où \theta apparaît) et P_\theta(X=x) représente une probabilité discrète (où \theta apparaît).

On appelle vraisemblance de \theta au vu des observations (x_1,...,x_i,...,x_n) d'un n-échantillon indépendamment et identiquement distribué selon la loi \mathcal{D}_\theta, le nombre :

L(x_1,...,x_i,...,x_n;\theta) = f(x_1;\theta) \times f(x_2;\theta) \times ...\times f(x_n;\theta) = \prod_{i=1}^n f(x_i;\theta)

On cherche à trouver le maximum de cette vraisemblance pour que les probabilités des réalisations observées soient aussi maximum. Ceci est un problème d'optimisation. On utilise généralement le fait que si L est dérivable (ce qui n'est pas toujours le cas) et si L admet un maximum global en une valeur \theta = \hat \theta, alors la dérivée première s'annule en \theta = \hat \theta et que la dérivée seconde est négative. Réciproquement, si la dérivée première s'annule en \theta = \hat \theta et que la dérivée seconde est négative en \theta = \hat \theta, alors \theta = \hat \theta est un maximum local (et non global) de L(x_1,...,x_i,...,x_n;\theta). Il est alors nécessaire de vérifier qu'il s'agit bien d'un maximum global. La vraisemblance étant positive et le logarithme népérien une fonction croissante, il est équivalent et souvent plus simple de maximiser le logarithme népérien de la vraisemblance (le produit se transforme en somme, ce qui est plus simple à dériver). On peut facilement construire la statistique Y_n = \Theta qui est l'estimateur voulu.

Ainsi en pratique :

  • La condition nécessaire
\frac{\partial L(x_1,...,x_i,...,x_n;\theta)}{\partial \theta} = 0

ou

  \frac{\partial \ln L(x_1,...,x_i,...,x_n;\theta)}{\partial \theta} = 0

permet de trouver la valeur \theta = \hat \theta.

  • \theta = \hat \theta est un maximum local si la condition suffisante est remplie au point critique \theta = \hat \theta :
\frac{\partial^2 L(x_1,...,x_i,...,x_n;\theta)}{\partial \theta^2} \le 0

ou

  \frac{\partial^2 \ln L(x_1,...,x_i,...,x_n;\theta)}{\partial \theta^2} \le 0

Pour simplifier, dans les cas de lois continues, où parfois la densité de probabilité est nulle sur un certain intervalle, on peut omettre d'écrire la vraisemblance pour cet intervalle uniquement.

Généralisation [modifier]

Pour une variable aléatoire réelle X de loi quelconque définie par une fonction de répartition F(x), on peut considérer des petits voisinages V autour de (x1,..., xn) dans \mathbb{R}^n, par exemple une boule de rayon ε. On obtient ainsi une fonction de vraisemblance L(\theta; V) = P[(X_{1,\theta}, ..., X_{n,\theta}) \in V] dont on cherche un maximum \theta = \hat \theta(V). On fait ensuite tendre la taille de V vers 0 dans \hat \theta(V) pour obtenir l'estimateur \hat \theta de maximum de vraisemblance.

On retombe sur les fonctions de vraisemblance précédentes quand X est à loi discrète ou continue.

Propriétés [modifier]

L'estimateur obtenu par la méthode du maximum de vraisemblance est :

En revanche, il peut être biaisé en échantillon fini.

Intervalles de confiance [modifier]

Comme l'estimateur du maximum de vraisemblance est asymptotiquement normal, on peut construire un intervalle de confiance C_n tel qu'il contienne le vrai paramètre avec une probabilité 1-\alpha[10] : 
C_n = \left( \hat{\theta_n} - \Phi^{-1}(1-\alpha/2) \widehat{\sigma_{\hat{\theta_n}}}, \hat{\theta_n} + \Phi^{-1}(1-\alpha/2) \widehat{\sigma_{\hat{\theta_n}}} \right)
avec \Phi^{-1}(1-\alpha/2) le quantile d'ordre 1-\alpha/2 de la loi normale centrée réduite et \widehat{\sigma_{\hat{\theta_n}}} l'écart-type estimé de \hat{\theta_n}. On a alors 
\mathbb P(\theta \in C_n) \underset{n \rightarrow +\infty}{\longrightarrow} 1-\alpha

Tests [modifier]

Test de Wald [modifier]

Comme l'estimateur du maximum de vraisemblance est asymptotiquement normal, on peut appliquer le test de Wald[11].

On considère l'hypothèse nulle : 
H_0 : \theta = \theta_0
contre l'hypothèse alternative 
H_a : \theta \neq \theta_0

\hat{\theta} est asymptotiquement normal : 
\frac{\hat{\theta} - \theta_0}{\widehat{\sigma_{\hat{\theta}}}} \sim \mathcal N(0,1)
avec \widehat{\sigma_{\hat{\theta}}} l'écart-type estimé de l'estimateur \hat{\theta}

On définit la statistique de test : W=\frac{\hat{\theta} - \theta_0}{\widehat{\sigma_{\hat{\theta}}}}

On rejette alors l'hypothèse nulle avec un risque de première espèce \alpha lorsque la valeur absolue de la statistique de test est supérieure au quantile d'ordre 1-\alpha/2 de la loi normale centrée réduite : 
|W| > \Phi^{-1} (1-\alpha/2)
avec \Phi^{-1}(.) la fonction quantile de la loi normale centrée réduite.

La p-value s'écrit alors[12] : 
\text{p-value} = 2 \Phi(-|w|)
avec w la valeur de la statistique de test dans les données.

Test du rapport de vraisemblance [modifier]

Si on appelle \theta le vecteur des paramètres estimés, on considère un test du type[13] : 
H_0 : \theta \in \Theta_0
contre 
H_a : \theta \notin \Theta_0

On définit alors \hat{\theta} l'estimateur du maximum de vraisemblance et \widehat{\theta_0} l'estimateur du maximum de vraisemblance sous H_0. On définit enfin la statistique du test : 
\lambda = 2 \log \left( \frac{\mathcal L(\hat{\theta})}{\mathcal L(\widehat{\theta_0})} \right)

On sait que sous l'hypothèse nulle, la statistique du test du rapport de vraisemblance suit une loi du \chi^2 avec un nombre de degrés de liberté égal au nombre de contraintes imposées par l'hypothèse nulle (p) : 
\lambda(x_1, \ldots, x_n) \sim \chi^2 (p)

Par conséquent, on rejette le test au niveau \alpha lorsque la statistique de test est supérieure au quantile d'ordre 1-\alpha de la loi du \chi^2 à p degrés de libertés.

On peut donc définir la valeur limite (p-value)[note 1] de ce test : 
\text{p-value} = 1 - F_{\chi^2_{p}} (\lambda)

Exemples [modifier]

Loi de Poisson [modifier]

On souhaite estimer le paramètre \lambda d'une loi de Poisson à partir d'un n-échantillon.

f(x,\lambda) = P_\lambda(X=x) = e^{-\lambda} \frac{\lambda^x}{x!}

L'estimateur du maximum de vraisemblance est : \hat {\lambda}_{ML}= \bar x

Loi exponentielle [modifier]

On souhaite estimer le paramètre \alpha d'une loi exponentielle à partir d'un n-échantillon.

f(x,\alpha) = f_\alpha(x) = \begin{cases} \alpha e^{-\alpha x} & \text{si} \quad x \ge 0 \\ 0 & \text{sinon} \end{cases}

L'estimateur du maximum de vraisemblance est : \hat {\alpha}_{ML}= \frac{1}{\bar x}

Loi normale [modifier]

L'estimateur du maximum de vraisemblance de l'espérance \mu et la variance \sigma^2 d'une loi normale est[14] :

   \hat{\mu}_{ML} = \bar{x} = \frac{1}{n}\sum^{n}_{i=1}x_i

   \widehat{\sigma}^2_{ML} = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2

L'estimateur de la variance est un bon exemple pour montrer que le maximum de vraisemblance peut fournir des estimateurs biaisés : un estimateur sans biais est donné en effet par:    \widehat\sigma^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2. Néanmoins, asymptotiquement, quand n tend vers l'infini, ce biais, qui est de  \frac{n}{n-1}, tend vers 1 et l'estimateur est alors asymptotiquement sans biais.

Loi uniforme [modifier]

Dans le cas de l'estimation de la borne supérieure d'une loi uniforme, la vraisemblance ne peut pas être dérivée[15].

Représentation graphique de la vraisemblance d'un n-échantillon d'une loi uniforme.

On souhaite estimer le paramètre a d'une loi uniforme à partir d'un n-échantillon.

f(x,a) = f_a(x) = \begin{cases} \frac {1}{a} & \text{si} \quad x \in [0;a] \\ 0 & \text{sinon} \end{cases}

La vraisemblance s'écrit :

L(x_1,...,x_i,...,x_n;a) = \prod_{i=1}^n f_a(x_i) = \begin{cases} 0             & \text{si} \quad a < \max(x_1,\ldots,x_n) \\ 
                                             \frac {1}{a^n} & \text{si} \quad a \geq \max(x_1,\ldots,x_n) \end{cases}

Cette fonction n'est pas dérivable en \max(x_1,\ldots,x_n). Sa dérivée s'annule sur tout l'intervalle [0,\max(x_1,\ldots,x_n)[. Il est clair que pour trouver le maximum de cette fonction il ne faut pas regarder où la dérivée s'annule.

La valeur de L sera maximale pour \hat a = \max(x_1,...,x_n), car \tfrac {1}{a^n} est décroissante pour a > 0.

Cet exemple permet de montrer également que le logarithme de la vraisemblance n'est pas toujours bien définie (sauf si on accepte que \ln (0) = -\infty ).

Applications [modifier]

La méthode du maximum de vraisemblance est très souvent utilisée. Elle est notamment utilisée pour estimer le modèle de régression logistique ou le modèle probit. Plus généralement, elle est couramment utilisée pour estimer le modèle linéaire généralisé, classes de modèle qui inclut la régression logistique et le modèle probit.

Bibliographie [modifier]

Notes et références [modifier]

Notes [modifier]

  1. On rappelle que la p-value est définie comme la plus petite valeur du risque de première espèce (\alpha) pour laquelle on rejette le test (Wasserman 2004, p. 156)

Références [modifier]

  1. (en) John Aldrich, « R.A. Fisher and the making of maximum likelihood 1912-1922 », Statistical Science, vol. 12, no 3, 1997, p. 162-176 [texte intégral (page consultée le 19 décembre 2011)] 
  2. a, b, c, d, e, f, g, h et i (en) Stephen Stigler, « The Epic Story of Maximum Likelihood », Statistical Science, vol. 22, no 4, 2007 [texte intégral (page consultée le 21 décembre 2011)] 
  3. (en) Ronald Fisher, « On an absolute criterion for fitting frequency curves », Messenger of Mathematics, no 41, 1912, p. 155-160 
  4. (en) Ronald Fisher, « On the "probable error" of a coefficient of correlation deduced from a small sample », Metron, no 1, 1921 
  5. (en) Ronald Fisher, « On the mathematical foundations of theoretical statistics », Philos. Trans. Roy. Soc. London Ser. A, 1922 
  6. a, b et c Wasserman 2004, p. 126
  7. Cameron et Trivedi 2005, p. 119
  8. Wasserman 2004, p. 129, théorème 9.18
  9. Cameron et Trivedi 2005, p. 121
  10. Wasserman 2004, p. 129, théorème 9.19
  11. Wasserman 2004, p. 153, définition 10.3
  12. Wasserman 2004, p. 158, théorème 10.13
  13. Wasserman 2004, p. 164
  14. Wasserman 2004, p. 123, exemple 9.11
  15. Wasserman 2004, p. 124, exemple 9.12

Voir aussi [modifier]