Lemme de Neyman-Pearson

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir Pearson.

En statistiques, selon le lemme de Neyman-Pearson, lorsque l'on veut effectuer un test d'hypothèse entre deux hypothèses H0 : θ = θ0 et H1 : θ = θ1, pour un échantillon \mathbf{x}=(X_1,\ldots,X_n), alors le test du rapport de vraisemblance, qui rejette H0 en faveur de H1 lorsque \frac{\mathcal L(\mathbf x,\theta_0)}{\mathcal L(\mathbf x,\theta_1)}\le k_\alpha, où k_\alpha est tel que

P\left(\frac{ \mathcal{L}( \textbf{x},\theta _{0})}{ \mathcal{L} (\textbf{x},\theta _{1})} \leq k_\alpha\bigg|H_0\right)=\alpha,

est le test le plus puissant de niveau \alpha.

Ce lemme est nommé d'après Jerzy Neyman et Egon Sharpe Pearson.

En pratique, la plupart du temps, le rapport de vraisemblance lui-même n'est pas explicitement utilisé dans le test. En effet, le test de rapport de vraisemblance ci-dessus est souvent équivalent à un test de la forme T\le t_\alpha pour une statistique T plus simple, et le test est effectué sous cette forme-ci.

Démonstration[modifier | modifier le code]

La région de rejet existe[modifier | modifier le code]

\forall \alpha > 0, \exists k : P\left(\frac{ \mathcal{L}( \textbf{x},\theta _{0})}{ \mathcal{L} (\textbf{x},\theta _{1})} > k \mid H_0\right)=\alpha

  • Lorsque k=0, la probabilité vaut 1.
  • Lorsque k\to\infty, la probabilité décroît vers 0.
  • Il y a donc forcément une valeur k qui satisfait l'égalité \forall\alpha\in]0;1[

La région est optimale et unique[modifier | modifier le code]

Soient les deux régions R \text{ et }R_0 définis comme suit:

  • R_0 =\left\{\textbf{x}\in\mathbb{R}^n\mid\frac{ \mathcal{L}( \textbf{x},\theta _{0})}{ \mathcal{L} (\textbf{x},\theta _{1})}>k_\alpha\right\}
  • R =\left\{\textbf{x}\in\mathbb{R}^n\mid P(\textbf{x}\in R\mid\theta_0)=\alpha\right\}

Le risque de seconde espèce \beta vaut pour chacune des régions: \beta = P(\textbf{x}\in R_0\mid\theta_0) = 1-P(\textbf{x}\in R_0\mid\theta_1). C'est le risque de rejeter l'hypothèse alors qu'elle est vraie, risque qu'on doit minimiser.


Par définition, R et  R_0 ont la même probabilité pour l'hypothèse nulle. Prouvons que R_0 est aussi optimale en termes de réduction du risque de seconde espèce.


On a également la relation: P(\textbf{x}\in R_0\setminus R\mid\theta_0) = P(\textbf{x}\in R\setminus R_0\mid\theta_0) = \alpha - P(\textbf{x}\in R_0\cap R\mid\theta_0)


Pour toute partie Q, on a:

  • P(\textbf{x}\in Q\mid\theta_0) = \int_{Q}\mathcal{L}(\textbf{x},\theta_0)d\textbf{x}
  • P(\textbf{x}\in Q\mid\theta_1) = \int_{Q}\frac{ \mathcal{L}( \textbf{x},\theta _{0})}{ \mathcal{L} (\textbf{x},\theta _{1})}\mathcal{L}(\textbf{x},\theta_0)d\textbf{x}


Par le théorème de la moyenne, on a: 
\int_{Q}\frac
     {\mathcal{L}( \textbf{x},\theta _{0}) }
     { \mathcal{L} (\textbf{x},\theta _{1})}
\mathcal{L}(
     \textbf{x},\theta_0
)d\textbf{x} = 
\frac
     { \mathcal{L}( \tilde{\textbf{x}},\theta _{0})}
     { \mathcal{L}( \tilde{\textbf{x}},\theta _{1})}
\int_{Q}\mathcal{L}(\textbf{x},\theta_0)d\textbf{x} , \tilde{\textbf{x}} \in Q


On obtient donc:

  • 
P(\textbf{x}\in R\setminus R_0\mid\theta_1) = \frac
     { \mathcal{L}( \tilde{\textbf{x}}_1,\theta _{0})}
     { \mathcal{L}( \tilde{\textbf{x}}_1,\theta _{1})}
\int_{Q}\mathcal{L}(\textbf{x},\theta_0)d\textbf{x} , \tilde{\textbf{x}}_1 \in R\setminus R_0
  • 
P(\textbf{x}\in R_0\setminus R\mid\theta_2) = \frac
     { \mathcal{L}( \tilde{\textbf{x}}_2,\theta _{0})}
     { \mathcal{L}( \tilde{\textbf{x}}_2,\theta _{1})}
\int_{Q}\mathcal{L}(\textbf{x},\theta_0)d\textbf{x} , \tilde{\textbf{x}}_2 \in R_0\setminus R


Avec la définition de la région de rejet optimal, on a:

  • \frac
     { \mathcal{L}( \tilde{\textbf{x}}_1,\theta _{0})}
     { \mathcal{L}( \tilde{\textbf{x}}_1,\theta _{1})} \le k_\alpha
  • \frac
     { \mathcal{L}( \tilde{\textbf{x}}_2,\theta _{0})}
     { \mathcal{L}( \tilde{\textbf{x}}_2,\theta _{1})} > k_\alpha


En combinant les équations, on a donc:

  • P(\textbf{x}\in R\setminus R_0\mid\theta_1) > P(\textbf{x}\in R_0\setminus R\mid\theta_1)
  • P(\textbf{x}\in R\setminus R_0\mid\theta_1) + P(\textbf{x}\in R\cap R_0\mid\theta_1) > P(\textbf{x}\in R_0\setminus R\mid\theta_1) + P(\textbf{x}\in R\cap R_0\mid\theta_1)
  • P(\textbf{x}\in R\mid\theta_1) > P(\textbf{x}\in R_0\mid\theta_1)

C'est donc bien la région R_0 qui minimise le risque de seconde espèce contre toutes les autres régions alternatives proposées. QED.

Liens externes[modifier | modifier le code]