Lemme de Neyman-Pearson

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir Pearson.

En statistiques, selon le lemme de Neyman-Pearson, lorsque l'on effectue un test d'hypothèse entre deux hypothèses H0 : θ = θ0 et H1 : θ = θ1, alors le test du rapport de vraisemblance qui rejette H0 en faveur de H1 lorsque

Le théorème de Neyman-Pearson permet de prouver que la région optimale de rejet R_0 est définit pour l'ensemble des points (x_1,x_2,...,x_n)=\textbf{x} tel que :

P\left(\frac{ \mathcal{L}( \textbf{x},\theta _{0})}{ \mathcal{L} (\textbf{x},\theta _{1})} \leq k_\alpha|H_0\right)=\alpha

est le test le plus puissant de taille α et minimise le risque de seconde espèce \beta.

Ce lemme est nommé d'après Jerzy Neyman et Egon Sharpe Pearson.

En pratique, la plupart du temps, le rapport de vraisemblance lui-même n'est pas utilisé dans le test.

Démonstration[modifier | modifier le code]

La région de rejet existe[modifier | modifier le code]

\forall \alpha > 0, \exists k : P\left(\frac{ \mathcal{L}( \textbf{x},\theta _{0})}{ \mathcal{L} (\textbf{x},\theta _{1})} > k \mid H_0\right)=\alpha

  • Lorsque k=0, la probabilité vaut 1.
  • Lorsque k\to\infty, la probabilité décroît monotonément vers 0.
  • Il y a donc forcément une valeur k qui satisfait l'égalité \forall\alpha\in]0;1[

La région est optimale et unique[modifier | modifier le code]

Soient les deux régions R \text{ et }R_0 définis comme suit:

  • R_0 =\left\{\textbf{x}\in\mathbb{R}^n\mid\frac{ \mathcal{L}( \textbf{x},\theta _{0})}{ \mathcal{L} (\textbf{x},\theta _{1})}>k_\alpha\right\}
  • R =\left\{\textbf{x}\in\mathbb{R}^n\mid P(\textbf{x}\in R\mid\theta_0)=\alpha\right\}

Le risque de seconde espèce \beta vaut pour chacune des régions: \beta = P(\textbf{x}\in R_0\mid\theta_0) = 1-P(\textbf{x}\in R_0\mid\theta_1). C'est le risque de rejeter l'hypothèse alors qu'elle est vraie, risque qu'on doit minimiser.


Par définition, R et  R_0 ont la même probabilité pour l'hypothèse nulle. Prouvons que R_0 est aussi optimale en terme de réduction du risque de seconde espèce.


On a également la relation: P(\textbf{x}\in R_0\setminus R\mid\theta_0) = P(\textbf{x}\in R\setminus R_0\mid\theta_0) = \alpha - P(\textbf{x}\in R_0\cap R\mid\theta_0)


Pour toute partie Q, on a:

  • P(\textbf{x}\in Q\mid\theta_0) = \int_{Q}\mathcal{L}(\textbf{x},\theta_0)d\textbf{x}
  • P(\textbf{x}\in Q\mid\theta_1) = \int_{Q}\frac{ \mathcal{L}( \textbf{x},\theta _{0})}{ \mathcal{L} (\textbf{x},\theta _{1})}\mathcal{L}(\textbf{x},\theta_0)d\textbf{x}


Par le théorème de la moyenne, on a: 
\int_{Q}\frac
     {\mathcal{L}( \textbf{x},\theta _{0}) }
     { \mathcal{L} (\textbf{x},\theta _{1})}
\mathcal{L}(
     \textbf{x},\theta_0
)d\textbf{x} = 
\frac
     { \mathcal{L}( \tilde{\textbf{x}},\theta _{0})}
     { \mathcal{L}( \tilde{\textbf{x}},\theta _{1})}
\int_{Q}\mathcal{L}(\textbf{x},\theta_0)d\textbf{x} , \tilde{\textbf{x}} \in Q


On obtient donc:

  • 
P(\textbf{x}\in R\setminus R_0\mid\theta_1) = \frac
     { \mathcal{L}( \tilde{\textbf{x}}_1,\theta _{0})}
     { \mathcal{L}( \tilde{\textbf{x}}_1,\theta _{1})}
\int_{Q}\mathcal{L}(\textbf{x},\theta_0)d\textbf{x} , \tilde{\textbf{x}}_1 \in R\setminus R_0
  • 
P(\textbf{x}\in R_0\setminus R\mid\theta_2) = \frac
     { \mathcal{L}( \tilde{\textbf{x}}_2,\theta _{0})}
     { \mathcal{L}( \tilde{\textbf{x}}_2,\theta _{1})}
\int_{Q}\mathcal{L}(\textbf{x},\theta_0)d\textbf{x} , \tilde{\textbf{x}}_2 \in R_0\setminus R


Avec la définition de la région de rejet optimal, on a:

  • \frac
     { \mathcal{L}( \tilde{\textbf{x}}_1,\theta _{0})}
     { \mathcal{L}( \tilde{\textbf{x}}_1,\theta _{1})} \le k_\alpha
  • \frac
     { \mathcal{L}( \tilde{\textbf{x}}_2,\theta _{0})}
     { \mathcal{L}( \tilde{\textbf{x}}_2,\theta _{1})} > k_\alpha


En combinant les équations, on a donc:

  • P(\textbf{x}\in R\setminus R_0\mid\theta_1) > P(\textbf{x}\in R_0\setminus R\mid\theta_1)
  • P(\textbf{x}\in R\setminus R_0\mid\theta_1) + P(\textbf{x}\in R\cap R_0\mid\theta_1) > P(\textbf{x}\in R_0\setminus R\mid\theta_1) + P(\textbf{x}\in R\cap R_0\mid\theta_1)
  • P(\textbf{x}\in R\mid\theta_1) > P(\textbf{x}\in R_0\mid\theta_1)

C'est donc bien la région R_0 qui minimise le risque de seconde espèce contre toutes les autres régions alternatives proposées. QED.

Liens externes[modifier | modifier le code]