Valeur p

Un article de Wikipédia, l'encyclopédie libre.
(Redirigé depuis P-value)
Aller à : navigation, rechercher
DisNormal10.svg

Dans un test statistique, la valeur-p (en anglais p-value), parfois aussi appelée p-valeur, est la probabilité d'obtenir la même valeur (ou une valeur encore plus extrême) du test si l'hypothèse nulle était vraie. Contrairement à ce qui est parfois écrit, la valeur-p n'est pas la probabilité que l'hypothèse nulle soit vraie.

Définition[modifier | modifier le code]

Ce nombre est utilisé en statistiques inférentielles pour conclure sur le résultat d’un test statistique. La procédure généralement employée consiste à comparer la valeur-p à un seuil préalablement défini (traditionnellement 5 %). Si la valeur-p est inférieure à ce seuil, on rejette l'hypothèse nulle en faveur de l’hypothèse alternative, et le résultat du test est déclaré « statistiquement significatif »[1]. Dans le cas contraire, si la valeur-p est supérieure au seuil, on ne rejette pas l’hypothèse nulle, et on ne peut rien conclure quant aux hypothèses formulées.

Cette utilisation de la valeur-p est remise en question, voir la section critiques de cette page, car ne permettant pas de répondre à la question à laquelle elle est censée donner une réponse et il conviendrait de cesser de l'utiliser au moins dans ce contexte [2],[3],[4],[5],[6],[7].

Introduction de la valeur-p par Ronald Fisher[modifier | modifier le code]

Le statisticien Ronald Fisher a introduit les termes de significativité, d’hypothèse nulle, et l’utilisation de la valeur-p. Il rejetait toutefois la notion de puissance statistique : selon lui, l’hypothèse nulle ne peut jamais être acceptée, mais peut seulement être rejetée par le test statistique. Dans cette approche, la valeur-p est considérée comme une mesure d’à quel point les données plaident contre l’hypothèse nulle. Les seuils suivants sont généralement pris pour référence :

  •  : très forte présomption contre l'hypothèse nulle
  •  : forte présomption contre l'hypothèse nulle
  •  : faible présomption contre l'hypothèse nulle
  •  : pas de présomption contre l'hypothèse nulle

La valeur-p dans l’approche Neyman-Pearson[modifier | modifier le code]

Le mathématicien polonais Jerzy Neyman et le statisticien britannique Egon Pearson ont développé un cadre théorique alternatif.

Dans leur approche, les taux d’erreurs doivent être définis avant la collecte des données :

  • α, le taux d’erreur de première espèce (rejeter à tort une hypothèse nulle vraie)
  • β, le taux d’erreur de seconde espèce (accepter à tort l’hypothèse nulle)

La puissance statistique du test, égale à 1 - β, est ainsi contrôlée et définie à l’avance. Il faut ensuite calculer le nombre de données à collecter pour atteindre une telle puissance statistique, ce qui nécessite d’estimer la variance des données : pour ce faire, on se base sur des études précédentes ou sur une étude pilote.

Lorsque les données sont collectées, la valeur-p est calculée, et la décision suivante est prise :

  • si elle est inférieure à α, on rejette l’hypothèse nulle au profit de l’hypothèse alternative
  • si elle est supérieure à α, on rejette l’hypothèse alternative au profit de l’hypothèse nulle

La décision doit être prise de manière mécanique à la fin de la collecte des données. La notion de significativité est rejetée : si le seuil défini à l’avance est de 0.05, une valeur-p de 0.001 n’est pas considérée comme plus significative qu’une valeur-p de 0.049, dans les deux cas la décision prise est la même.

Limites[modifier | modifier le code]

Cette procédure permet théoriquement de prendre des décisions sur l’interprétation des données tout en contrôlant adéquatement les taux d’erreurs sur le long terme. Toutefois, la validité de ces taux d’erreurs dépend du strict respect de la procédure : le recueil de nouvelles données si la valeur-p est « presque significative », ou bien le calcul de la valeur-p avant le recueil de l’intégralité des données et l’arrêt de l’expérience si celle-ci est trouvée significative invalident les taux d’erreur. Ainsi, le contrôle effectif des taux d’erreurs dépend de ce que feraient réellement les chercheurs lorsqu’ils sont confrontés à des résultats qu’ils n’attendaient pas, pas de ce qu’ils disent qu’ils feraient, ni même de ce qu’ils pensent qu’ils feraient. Par ailleurs, si les taux d’erreur à long terme sont connus, la probabilité de défendre la mauvaise hypothèse à la suite du test statistique dans cette expérience particulière n’est pas connue. Ces limites ont conduit au développement de l’approche bayésienne[8].

Usage[modifier | modifier le code]

En sciences exactes, les scientifiques ont longtemps requis une signification statistique correspondant à un écart d'au moins 3 écarts types pour considérer un résultat expérimental comme une possible découverte, ce qui correspond à une valeur-p au plus égale à 2.7 10-3 , soit environ -25,7 décidants) [9]. Mais le grand nombre de faux positifs, c'est-à-dire selon la définition ci-dessus, le grand nombre d'erreurs de première espèce, a poussé la communauté scientifique à requérir une signification statistique correspondant à un écart d'au moins 5 déviations standards, ce qui correspond à une valeur-p au plus égale à 5.7 10-7 [10], soit environ -62,5 décibans (dans le cas où l'écart est possible des 2 côtés, c'est-à-dire un effet non nul soit positif soit négatif) ou 2.9 10-7 (pour 1 seul côté).

On consultera avec intérêt la note récente sur le sujet [11] et tout particulièrement le retour d'expérience présenté en table 1. L'auteur étend aussi la discussion de la simple signifiance statistique au « niveau de surprise » et à l'« impact » de la découverte putative (table 2), ou, comme le disait déjà Laplace, « Plus un fait est extraordinaire, plus il a besoin d'être appuyé de fortes preuves » [12]. En cela on retrouve des concepts de l'Évaluation des risques, où la matrice de criticité combine la probabilité d'apparition et la gravité du phénomène considéré.

Critiques[modifier | modifier le code]

L'utilisation d'une valeur p pour conclure suite à un test statistique est très fortement remise en cause pour plusieurs raisons. D'abord d'un point de vue formel, la valeur de p désigne la probabilité d'observer un jeu de données sous l'hypothèse H0 (P(x|H0)), alors qu'en faisant le test, on cherche à savoir quelle est la probabilité que H0 soit vraie sachant les données (P(H0|x)). Or il est évident d'après le théorème de Bayes que P(x|H0) ≠ P(H0|x) puisque:

Ainsi David Colquhoun conclut "It is concluded that if you wish to keep your false discovery rate below 5%, you need to use a three-sigma rule, or to insist on p ≤ 0.001." [5].

Donc la valeur de p ne devrait jamais être utilisée pour valider une hypothèse à partir de données puisque c'est l'inverse qui est calculé [6]. On lira avec beaucoup d'intérêt la page Wikipedia en anglais sur le p-value qui est beaucoup plus à jour que cette page.

Notes et références[modifier | modifier le code]

  1. (en) Larry Wasserman, All of Statistics : A Concise Course in Statistical Inference, New York, Springer-Verlag, , 461 p. (ISBN 978-0387402727), définition 10.11.
  2. (en) Paul Everett Meehl, « Why summaries of research on psychological theories are often uninterpretable », Psychological Reports,‎ (lire en ligne)
  3. (en) Jacob Cohen, « The Earth Is Round (p < .05) », American Psychologist,‎ (lire en ligne)
  4. (en) Baker M, « Statisticians issue warning on P values », Nature,‎ , p. 351:151-152
  5. a et b (en) Colquhoun D, « An investigation of the false discovery rate and the misinterpretation of p-values », Royal Society Open Science,‎ , p. 140216
  6. a et b (en) Wasserstein RL, Lazar NA, « The ASA's statement on p-values: context, process, and purpose », The American Statistician,‎ , p. 70:129-133
  7. (en) Johnson VE, « Revised standards for statistical evidence », Proc Natl Acad Sci U S A,‎ , p. 110:19313-19317
  8. (en) Zoltán Dienes, Understanding Psychology as a Science : An Introduction to Scientific and Statistical Inference, Palgrave Macmillan, , 170 p. (ISBN 023054231X)
  9. (en) table 38.1 de la revue de statistique de Particle Data Group.
  10. (en) lire par exemple la discussion au-dessous de l'eq. (38.41) de la revue de statistique de Particle Data Group.
  11. (en) dansThe_European_Physical_Journal.
  12. Laplace - Œuvres complètes, Gauthier-Villars, 1878, tome 7