Valeur p

Un article de Wikipédia, l'encyclopédie libre.
(Redirigé depuis P-value)
Aller à : navigation, rechercher

Dans un test statistique, la valeur-p (en anglais p-value) est la probabilité d'obtenir la même valeur (ou une valeur encore plus extrême) du test si l'hypothèse nulle était vraie.

Définition[modifier | modifier le code]

Ce nombre est utilisé en statistiques inférentielles pour conclure sur le résultat d’un test statistique. La procédure généralement employée consiste à comparer la valeur-p à un seuil préalablement défini (traditionnellement 5 %). Si la valeur-p est inférieure à ce seuil, on rejette l'hypothèse nulle en faveur de l’hypothèse alternative, et le résultat du test est déclaré « statistiquement significatif »[1]. Dans le cas contraire, si la valeur-p est supérieure au seuil, on ne rejette pas l’hypothèse nulle, et on ne peut rien conclure quant aux hypothèses formulées.

Cette utilisation effective de la valeur-p est fréquemment remise en question, notamment dans les sciences humaines où les statistiques inférentielles sont la principale source de validation des hypothèses scientifiques[2],[3]. En effet, l’utilisation courante de la valeur-p résulte d’une confusion entre deux approches statistiques incompatibles[4],[5] : d’une part l’approche de Ronald Fisher, et d’autre part l’approche défendue par Jerzy Neyman et Egon Pearson.

Introduction de la valeur-p par Ronald Fisher[modifier | modifier le code]

Le statisticien Ronald Fisher a introduit les termes de significativité, d’hypothèse nulle, et l’utilisation de la valeur-p. Il rejetait toutefois la notion de puissance statistique : selon lui, l’hypothèse nulle ne peut jamais être acceptée, mais peut seulement être rejetée par le test statistique. Dans cette approche, la valeur-p est considérée comme une mesure d’à quel point les données plaident contre l’hypothèse nulle. Les seuils suivants sont généralement pris pour référence[6] :

  •  < 0,01 : très forte présomption contre l'hypothèse nulle
  • 0,01 - 0,05 : forte présomption contre l'hypothèse nulle
  • 0,05 - 0,1 : faible présomption contre l'hypothèse nulle
  •  >0,1 : pas de présomption contre l'hypothèse nulle

La valeur-p dans l’approche Neyman-Pearson[modifier | modifier le code]

Le mathématicien polonais Jerzy Neyman et le statisticien britannique Egon Pearson ont développé un cadre théorique alternatif.

Dans leur approche, les taux d’erreurs doivent être définis avant la collecte des données :

  • α, le taux d’erreur de première espèce (rejeter à tort une hypothèse nulle vraie)
  • β, le taux d’erreur de seconde espèce (accepter à tort l’hypothèse nulle)


La puissance statistique du test, égale à 1 - β, est ainsi contrôlée et définie à l’avance. Il faut ensuite calculer le nombre de données à collecter pour atteindre une telle puissance statistique, ce qui nécessite d’estimer la variance des données : pour se faire, on se base sur des études précédentes ou sur une étude pilote.

Lorsque les données sont collectées, la valeur-p est calculée, et la décision suivante est prise :

  • si elle est inférieure à α, on rejette l’hypothèse nulle au profit de l’hypothèse alternative
  • si elle est supérieure à α, on rejette l’hypothèse alternative au profit de l’hypothèse nulle

La décision doit être prise de manière mécanique à la fin de la collecte des données. La notion de significativité est rejetée : si le seuil défini à l’avance est de 0.05, une valeur-p de 0.001 n’est pas considérée comme plus significative qu’une valeur-p de 0.049, dans les deux cas la décision prise est la même.

Limites

Cette procédure permet théoriquement de prendre des décisions sur l’interprétation des données tout en contrôlant adéquatement les taux d’erreurs sur le long terme. Toutefois, la validité de ces taux d’erreurs dépend du strict respect de la procédure : le recueil de nouvelles données si la valeur-p est « presque significative », ou bien le calcul de la valeur-p avant le recueil de l’intégralité des données et l’arrêt de l’expérience si celle ci est trouvée significative invalident les taux d’erreur. Ainsi, le contrôle effectif des taux d’erreurs dépend de ce que feraient réellement les chercheurs lorsqu’ils sont confrontés à des résultats qu’ils n’attendaient pas, pas de ce qu’ils disent qu’ils feraient, ni même de ce qu’ils pensent qu’ils feraient. Par ailleurs, si les taux d’erreur à long terme sont connus, la probabilité de défendre la mauvaise hypothèse à la suite du test statistique dans cette expérience particulière n’est pas connue. Ces limites ont conduit au développement de l’approche bayésienne[7].

Notes et références[modifier | modifier le code]

  1. (en) Larry Wasserman, All of Statistics : A Concise Course in Statistical Inference, New York, Springer-Verlag,‎ 15 septembre 2004, 461 p. (ISBN 978-0387402727), définition 10.11.
  2. (en) Paul Everett Meehl, « Why summaries of research on psychological theories are often uninterpretable », Psychological Reports,‎ 1990 (lire en ligne)
  3. (en) Jacob Cohen, « The Earth Is Round (p < .05) », American Psychologist,‎ 1994 (lire en ligne)
  4. (en) Charles Lambdin, « Significance tests as sorcery: Science is empirical— significance tests are not », Theory & Psychology,‎ 2012 (lire en ligne)
  5. nature.com
  6. Wasserman 2004, p. 157
  7. (en) Zoltán Dienes, Understanding Psychology as a Science : An Introduction to Scientific and Statistical Inference, Palgrave Macmillan,‎ 2008, 170 p. (ISBN 023054231X)