Écart interquartile

En statistiques, l’écart interquartile[1] (aussi appelé étendue interquartile[2] ou EI ; en anglais, interquartile range ou IQR) est une mesure de dispersion qui s'obtient en faisant la différence entre le troisième et le premier quartile :
- EI = Q3 - Q1.
L'EI est un estimateur statistique robuste.
Exemples
[modifier | modifier le code]Tableau de données
[modifier | modifier le code]Valeurs % Quartile 1 102 2 104 3 105 Q1 4 107 5 108 6 109 Q2 (médiane) 7 110 8 112 9 115 Q3 10 116 11 118
L'écart interquartile de cette distribution de données (noté EI), est EI = Q3 - Q1 = 115 - 105 = 10.
Données dans une boîte à moustaches
[modifier | modifier le code]Cette boîte à moustaches[Laquelle ?] sommaire montre :
- premier quartile
- deuxième quartile (médiane)
- troisième quartile
- écart interquartile
Calcul de l'écart interquartile
[modifier | modifier le code]Il existe plusieurs méthodes de calcul rapides de l'écart interquartile.
Méthode de la médiane
[modifier | modifier le code]On calcule d'abord la médiane de l'échantillon, ce qui permet de séparer le tirage en deux sous-échantillons (celui des valeurs inférieures à la médiane, et celui des valeurs supérieures), puis on calcule les médianes respectives de ces deux sous-échantillons. L'écart interquartile est alors la différence de ces deux médianes. Cette méthode peut être faite de deux façons, inclusive (on rajoute la médiane de l'échantillon dans les deux sous-échantillons) ou exclusive (on exclut la médiane des deux sous-échantillons).
Utilisations
[modifier | modifier le code]L'écart interquartile permet de mesurer l'étalement des valeurs centrales de l'échantillon.
Cet indicateur peut servir de test de normalité d'un échantillon X : en notant la moyenne de l'échantillon X et σ son écart type, on peut comparer Q1 et X – σ EI, et Q3 et X + σ EI, si ces deux différences sont trop élevées, on peut rejeter l'hypothèse de normalité de l'échantillon. Ce test est cependant peu robuste et on lui préfère les tests de Kolmogorov-Smirnov ou de Shapiro-Wilk.
Cet indicateur est aussi utilisé dans l'identification des valeurs aberrantes par la règle donnée par John Tukey : toute valeur de l'échantillon inférieure à Q1 – 1,5 EI ou supérieure à Q3 + 1,5 EI est à considérer comme aberrante[3]. Cette méthode est cependant peu adaptée pour les distributions non centrées ou à queue[4].
Voir aussi
[modifier | modifier le code]Notes et références
[modifier | modifier le code]- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Interquartile range » (voir la liste des auteurs).
- ↑ Voir par exemple cet ouvrage de leçons au CAPES.
- ↑ Personnel de rédaction, « 2754 – Les mesures de dispersion », Allô-prof, (consulté le )
- ↑ (en) John Tukey, Exploratory Data Analysis, Pearson (ISBN 0201076160)
- ↑ (en) Peter J. Rousseeuw et Mia Hubert, « Robust statistics for outlier detection », WIREs Data Mining Knowl Discov, vol. 1, , p. 73–79 (DOI 10.1002/widm.2)