Aller au contenu

Écart interquartile

Un article de Wikipédia, l'encyclopédie libre.
Diagramme en boîte avec l'écart quartile apparent (noté IQR)

En statistiques, l’écart interquartile[1] (aussi appelé étendue interquartile[2] ou EI ; en anglais, interquartile range ou IQR) est une mesure de dispersion qui s'obtient en faisant la différence entre le troisième et le premier quartile :

EI = Q3 - Q1.

L'EI est un estimateur statistique robuste.

Tableau de données

[modifier | modifier le code]
Valeurs % Quartile
1 102
2 104
3 105 Q1
4 107
5 108
6 109 Q2 (médiane)
7 110
8 112
9 115 Q3
10 116
11 118

L'écart interquartile de cette distribution de données (noté EI), est EI = Q3 - Q1 = 115 - 105 = 10.

Données dans une boîte à moustaches

[modifier | modifier le code]

Cette boîte à moustaches[Laquelle ?] sommaire montre :

  • premier quartile
  • deuxième quartile (médiane)
  • troisième quartile
  • écart interquartile

Calcul de l'écart interquartile

[modifier | modifier le code]

Il existe plusieurs méthodes de calcul rapides de l'écart interquartile.

Méthode de la médiane

[modifier | modifier le code]

On calcule d'abord la médiane de l'échantillon, ce qui permet de séparer le tirage en deux sous-échantillons (celui des valeurs inférieures à la médiane, et celui des valeurs supérieures), puis on calcule les médianes respectives de ces deux sous-échantillons. L'écart interquartile est alors la différence de ces deux médianes. Cette méthode peut être faite de deux façons, inclusive (on rajoute la médiane de l'échantillon dans les deux sous-échantillons) ou exclusive (on exclut la médiane des deux sous-échantillons).

Utilisations

[modifier | modifier le code]

L'écart interquartile permet de mesurer l'étalement des valeurs centrales de l'échantillon.

Cet indicateur peut servir de test de normalité d'un échantillon X : en notant la moyenne de l'échantillon X et σ son écart type, on peut comparer Q1 et Xσ EI, et Q3 et X + σ EI, si ces deux différences sont trop élevées, on peut rejeter l'hypothèse de normalité de l'échantillon. Ce test est cependant peu robuste et on lui préfère les tests de Kolmogorov-Smirnov ou de Shapiro-Wilk.

Cet indicateur est aussi utilisé dans l'identification des valeurs aberrantes par la règle donnée par John Tukey : toute valeur de l'échantillon inférieure à Q1 – 1,5 EI ou supérieure à Q3 + 1,5 EI est à considérer comme aberrante[3]. Cette méthode est cependant peu adaptée pour les distributions non centrées ou à queue[4].

Notes et références

[modifier | modifier le code]
  1. Voir par exemple cet ouvrage de leçons au CAPES.
  2. Personnel de rédaction, « 2754 – Les mesures de dispersion », Allô-prof, (consulté le )
  3. (en) John Tukey, Exploratory Data Analysis, Pearson (ISBN 0201076160)
  4. (en) Peter J. Rousseeuw et Mia Hubert, « Robust statistics for outlier detection », WIREs Data Mining Knowl Discov, vol. 1,‎ , p. 73–79 (DOI 10.1002/widm.2)