Boîte à moustaches

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

Dans les représentations graphiques de données statistiques, la boîte à moustaches[1] (aussi appelée diagramme en boîte, boîte de Tukey[2]ou box-and-whisker plot, plus simplement box plot en anglais) est un moyen rapide de figurer le profil essentiel d'une série statistique quantitative. Elle a été inventée en 1977 par John Tukey, mais peut faire l'objet de certains aménagements selon les utilisateurs. Son nom est la traduction de Box and Whiskers Plot.

Principe[modifier | modifier le code]

La boîte à moustaches[1] résume seulement quelques indicateurs de position du caractère étudié (médiane, quartiles, minimum, maximum ou déciles). Ce diagramme est utilisé principalement pour comparer un même caractère dans deux populations de tailles différentes.

Il s'agit de tracer un rectangle allant du premier quartile au troisième quartile et coupé par la médiane. Ce rectangle suffit pour le diagramme en boîte. On ajoute alors des segments aux extrémités menant jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième déciles (), voire aux 5e et 95e centiles. On parle alors de diagramme en boîte à moustaches ou de diagramme à pattes.

Boite a moustaches.png

Comparaison de deux diagrammes en boîte à moustaches avec :
– pour la boîte supérieure : Q1 = 7, M = 9, Q3 = 12, ,  ;
– pour la boîte inférieure : Q1 = 3, M = 7, Q3 = 12, , .

Historique[modifier | modifier le code]

Dans les diagrammes en boîte de Tukey[2], la longueur des « moustaches » vaut 1,5 fois l’écart interquartile. Ces diagrammes de Tukey étaient utilisés dans des secteurs où les données peuvent le plus souvent être modélisées en utilisant une loi normale ; dans ce cas, la théorie montre que les extrémités des « moustaches » sont voisines du premier et 99e centile (0,022 et 0,978 précisément) : ces diagrammes étaient surtout utilisés pour détecter la présence de données exceptionnelles.

On les y désigne aussi sous les vocables de boîtes à pattes[1] ou Box Plot.

Exemple[modifier | modifier le code]

Exemple de box plot

Cet exemple est basé sur une série de mesures avec les 20 points de données suivants :

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
(non triés) 9 6 7 7 3 9 10 1 8 7 9 9 8 10 5 10 10 9 10 8
(triés) 1 3 5 6 7 7 7 8 8 8 9 9 9 9 9 10 10 10 10 10

Une boîte à moustaches aide à obtenir un aperçu de ces données très rapidement. Ainsi, vous pouvez voir directement que la médiane est exactement égale à 8,5 (moyenne = 7,75) et que chacun des 25 % des données sont inférieures à 7 et supérieures à 9,5. Ce sont exactement les dimensions de la boîte, qui contiennent 50 % des valeurs mesurées. Par conséquent, l'intervalle interquartile, qui correspond à la longueur de la boîte, est exactement de 2,5.

Cette boîte à moustaches a été réalisée avec des moustaches d’une longueur pouvant atteindre 1,5 fois l’intervalle interquartile, soit un maximum de 3,75 unités de long. Cependant, les moustaches n'atteignent toujours qu'une valeur des données qui se trouvent toujours dans ces 3,75 unités. Ainsi, la moustache supérieure va jusqu’à 10, car il n’y a pas de valeur plus grande dans les données, et la moustache inférieure, jusqu’à 5, car la valeur immédiatement inférieure est à plus de 3,75 du début de la boîte.

Les valeurs 1 et 3 sont marquées comme valeurs aberrantes dans le diagramme à boîtes parce qu'elles ne sont pas à l'intérieur de la boîte ou des moustaches. Ces valeurs doivent être examinées pour voir si elles sont réellement des valeurs aberrantes ou des fautes de saisie ou si elles sont suspectes.

Comme la médiane dans la zone est légèrement en haut, on peut également déduire une asymétrie de la distribution sous-jacente des données mesurées. En outre, il est peu probable que cette distribution soit une distribution normale, car le diagramme en boîtes est asymétrique et contient un nombre relativement élevé de valeurs aberrantes.

Notes et références[modifier | modifier le code]

  1. a b et c Monique Le Guen, « La boîte à moustaches pour sensibiliser à la statistique », Bulletin de méthodologie sociologique, no 73,‎ , p. 43-64 (lire en ligne).
  2. a et b Monique Le Guen, « John Wilder Tukey », Courrier des statistiques-INSEE, no 90,‎ , p. 11-12 (lire en ligne).