Diagramme quantile-quantile
En statistiques, le diagramme Quantile-Quantile ou diagramme Q-Q ou Q-Q plot est un outil graphique permettant d'évaluer la pertinence de l'ajustement d'une distribution donnée à un modèle théorique.
Le terme de quantile-quantile provient du fait que l'on compare la position de certains quantiles dans la population observée avec leur position dans la population théorique.
Le diagramme quantile-quantile permet également de comparer deux distributions que l'on estime semblables.
Principe
À l'issue d'une enquête statistique, on soupçonne celle-ci de suivre une distribution classique (distribution gaussienne, exponentielle ou autre). À partir de la série statistique observée, on calcule alors un certain nombre de quantiles . Si la série statistique suit bien la distribution théorique choisie, on devrait avoir les quantiles observés égaux aux quantiles associés au modèle théorique.
On place alors le nuage de points . En abscisse se trouvent donc les quantiles théoriques et en ordonnée les quantiles observés. Si la distribution théorique choisie est pertinente, les points doivent se positionner suivant la première diagonale.
Si les points sont alignés suivant une droite d'équation c'est que le modèle choisi est valable à une transformation affine près.
Le choix des quantiles peut se faire en divisant la population en n+1 tranches égales et en prenant pour le seuil en dessous duquel se trouve une fraction de la population égale à [1]. Si la distribution théorique a pour fonction de répartition F, on a alors
Mais on trouve aussi des choix de quantiles associés au milieu des tranches[2], c'est-à-dire les quantiles d'ordre .
Les tableurs fournissent en général un outil de calcul sur les quantiles des lois les plus courantes difficiles à inverser (loi.normale.inverse, loi.lognormale.inverse,..).
Exemples
Ajustement par une loi normale
Le diagramme Q-Q de comparaison d'une distribution observée avec une loi gaussienne réduite permet une validation subjective : si les points sont alignés sur la première bissectrice c'est que la distribution suit probablement une loi de distribution gaussienne normalisée. Si les points sont alignés sur une autre droite d'équation , c'est que la distribution observée suit une loi normale d'espérance b et d'écart type a.
Il est fréquent de construire des diagrammes Q-Q sur des distributions normalisées: au lieu de travailler sur la distribution X, on en calcule la moyenne et l'écart type et on travaille sur la distribution . Dans ce cas, l'alignement doit toujours être sur la première bissectrice.
Il existe aussi un outil graphique voisin permettant d'évaluer la pertinence d'un tel ajustement : c'est la droite de Henry.
Quand la comparaison entre la distribution observée et la loi normale laisse entr'apercevoir la présence de deux segments de droites, on peut raisonnablement supposer que la population est composée d'un mélange de deux gaussiennes[3].
Ajustement par une loi exponentielle
L'ajustement par une loi normale n'est pas toujours légitime, ainsi dans le diagramme ci-contre la distribution des 19 quantiles observés en comparaison avec les quantiles d'une loi normale laisse penser que la distribution suit davantage une loi exponentielle. La médiane située à 23 laisse supposer que le paramètre de la loi exponentielle serait de .
Le calcul des quantiles d'une loi exponentielle de paramètre sont faciles à déterminer à l'aide des fonctions élémentaires : le quantile associé à est .
La construction du diagramme Q-Q de comparaison de la distribution observée avec la distribution exponentielle théorique semble valider cet ajustement: les points sont bien alignés suivant la première bissectrice.
Comparaison de deux séries statistiques
Le diagramme quantile-quantile sert aussi à comparer entre elles deux distributions. Un alignement selon la première bissectrice indique la présence d'une identité de loi. Une concavité tournée vers le haut ou vers le bas indique une dissymétrie entre les distributions[4].
Ainsi la lecture du diagramme ci-contre sur la distribution des températures maximales en juillet et mars, montre que les quantiles centraux sont plus rapprochés en juillet qu'en mars ce qui semble indiquer une distribution plus aplatie en mars. D'autre part, la concavité tournée vers le bas laisse supposer une dissymétrie entre les deux distributions de température.
Notes et références
- Bernard Goldfarb, Catherine Pardoux, Méthodes d’ajustements graphiques :Diagramme Quantile – Quantile
- J. D. Jobson, Applied Multivariate Data Analysis: Regression and experimental design, p.63.
- D. Chessel, A.B. Dufour & J.R. Lobry, Graphes quantiles-quantiles, p.10
- Pierre Dagnelie, Statistique théorique et appliquée: 2. Inférence statistique à 1 et 2 dimensions, p.77