Diagramme Quantile-Quantile

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Diagramme Q-Q destiné à comparer une loi de distribution préalablement centrée et réduite avec une loi normale \scriptstyle\mathcal{N}(0,1)

En statistiques, le diagramme Quantile-Quantile ou diagramme Q-Q ou Q-Q plot est un outil graphique permettant d'évaluer la pertinence de l'ajustement d'une distribution donnée à un modèle théorique.

Le terme de quantile-quantile provient du fait que l'on compare la position de certains quantiles dans la population observée avec leur position dans la population théorique.

Le diagramme quantile-quantile permet également de comparer deux distributions que l'on estime semblables.

Principe[modifier | modifier le code]

À l'issue d'une enquête statistique, on soupçonne celle-ci de suivre une distribution classique (distribution gaussienne, exponentielle ou autre). À partir de la série statistique observée, on calcule alors un certain nombre de quantiles \scriptstyle x_i. Si la série statistique suit bien la distribution théorique choisie, on devrait avoir les quantiles \scriptstyle x_i observés égaux aux quantiles \scriptstyle x_i^* associés au modèle théorique.

On place alors le nuage de points \scriptstyle M_i(x_i^*, x_i). En abscisse se trouvent donc les quantiles théoriques et en ordonnée les quantiles observés. Si la distribution théorique choisie est pertinente, les points doivent se positionner suivant la première diagonale.

Si les points sont alignés suivant une droite d'équation \scriptstyle x_i=ax_i^*+b c'est que le modèle choisi est valable à une transformation affine près.

Le choix des quantiles peut se faire en divisant la population en n+1 tranches égales et en prenant pour \scriptstyle x_i le seuil en dessous duquel se trouve une fraction de la population égale à \scriptstyle \frac{i}{n+1}[1]. Si la distribution théorique a pour fonction de répartition F, on a alors

x_i^* = F^{-1}\left(\frac i{n+1}\right)

Mais on trouve aussi des choix de quantiles associés au milieu des tranches[2], c'est-à-dire les quantiles d'ordre \scriptstyle \frac{2i-1}{ 2n}.


Les tableurs fournissent en général un outil de calcul sur les quantiles des lois les plus courantes difficiles à inverser (loi.normale.inverse, loi.lognormale.inverse,..).

Exemples[modifier | modifier le code]

Ajustement par une loi normale[modifier | modifier le code]

Diagramme Q-Q de comparaison d'une distribution observée avec une loi normale. L'alignement \scriptstyle  x_i=25x_i^*+50 laisse supposer que la distribution suit une loi normale \scriptstyle\mathcal{N}(50,25)

Le diagramme Q-Q de comparaison d'une distribution observée avec une loi gaussienne réduite permet une validation subjective : si les points sont alignés sur la première bissectrice c'est que la distribution suit probablement une loi de distribution gaussienne normalisée. Si les points sont alignés sur une autre droite d'équation \scriptstyle  x_i=ax_i^*+b, c'est que la distribution observée suit une loi normale d'espérance b et d'écart type a.

Il est fréquent de construire des diagrammes Q-Q sur des distributions normalisées: au lieu de travailler sur la distribution X, on en calcule la moyenne et l'écart type et on travaille sur la distribution \scriptstyle X'=\frac{X-\overline X}{\sigma(X)}. Dans ce cas, l'alignement doit toujours être sur la première bissectrice.

Il existe aussi un outil graphique voisin permettant d'évaluer la pertinence d'un tel ajustement : c'est la droite de Henry.

Quand la comparaison entre la distribution observée et la loi normale laisse entr'apercevoir la présence de deux segments de droites, on peut raisonnablement supposer que la population est composée d'un mélange de deux gaussiennes[3].



Ajustement par une loi exponentielle[modifier | modifier le code]

Diagramme Q-Q. Tentative d'ajustement d'une distribution par une gaussienne

L'ajustement par une loi normale n'est pas toujours légitime, ainsi dans le diagramme ci-contre la distribution des 19 quantiles observés en comparaison avec les quantiles d'une loi normale laisse penser que la distribution suit davantage une loi exponentielle. La médiane située à 23 laisse supposer que le paramètre de la loi exponentielle serait de \scriptstyle \lambda=\frac{\ln(2)}{23}.

Le calcul des quantiles d'une loi exponentielle de paramètre \lambda sont faciles à déterminer à l'aide des fonctions élémentaires : le quantile associé à \scriptstyle \frac i{n+1} est \scriptstyle -\frac{\ln\left(1-\frac i{n+1}\right)}{\lambda}.

La construction du diagramme Q-Q de comparaison de la distribution observée avec la distribution exponentielle théorique semble valider cet ajustement: les points sont bien alignés suivant la première bissectrice.

Diagramme Q-Q de comparaison entre la population observée et une loi exponentielle de paramètre \scriptstyle \lambda=\frac{\ln(2)}{23}

Comparaison de deux séries statistiques[modifier | modifier le code]

Diagramme quantile-quantile comparant les distributions normalisées des températures maximales quotidiennes dans 25 stations de l'état d'Ohio (USA) entre 1893 et 2001 en mars et juillet

Le diagramme quantile-quantile sert aussi à comparer entre elles deux distributions. Un alignement selon la première bissectrice indique la présence d'une identité de loi. Une concavité tournée vers le haut ou vers le bas indique une dissymétrie entre les distributions[4].

Ainsi la lecture du diagramme ci-contre sur la distribution des températures maximales en juillet et mars, montre que les quantiles centraux sont plus rapprochés en juillet qu'en mars ce qui semble indiquer une distribution plus aplatie en mars. D'autre part, la concavité tournée vers le bas laisse supposer une dissymétrie entre les deux distributions de température.

Notes et références[modifier | modifier le code]

  1. Bernard Goldfarb, Catherine Pardoux, Méthodes d’ajustements graphiques :Diagramme Quantile – Quantile
  2. J. D. Jobson, Applied Multivariate Data Analysis: Regression and experimental design, p.63.
  3. D. Chessel, A.B. Dufour & J.R. Lobry, Graphes quantiles-quantiles, p.10
  4. Pierre Dagnelie, Statistique théorique et appliquée: 2. Inférence statistique à 1 et 2 dimensions, p.77