Représentation graphique de données statistiques

Un article de Wikipédia, l'encyclopédie libre.
(Redirigé depuis Visualisation des données)
Aller à : Navigation, rechercher
Carte figurative des pertes successives en hommes de l'armée française dans la campagne de Russie 1812-1813 par Minard

Une représentation graphique de données statistiques ou visualisation de données statistiques est un résumé visuel des données chiffrées. Elle permet en un seul coup d'œil d'en saisir la tendance générale. Une des pionniers de l'usage moderne de la représentation graphique, semble avoir été Charles Joseph Minard (1781-1870), professeur puis super-intendant de l'école des Ponts et Chaussées, célèbre pour ses cartes figuratives et tableaux graphiques illustrant la campagne napoléonienne de Russie[1], [2],[3]

On trouve des représentations graphiques de données statistiques également dans l'information et la communication auprès du grand public où elles peuvent influer sur l'efficacité et la crédibilité du message. De ce point de vue, il convient de garder à l'esprit qu'une représentation graphique reste, par essence, une simplification de la réalité. Les multiples paramètres d'une représentation graphique (échelle, choix de coordonnées, fausses couleurs, etc.) sont autant de facteurs qui peuvent, intentionnellement ou non, induire une distorsion de la réalité, par exemple en masquant, en déformant ou en minimisant une information importante.

Sommaire

Histoire [modifier]

La visualisation de données statistiques s'est développée à la fin du XVIIIe siècle, notamment grâce aux travaux de William Playfair (1759-1823)[4]. Dans un premier temps, les graphiques sont conçu par analogie avec le monde physique. Ce n'est qu'au tournant du XVIIIe siècle et du XIXe siècle que les auteurs de graphiques s'affranchissent des références à l'espace ou au temps et envisage les graphiques comme la mise en relations de variables quantitatives[5].

Dans les années 1960, John Tukey donne ses lettres de noblesse à la visualisation de données en statistiques[6].

Les moyens informatiques permettent de représenter des ensembles complexes de données, de manière plus simple, didactique et pédagogique[7].


Typologie [modifier]

Carte statistique [modifier]

La carte représentant le nombre de morts dû au choléra à Londres en 1854. Elle a été publiée par John Snow dans son ouvrage On the Mode of Communication of Cholera (1855).

Une carte statistique permet de représenter la valeur d'une variable statistique dans chacune des unités géographiques d'une entité globale. La carte statistique a l'avantage de pouvoir à la fois révéler une analyse globale tout en permettant à chacun d'aller repérer des détails pour chaque unité géographique. En revanche, elle a le défaut de donner à chaque unité géographique une importance proportionnelle à sa superficie alors que dans de nombreuses situations il serait préférable que l'importance que l'on donne à chaque unité géographique soit relative à une autre variable, comme sa population par exemple[8],[note 1].

Alors que les cartes géographiques ont été inventées il y a plus de 5000 ans, les cartes statistiques ne sont véritablement apparues qu'au XVIIe siècle. En 1686, Edmond Halley représente une carte du monde avec des symboles permettant de donner l'origine et surtout l'intensité des vents. Plus tard, au XIXe siècle, John Snow représente une carte de Londres en localisant le nombre de morts dû au choléra lors de l'épidémie de septembre 1854[9].

Représentation graphique d'une série temporelle [modifier]

Les imports et exports du Royaume du Danemark et de Norvège de 1700 à 1780. Exemple de graphique de série temporelle publié par William Playfair dans son ouvrage The Commercial and Political Atlas (1786).
Représentation graphique de l'évolution des intérêts de la dette publique britannique au cours du XVIIIe siècle. Graphique publié par Willima Playfair dans The Commercial and Political Atlas (1786).

Le graphique de série temporelle représente l'évolution d'une variable en fonction du temps. C'est la représentation graphique la plus utilisée et son interprétation est généralement très intuitive. Le premier exemple connu montre l'inclinaison des orbites des planètes au cours du temps et date du Xe siècle ou du XIe siècle. Si cet exemple est très ancien, ce n'est qu'à la fin du XVIIIe siècle que l'on trouve des graphique de série temporelle dans des publications scientifiques avec les travaux de Johann Heinrich Lambert et William Playfair. Dans son ouvrage The Commercial and Political Atlas, Playfair propose de nombreux graphiques de série temporelle représentant des données économiques, par exemple l'évolution des imports et des exports de l'Angleterre entre 1700 et 1782[10],[note 2].

Diagramme en bâtons [modifier]

Les imports et les exports de l'Écosse entre noël 1780 et noël 1781. C'est le premier diagramme en bâtons de l'histoire. Il a été publié par William Playfair dans son ouvrage The Commercial and Political Atlas (1786).

Dans son ouvrage The Commercial and Political Atlas, William Playfair a essentiellement réalisé des graphiques de série temporelle. Néanmoins pour les imports et les exports de l'Écosse, il ne dispose de données que pour l'année 1781. Il propose donc de représenter les données à l'aide d'un diagramme en bâtons[11].

Diagramme circulaire [modifier]

Diagrammes circulaires publiés par William Playfair dans The Statistical Breviary (1801). Les cercles représentent la superficie de chaque pays. Les lignes à gauche de chaque cercle représentent la population (en millions d'habitants) et les lignes à droite représentent le total des taxes collectées (en millions de livres sterling). La ligne pointillée met en relation la ligne des revenus et la ligne des taxes. Sa pente n'a pas d'interprétation mais le signe de la pente en a une. Le graphique montre qu'en Grande-Bretagne, le total des taxes comparé à la population est plus élevé que dans les autres pays[12].

Représentation des effectifs et des fréquences [modifier]

Une règle générale distingue les représentations sans épaisseur (diagramme en bâtons) et les représentations avec épaisseur : dans une représentation sans épaisseur, l'effectif (ou la fréquence) est proportionnel à la hauteur, tandis que dès qu'une surface existe, l'effectif (ou la fréquence) est proportionnel à l'aire.

Variables discrètes [modifier]

Variables quantitatives discrètes [modifier]

Diagramme en bâtons issu de l'article Statistiques élémentaires discrètes

Pour des variables quantitatives discrètes, on privilégie le diagramme en bâtons, mais on voit apparaître parfois des représentations avec épaisseur.

  • Diagramme figuratif : Les effectifs sont représentés par des images (silhouettes, bâtiments, etc.) évoquant la population étudiée. Ces images ont une surface proportionnelle à l'effectif. Notons que, si la surface est proportionnelle, ce n'est pas le cas de la hauteur ni de la largeur de l'image (doubler la longueur et la hauteur, par exemple, multiplie la surface par 4, non par 2 ; pour doubler la surface, il faut multiplier la hauteur et la largeur par √2, soit 1,414…, non par 2).
Diagramme en rectangle avec lissage
  • Diagramme en rectangles : si la base des rectangles a la même taille, les hauteurs proportionnelles aux effectifs respectent la règle des aires.
  • Ajout d'un polygone rejoignant les sommets du diagramme en bâtons. Cette tentative de lissage de la représentation graphique ne respecte pas tout à fait la règle des aires (l'aire sous le polygone ne correspond pas tout à fait à l'effectif ou la fréquence) mais a le mérite de présenter une courbe se rapprochant de la courbe de densité de probabilité.

Variables qualitatives [modifier]

Diagramme en camembert

Pour des variables qualitatives, on utilise fréquemment les diagrammes circulaires dits « en camembert », demi-circulaire ou rectangulaire. On trouve aussi des diagrammes figuratifs avec le danger évoqué plus haut.

Variables continues [modifier]

Article détaillé : Histogramme.
Histogramme avec lissage

On utilise l'histogramme en respectant la règle des aires. Pour éviter tout danger, il est préférable de travailler avec des classes d'amplitude constante. Dans ce cas, les hauteurs des rectangles sont proportionnelles aux effectifs (ou aux fréquences). Le cas des classes d'amplitudes variables se révèle plus délicat et est traité dans statistiques élémentaires continues. On trouve aussi pour les variables continues la même tentative de lissage avec la même réserve sur la règle des aires.

Représentation des effectifs cumulés. [modifier]

Polygone des fréquences cumulées avec lecture de quartiles

Pour les variables continues, on peut tracer le polygone des effectifs (ou fréquences) cumulés. Le principe du tracé est expliqué dans l'article statistiques élémentaires continues. Ce polygone, permet de lire très rapidement l'effectif d'un intervalle de la forme [x_1 , x] et, par différence, l'effectif de tout intervalle. Elle permet aussi de lire très rapidement les quartiles et les déciles. Cette représentation préfigure le tracé de la fonction de répartition en probabilité.

On voit apparaître parfois un polygone des effectifs cumulés pour des variables discrètes. En toute rigueur, il faudrait tracer un diagramme en escalier.

Nuage de points [modifier]

Exemple de nuage de points

On rencontre principalement cette représentation dans les séries statistiques à deux variables. Elle apparaît aussi de manière moins identifiable dans les cartes géographiques ou météorologique (impact de la foudre, densité de population, présence d'industries,...). L'effectif est alors associé à une taille de point ou une couleur de fond.

Diagramme en boîte à moustaches [modifier]

Exemple de diagramme en boîte à moustaches

Le diagramme en boîte à moustaches résume seulement quelques caractéristiques de position du caractère étudié (médiane, quartiles, min/max ou déciles). Il est utilisé principalement pour comparer un même caractère dans deux populations de tailles différentes. Il s'agit de tracer un rectangle allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute parfois des segments aux extrémités menant jusqu'aux valeurs min/max ou jusqu'au premier et neuvième décile. On parle alors de diagramme en boîte à moustaches ou à pattes.

Sparklines [modifier]

Les sparklines sont un format développé par Edward Tufte pour des mini-graphiques qui peuvent être insérés dans un texte sur une page.

Tufte décrit les sparklines comme des "graphiques intenses en données, de design simple, et ayant la taille d’un mot". Alors que le graphique typique est conçu de manière à montrer le plus de données possible et qu'il est placé hors du flux de texte, les sparklines sont concis, mémorisables, et localisés précisément à l’endroit approprié.

Sparklines
U.S. stock market activity (February 7, 2006)
Day Index Value Change
Sparkline dowjones.svg Dow Jones 10765.45 −32.82 (−0.30%)
Sparkline sp500.svg S&P 500 1256.92 −8.10 (−0.64%)
Sparkline dowjones.svg Nasdaq 2244.83 −13.97 (−0.62%)

Bibliographie [modifier]

  • (en) William Playfair, The Commercial and Political Atlas : Representing, by Means of Stained Copper-Plate Charts, the Progress of the Commerce, Revenues, Expenditure and Debts of England during the Whole of the Eighteenth Century, 1786 
  • (en) William Playfair, Statistical Breviary : Shewing, on a Principle Entirely New, the Resources of Every State and Kingdom in Europe, Londres, Wallis, 1801, 1re éd. 
  • (en) Howard Gray Funkhouser, Historical Development of the Graphical Representation of Statistical Data, Saint Catherine Press, 1937 
  • (en) John Tukey, Exploratory Data Analysis, Addison-Wesley Publishing Company, 1977 
  • (en) Edward Tufte, The Visual Display of Quantitative Information, Graphics Press USA, 2001, 2e éd. (1re éd. 1983), 190 p. 
  • (en) Stephen Fienberg, « Graphical methods in statistics », The American Statistician, vol. 33, no 4, 1979, p. 165-178 
  • (en) William Cleveland, Visualizing Data, At&T Bell Laboratories, 1993, 360 p. 
  • (en) Toby Segaran et Jeff Hammerbacher, Beautiful Data : The Stories Behind Elegant Data Solutions, O'Reilly Media, Inc, USA, 2009 
  • (en) Nathan Yau, Visualize This : The FlowingData Guide to Design, Visualization, and Statistics, John Wiley & Sons Inc, 2011, 384 p. 
  • (en) Nathan Yau, Data Points: Visualization That Means Something, John Wiley & Sons Inc, 2013, 336 p. 

Notes et références [modifier]

Notes [modifier]

  1. Edward Tufte parle de « data maps », littéralement « cartes de données »
  2. En anglais, le « Time-series plot »

Références [modifier]

  1. Victorin Chevallier, « Notice nécrologique sur M. Minard, inspecteur général des ponts et chaussées, en retraite », Annales des ponts et chaussées : Mémoires et documents, Paris, Dunod, vol. II de la 5e série, 2e sem. 1871, p. 1–22 
  2. [www.19e.org/biographies/M/Minard.htm Biographie de Charles Joseph Minard] sur 19e.org, site consacré à l'histoire du XIXe siècle
  3. Charles Joseph Minard: Mapping Napoleon's March, 1861 by John Corbett, Center for Spatially Integrated Social Science
  4. Tufte 2001, p. 9
  5. Tufte 2001, p. 46-47
  6. Tufte 2001, p. 53
  7. Exemple de représentation du budget de l'État, à partir d'un jeu de données publiques provenant du Sénat)
  8. Tufte 2001, p. 16-20
  9. Tufte 2001, p. 20-24
  10. Tufte 2001, p. 28-33
  11. Tufte 2001, p. 33
  12. Tufte 2001, p. 44

Articles connexes [modifier]