Représentation graphique de données statistiques
Une représentation graphique de données statistiques ou visualisation de données statistiques est un résumé visuel des données chiffrées. Elle permet en un seul coup d'œil d'en saisir la tendance générale. Une des pionniers de l'usage moderne de la représentation graphique, semble avoir été Charles Joseph Minard (1781-1870), professeur puis super-intendant de l'école des Ponts et Chaussées, célèbre pour ses cartes figuratives et tableaux graphiques illustrant la campagne napoléonienne de Russie[1], [2],[3]
On trouve des représentations graphiques de données statistiques également dans l'information et la communication auprès du grand public où elles peuvent influer sur l'efficacité et la crédibilité du message. De ce point de vue, il convient de garder à l'esprit qu'une représentation graphique reste, par essence, une simplification de la réalité. Les multiples paramètres d'une représentation graphique (échelle, choix de coordonnées, fausses couleurs, etc.) sont autant de facteurs qui peuvent, intentionnellement ou non, induire une distorsion de la réalité, par exemple en masquant, en déformant ou en minimisant une information importante.
Sommaire |
Histoire [modifier]
La visualisation de données statistiques s'est développée à la fin du XVIIIe siècle, notamment grâce aux travaux de William Playfair (1759-1823)[4]. Dans un premier temps, les graphiques sont conçu par analogie avec le monde physique. Ce n'est qu'au tournant du XVIIIe siècle et du XIXe siècle que les auteurs de graphiques s'affranchissent des références à l'espace ou au temps et envisage les graphiques comme la mise en relations de variables quantitatives[5].
Dans les années 1960, John Tukey donne ses lettres de noblesse à la visualisation de données en statistiques[6].
Les moyens informatiques permettent de représenter des ensembles complexes de données, de manière plus simple, didactique et pédagogique[7].
Typologie [modifier]
Carte statistique [modifier]
Une carte statistique permet de représenter la valeur d'une variable statistique dans chacune des unités géographiques d'une entité globale. La carte statistique a l'avantage de pouvoir à la fois révéler une analyse globale tout en permettant à chacun d'aller repérer des détails pour chaque unité géographique. En revanche, elle a le défaut de donner à chaque unité géographique une importance proportionnelle à sa superficie alors que dans de nombreuses situations il serait préférable que l'importance que l'on donne à chaque unité géographique soit relative à une autre variable, comme sa population par exemple[8],[note 1].
Alors que les cartes géographiques ont été inventées il y a plus de 5000 ans, les cartes statistiques ne sont véritablement apparues qu'au XVIIe siècle. En 1686, Edmond Halley représente une carte du monde avec des symboles permettant de donner l'origine et surtout l'intensité des vents. Plus tard, au XIXe siècle, John Snow représente une carte de Londres en localisant le nombre de morts dû au choléra lors de l'épidémie de septembre 1854[9].
Représentation graphique d'une série temporelle [modifier]
Le graphique de série temporelle représente l'évolution d'une variable en fonction du temps. C'est la représentation graphique la plus utilisée et son interprétation est généralement très intuitive. Le premier exemple connu montre l'inclinaison des orbites des planètes au cours du temps et date du Xe siècle ou du XIe siècle. Si cet exemple est très ancien, ce n'est qu'à la fin du XVIIIe siècle que l'on trouve des graphique de série temporelle dans des publications scientifiques avec les travaux de Johann Heinrich Lambert et William Playfair. Dans son ouvrage The Commercial and Political Atlas, Playfair propose de nombreux graphiques de série temporelle représentant des données économiques, par exemple l'évolution des imports et des exports de l'Angleterre entre 1700 et 1782[10],[note 2].
Diagramme en bâtons [modifier]
Dans son ouvrage The Commercial and Political Atlas, William Playfair a essentiellement réalisé des graphiques de série temporelle. Néanmoins pour les imports et les exports de l'Écosse, il ne dispose de données que pour l'année 1781. Il propose donc de représenter les données à l'aide d'un diagramme en bâtons[11].
Diagramme circulaire [modifier]
Représentation des effectifs et des fréquences [modifier]
Une règle générale distingue les représentations sans épaisseur (diagramme en bâtons) et les représentations avec épaisseur : dans une représentation sans épaisseur, l'effectif (ou la fréquence) est proportionnel à la hauteur, tandis que dès qu'une surface existe, l'effectif (ou la fréquence) est proportionnel à l'aire.
Variables discrètes [modifier]
Variables quantitatives discrètes [modifier]
Pour des variables quantitatives discrètes, on privilégie le diagramme en bâtons, mais on voit apparaître parfois des représentations avec épaisseur.
- Diagramme figuratif : Les effectifs sont représentés par des images (silhouettes, bâtiments, etc.) évoquant la population étudiée. Ces images ont une surface proportionnelle à l'effectif. Notons que, si la surface est proportionnelle, ce n'est pas le cas de la hauteur ni de la largeur de l'image (doubler la longueur et la hauteur, par exemple, multiplie la surface par 4, non par 2 ; pour doubler la surface, il faut multiplier la hauteur et la largeur par √2, soit 1,414…, non par 2).
- Diagramme en rectangles : si la base des rectangles a la même taille, les hauteurs proportionnelles aux effectifs respectent la règle des aires.
- Ajout d'un polygone rejoignant les sommets du diagramme en bâtons. Cette tentative de lissage de la représentation graphique ne respecte pas tout à fait la règle des aires (l'aire sous le polygone ne correspond pas tout à fait à l'effectif ou la fréquence) mais a le mérite de présenter une courbe se rapprochant de la courbe de densité de probabilité.
Variables qualitatives [modifier]
Pour des variables qualitatives, on utilise fréquemment les diagrammes circulaires dits « en camembert », demi-circulaire ou rectangulaire. On trouve aussi des diagrammes figuratifs avec le danger évoqué plus haut.
Variables continues [modifier]
-
Article détaillé : Histogramme.
On utilise l'histogramme en respectant la règle des aires. Pour éviter tout danger, il est préférable de travailler avec des classes d'amplitude constante. Dans ce cas, les hauteurs des rectangles sont proportionnelles aux effectifs (ou aux fréquences). Le cas des classes d'amplitudes variables se révèle plus délicat et est traité dans statistiques élémentaires continues. On trouve aussi pour les variables continues la même tentative de lissage avec la même réserve sur la règle des aires.
Représentation des effectifs cumulés. [modifier]
Pour les variables continues, on peut tracer le polygone des effectifs (ou fréquences) cumulés. Le principe du tracé est expliqué dans l'article statistiques élémentaires continues. Ce polygone, permet de lire très rapidement l'effectif d'un intervalle de la forme
et, par différence, l'effectif de tout intervalle. Elle permet aussi de lire très rapidement les quartiles et les déciles. Cette représentation préfigure le tracé de la fonction de répartition en probabilité.
On voit apparaître parfois un polygone des effectifs cumulés pour des variables discrètes. En toute rigueur, il faudrait tracer un diagramme en escalier.
Nuage de points [modifier]
On rencontre principalement cette représentation dans les séries statistiques à deux variables. Elle apparaît aussi de manière moins identifiable dans les cartes géographiques ou météorologique (impact de la foudre, densité de population, présence d'industries,...). L'effectif est alors associé à une taille de point ou une couleur de fond.
Diagramme en boîte à moustaches [modifier]
Le diagramme en boîte à moustaches résume seulement quelques caractéristiques de position du caractère étudié (médiane, quartiles, min/max ou déciles). Il est utilisé principalement pour comparer un même caractère dans deux populations de tailles différentes. Il s'agit de tracer un rectangle allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute parfois des segments aux extrémités menant jusqu'aux valeurs min/max ou jusqu'au premier et neuvième décile. On parle alors de diagramme en boîte à moustaches ou à pattes.
Sparklines [modifier]
Les sparklines sont un format développé par Edward Tufte pour des mini-graphiques qui peuvent être insérés dans un texte sur une page.
Tufte décrit les sparklines comme des "graphiques intenses en données, de design simple, et ayant la taille d’un mot". Alors que le graphique typique est conçu de manière à montrer le plus de données possible et qu'il est placé hors du flux de texte, les sparklines sont concis, mémorisables, et localisés précisément à l’endroit approprié.
| Sparklines U.S. stock market activity (February 7, 2006) |
|||
|---|---|---|---|
| Day | Index | Value | Change |
| Dow Jones | 10765.45 | −32.82 (−0.30%) | |
| S&P 500 | 1256.92 | −8.10 (−0.64%) | |
| Nasdaq | 2244.83 | −13.97 (−0.62%) | |
Bibliographie [modifier]
- (en) William Playfair, The Commercial and Political Atlas : Representing, by Means of Stained Copper-Plate Charts, the Progress of the Commerce, Revenues, Expenditure and Debts of England during the Whole of the Eighteenth Century, 1786
- (en) William Playfair, Statistical Breviary : Shewing, on a Principle Entirely New, the Resources of Every State and Kingdom in Europe, Londres, Wallis, 1801, 1re éd.
- (en) Howard Gray Funkhouser, Historical Development of the Graphical Representation of Statistical Data, Saint Catherine Press, 1937
- (en) John Tukey, Exploratory Data Analysis, Addison-Wesley Publishing Company, 1977
- (en) Edward Tufte, The Visual Display of Quantitative Information, Graphics Press USA, 2001, 2e éd. (1re éd. 1983), 190 p.
- (en) Stephen Fienberg, « Graphical methods in statistics », The American Statistician, vol. 33, no 4, 1979, p. 165-178
- (en) William Cleveland, Visualizing Data, At&T Bell Laboratories, 1993, 360 p.
- (en) Toby Segaran et Jeff Hammerbacher, Beautiful Data : The Stories Behind Elegant Data Solutions, O'Reilly Media, Inc, USA, 2009
- (en) Nathan Yau, Visualize This : The FlowingData Guide to Design, Visualization, and Statistics, John Wiley & Sons Inc, 2011, 384 p.
- (en) Nathan Yau, Data Points: Visualization That Means Something, John Wiley & Sons Inc, 2013, 336 p.
Notes et références [modifier]
- Cet article est partiellement ou en totalité issu de l'article intitulé « Visualisation de données » (voir la liste des auteurs).
Notes [modifier]
- Edward Tufte parle de « data maps », littéralement « cartes de données »
- En anglais, le « Time-series plot »
Références [modifier]
- Victorin Chevallier, « Notice nécrologique sur M. Minard, inspecteur général des ponts et chaussées, en retraite », Annales des ponts et chaussées : Mémoires et documents, Paris, Dunod, vol. II de la 5e série, 2e sem. 1871, p. 1–22
- [www.19e.org/biographies/M/Minard.htm Biographie de Charles Joseph Minard] sur 19e.org, site consacré à l'histoire du XIXe siècle
- Charles Joseph Minard: Mapping Napoleon's March, 1861 by John Corbett, Center for Spatially Integrated Social Science
- Tufte 2001, p. 9
- Tufte 2001, p. 46-47
- Tufte 2001, p. 53
- Exemple de représentation du budget de l'État, à partir d'un jeu de données publiques provenant du Sénat)
- Tufte 2001, p. 16-20
- Tufte 2001, p. 20-24
- Tufte 2001, p. 28-33
- Tufte 2001, p. 33
- Tufte 2001, p. 44