Utilisateur:Kumkum/Diagrammes
Prenons un exemple de données à représenter : les arbres en Turquie, avec les données fournies par la Direction générale des forêts turque en 2012 ([PDF] là page 23).
Nous avons en série brute ceci :
Kızılçam 5854673
Meşe 5152561
Karaçam 4693060
Kayın 1961660
Sarıçam 1479648
Göknar 670389
Ardıç 575315
Sedir 463521
Ladin 334472
Kızılağaç 141118
Kestane 111044
Fıstıkçamı 89028
Gürgen 19962
Ihlamur 11523
Dişbudak 9443
Kavak 6547
Okaliptus 2528
Diğer 101642
TOTAL 21678134
J'ai traduit en regardant les pages sur la Wikipédia turque et en collant les titres correspondants en français.
Si je me contente de mettre sans réfléchir ces données dans un histogramme, ça donne ça :
On doit se poser les questions suivantes :
- Est-ce que les données à représenter sont similaires ou comparables ?
- On compare des espèces différentes, mais ce sont tous des arbres, et ils sont tous comptés en hectares :
Oui Quand on récupère des statistiques réalisées par des statisticiens dont c'est le métier dans des institutions officielles, la question est rarement à poser. Mais on sait jamais.
- On compare des espèces différentes, mais ce sont tous des arbres, et ils sont tous comptés en hectares :
- Est-ce qu'il est possible d'identifier les données ?
- Certains intitulés sont en français d'autres en latin, un bon nombre de ces espèces ne sont pas triviales, les étiquettes se chevauchent, il n'y a aucun lien :
Non
- → Solution : mettre des liens, réduire la taille de la police, n'utiliser que des étiquettes en français.
- Certains intitulés sont en français d'autres en latin, un bon nombre de ces espèces ne sont pas triviales, les étiquettes se chevauchent, il n'y a aucun lien :
- Est-ce que le mode de représentation est adapté à la nature des données ?
- Est-ce que le mode de représentation est adapté ?
- Il y a trois grandes familles de données :
- Les données qualitatives
- ordinales → oui (un tri décroissant sur des entités de nature différentes), l'histogramme est un outil pertinent.
Oui
- non-ordinales
- ordinales → oui (un tri décroissant sur des entités de nature différentes), l'histogramme est un outil pertinent.
- Les données quantitatives
- Les données qualitatives
- Il y a trois grandes familles de données :
- Est-ce qu'il est possible de percevoir et de comparer chaque entité ?
- Après Sapin qui fait moins d'un million d'hectares, non. Après Aulne, impossible.
Non
- → Solution : virer tout ce qui est après Sapin et les mettre dans Autres.
- Après Sapin qui fait moins d'un million d'hectares, non. Après Aulne, impossible.
- Est-ce que le mode de représentation traduit sans déformation les données ?
- C'est bon jusqu'à Pin sylvestre. Après, l'échelle ne permet aucune différenciation. Vous avez vu qu'il y a deux fois plus de Sapin que de Picea ?
Non
- → Solution : régler l'échelle.
- C'est bon jusqu'à Pin sylvestre. Après, l'échelle ne permet aucune différenciation. Vous avez vu qu'il y a deux fois plus de Sapin que de Picea ?
- Est-ce que le mode de représentation est adapté ?
- Est-ce que l'information est hiérarchisée et organisée ?
- Attention, ce n'est pas la donnée qui est hiérarchisée, mais l'information. Si vous avez tenté de représenter une information exhaustive en pensant bien faire, vous vous êtes trompés. Il faut faire un tri. Dans le cas présent, non, chaque espèce n'est pas distinguée de l'autre.
Non
- → Solution : utiliser deux classes, les essences à feuillage caduc ou persistant, ou les feuillus et les conifères.
- Attention, ce n'est pas la donnée qui est hiérarchisée, mais l'information. Si vous avez tenté de représenter une information exhaustive en pensant bien faire, vous vous êtes trompés. Il faut faire un tri. Dans le cas présent, non, chaque espèce n'est pas distinguée de l'autre.
Principales essences de l'espace forestier turc par espèce
Là c'est plus clair.