Utilisateur:Kumkum/Diagrammes

Prenons un exemple de données à représenter : les arbres en Turquie, avec les données fournies par la Direction générale des forêts turque en 2012 ([PDF] là page 23).

Nous avons en série brute ceci :

Kızılçam 5854673

Meşe 5152561

Karaçam 4693060

Kayın 1961660

Sarıçam 1479648

Göknar 670389

Ardıç 575315

Sedir 463521

Ladin 334472

Kızılağaç 141118

Kestane 111044

Fıstıkçamı 89028

Gürgen 19962

Ihlamur 11523

Dişbudak 9443

Kavak 6547

Okaliptus 2528

Diğer 101642

TOTAL 21678134

J'ai traduit en regardant les pages sur la Wikipédia turque et en collant les titres correspondants en français.

Si je me contente de mettre sans réfléchir ces données dans un histogramme, ça donne ça :

1 000 000

2 000 000

3 000 000

4 000 000

5 000 000

6 000 000

Pin de Calabre

Chêne

Pinus nigra

Fagus

Pin sylvestre

Sapin

Genévrier

Cèdre

Picea

Aulne

Châtaigner

Pin parasol

Charme

Tilleul

Frêne

Peuplier

Eucalyptus

Autres

On doit se poser les questions suivantes :

Est-ce que les données à représenter sont similaires ou comparables ?
- On compare des espèces différentes, mais ce sont tous des arbres, et ils sont tous comptés en hectares : Oui Quand on récupère des statistiques réalisées par des statisticiens dont c'est le métier dans des institutions officielles, la question est rarement à poser. Mais on sait jamais.
Est-ce qu'il est possible d'identifier les données ?
- Certains intitulés sont en français d'autres en latin, un bon nombre de ces espèces ne sont pas triviales, les étiquettes se chevauchent, il n'y a aucun lien : Non
- → Solution : mettre des liens, réduire la taille de la police, n'utiliser que des étiquettes en français.
Est-ce que le mode de représentation est adapté à la nature des données ?
1. Est-ce que le mode de représentation est adapté ?
  - Il y a trois grandes familles de données :
    - Les données qualitatives
      - ordinales → oui (un tri décroissant sur des entités de nature différentes), l'histogramme est un outil pertinent. Oui
      - non-ordinales
    - Les données quantitatives
2. Est-ce qu'il est possible de percevoir et de comparer chaque entité ?
  - Après Sapin qui fait moins d'un million d'hectares, non. Après Aulne, impossible. Non
  - → Solution : virer tout ce qui est après Sapin et les mettre dans Autres.
3. Est-ce que le mode de représentation traduit sans déformation les données ?
  - C'est bon jusqu'à Pin sylvestre. Après, l'échelle ne permet aucune différenciation. Vous avez vu qu'il y a deux fois plus de Sapin que de Picea ? Non
  - → Solution : régler l'échelle.
Est-ce que l'information est hiérarchisée et organisée ?
- Attention, ce n'est pas la donnée qui est hiérarchisée, mais l'information. Si vous avez tenté de représenter une information exhaustive en pensant bien faire, vous vous êtes trompés. Il faut faire un tri. Dans le cas présent, non, chaque espèce n'est pas distinguée de l'autre. Non
- → Solution : utiliser deux classes, les essences à feuillage caduc ou persistant, ou les feuillus et les conifères.

Principales essences de l'espace forestier turc par espèce