Projet:Démographie/France/Organisation et stockage des données

Une page de Wikipédia, l'encyclopédie libre.

Un nombre considérable de données est associé au projet Démographie pour ce qui concerne la France, puisqu'il y a un lot de données par division géographique française et à chaque division est associé un article, mais aussi le cas échéant un ou plusieurs articles détaillés. Par ailleurs de nombreux articles thématiques traitent également de données démographiques.

Cette page a pour objet de décrire l'organisation et le stockage de ces données, sur le plan historique et technique.

L'organisation et la gestion des données démographiques relatives à la France s'insère dans un domaine plus large que constitue le système d'information territoriale pour les divisions de la France.

Jusqu'en 2012 l'ensemble de ces données étaient stockées en dur dans les articles individuels des différentes divisions de la France ou autres. Chaque année elles devaient être actualisées à la main par un grand nombre de contributeurs, conduisant à un décalage très important dans l'actualisation des articles, allant jusqu'à plusieurs années pour les divisions délaissées par les contributeurs.

A partir de 2012 ont été créé des modèles de données hébergés dans la Wikipédia francophone, puis en 2017 des modules de données. Parallèlement les données de population se sont structurées sur Wikidata à partir de 2017.

En 2020 est lancé le projet de stockage de tables de données sur Commons (même si la question s'était déjà posée dès 2017).

Période Wikipédia Wikidata Commons
avant 2012 dans les articles
de 2012 à 2017 dans des modèles de données par circonscription (communes à partir de 2012, cantons et autres divisions à partir de 2014)
de 2017 à 2020 dans des modules de données en lua par circonscription Création élément P1082 (« population ») (et autres qualificatifs associés) et chargement des données à partir de 2017 Tables de données d'appartenance géographique communale à partir de 2018
à partir de 2021 Tables de données démographiques sur Commons par division ?

Typologie et dénombrement des données[modifier | modifier le code]

État des données et modèles par division au 1er janvier 2020[modifier | modifier le code]

Le tableau suivant recense la typologie et le nombre de données existant au 1er janvier 2020 (de manière approximative). Il ne recense pas toutes les utilisations de ces données.

Type de division Nombre de division
par type
Nombre de millésimes
par modèle
Nombre de millésimes
par module
Nombre total
de données
Modèles Modules
Circonscriptions administratives
Commune 34 968 46 46 modules : 34968 x 46 x 14 = 22 519 392 OUI OUI
Commune associée ou déléguée 2 916 OUI[Note 1] NON
Commune en COM1 35 NON NON
Commune en COM 48 NON NON
Canton 2 093 10 5 OUI OUI
Fraction cantonale 775 OUI NON
EPCI 1 256 4 OUI NON
Arrondissement 333 17 OUI OUI
Département 101 46 OUI OUI
Région 18 3 OUI OUI
Zonages d'études
Unité urbaine 2 386 NON NON
Aire urbaine 793 NON NON
Bassin de vie 1 664 NON NON
Zone d'emploi 322 NON NON

Typologie des modèles/modules/tables de données[modifier | modifier le code]

Modèles de données sur Wikipédia[modifier | modifier le code]

Modules de données sur Wikipédia[modifier | modifier le code]

Éléments de données sur Wikidata[modifier | modifier le code]

Tables de données sur Commons[modifier | modifier le code]

Tables de découpage communal[modifier | modifier le code]

Tables démographiques[modifier | modifier le code]

Des modules sur Wikipédia à des tables sur Commons[modifier | modifier le code]

Comparaison tables Commons et Wikidata[modifier | modifier le code]

SujetWikidataCommons
Format de stockageWikibaseJson
Commentaire formatStructure relativement complexe. Fomat expressif, permettant d'ajouter des sources précises et diverses qualifications. Consommateur de mémoire.Concis et léger.
Adapté pourDonnées complexes ou hétérogènes.Données homogènes séries temporelles, peut être certaines données numériques.
Organisation des donnéesPar élément.
En gros 1 concept = 1 élément. Les relations sémantiques entre éléments permettent une exploration programmatique des données.
Par fichier.
1 fichier = 1 lot de données homogènes. Possibilité de créer deux fichiers portant sur le même sujet mais utilisant des sources ou une méthodologie différente.
Indexation et recherche des donnéesMoteurs de recherche puissant.Peu de fonctionnalités de recherche. Pas de catégorisation. Documentation minimaliste. Le mieux pour retrouver les données est sans doute de lier depuis Wikidata.
Récupération sur WikiFacilement utilisables sur Wiki, avec des limites quantitatives dues au volume occupé par les données. Données faciles à récupérer. Facile à utiliser si on connait la manière dont elles sont structurées.
Utilisation externePoint Sparql et outils divers.Données téléchargeables, mais ne semblent pas encore vraiment utilisées.
Présentation pour le lecteurEn langage naturel. Généralement facile à comprendre mais souvent fouillis sur les éléments de grande taille. Quelques outils de mise en page externes.Table concise et propre mais l'utilisation des codes Wikidata comme valeur peut rendre la compréhension compliquée.
Edition manuelleEditeur interactif.Modification du code source Json.
MultilinguismeMultilinguisme natif pour les données de type "élément".Possibilité de traduction des textes, mais fichier par fichier. Possibilité d'utiliser les identifiants Commons pour automatiser la traduction sur le site client.
Risque de vandalismeModéré. Résumé et historique de modifications précis, mais la diversité des données et le grand nombre de modifs peuvent rendre le suivi en temps réel difficile. Risque de modification bien intentionnées mais contre-productives.Sans doute faible. Données peu visibles. Contraintes formelles empêchant les modifications hâtives.
Bots et outilsCommunauté importante, outils variés.Rien pour l'instant ?
LicenceCC0 (équivalent domaine public). CC0,CC attribution, ou CC attribution share alike.

Notes et références[modifier | modifier le code]

Notes[modifier | modifier le code]

  1. Ces modèles ne sont plus actualisées depuis le passage aux modules de données en 2018.

Références[modifier | modifier le code]