Discussion Projet:Communes de France/Wikidata et population des communes françaises

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.
Autres discussions [liste]
  • Admissibilité
  • Neutralité
  • Droit d'auteur
  • Portail de qualité
  • Bon portail
  • Lumière sur
  • À faire
  • Archives
  • Commons

Cette page de discussion a vocation à affiner les modalités organisationnelles des données de population des communes françaises dans Wikidata. Au fur et à mesure de l'obtention d'un consensus, la page principale sera modifiée.

Qualificateur : Année de population légale[modifier le code]

L'année de population légale est le premier qualificateur à prendre en compte :

  • date = Propriété P585 - date - Point in time.

Ce qualificateur est toutefois insuffisant pour bien comprendre le cadre de référence de la donnée. En effet, pour 2011, les populations légales millésimées 2011 sont entrées en vigueur le 1er janvier 2014. Elles ont été calculées conformément aux concepts définis dans le décret n° 2003-485 du 5 juin 2003. Leur date de référence statistique est le 1er janvier 2011. Ces populations sont disponibles pour les différentes circonscriptions administratives existant au 1er janvier 2013 dans leurs limites territoriales à cette date. (Voir ici).

Ainsi au lieu du seul qualificateur de l'année de population légale (millésime de population légale : 2011 dans le cas présent), ce sont trois qu'il serait souhaitable de prendre en compte :

  • Année de population légale : 2011
  • Date de publication : 1er janvier 2014
  • Date de référence des limites territoriales : 1er janvier 2013.

Retient-on ces trois qualificateurs ?Roland45 (discuter) 13 avril 2014 à 09:15 (CEST)[répondre]

Ça me va. Si on veut être très précis, ça rentre effectivement en vigueur au 1er janvier mais depuis la population légale 2006, il me semble que cela a toujours été publié sur le site Insee.fr la veille ou l’avant-veille (30 ou 31 décembre). Autrement, les chiffres sont connus avant et sont notamment communiqués aux municipalités durant la première quinzaine de décembre par courrier. GabrieL (discuter) 13 avril 2014 à 16:13 (CEST)[répondre]

Qualificateur : Méthode de détermination[modifier le code]

Il peut être envisagé de préciser sur Wikidata la manière dont la population a été mesurée. Dans Wikidata, il s'agit de la propriété 459 (determination method (P459) = méthode de détermination)

Pour une année donnée on a 4 types de mesures :

  1. les sondages (d:Q3490295) pour les communes de plus de 10 000 habitants
  2. des recensements (d:Q39825) pour 1/5 des communes de moins de 10 000 habitants
  3. des interpolations pour 2/5 des communes de moins de 10 000 habitants.
  4. des extrapolations pour 2/5 des communes de moins de 10 000 habitants.

Par simplification ces 4 types de mesures peuvent être ramenés à trois pour l'utilisation qui en est faite sur Wikipédia : "recensement", "estimation pop inf 10000" et "estimation pop sup 10000".

Dans les tableaux ou graphiques on n'affiche que les données relatives à des "recensements" ou "estimations pop sup 10000".

Une troisième méthode encore plus simple peut être de retenir qu'un qualificateur binaire recensement/ estimation correspondant à l'action : on affiche / on n'affiche pas.

Quel qualificateur retenir ?Roland45 (discuter) 13 avril 2014 à 09:15 (CEST)[répondre]

A mon avis, il vaut mieux garder la qualificatif le plus précis possible, dans le cas où on en ait besoin pour autre chose sur Wikipédia ou ailleurs. Il n'est pas très difficile de gérer plusieurs valeurs distinctes dans un module Lua. --Zolo (discuter) 13 avril 2014 à 11:26 (CEST)[répondre]
OK. Je n'avais pas imaginé qu'effectivement on peut récupérer l'info via une base de données spécifique (celle des premiers recensements).Roland45 (discuter) 13 avril 2014 à 12:22 (CEST)[répondre]
Dans les documents de l'INSEE, les sondages pour les plus de 10 000, nous appelons ça "recensements par échantillon" ou moins souvent "recensements par sondage" et pour les moins de 10 000, "recensements exhaustifs". Tes trois derniers points fonctionnant par roulement : dans ce document La détermination de la population légale des communes, il y a une explication de la page 6 à 8 pour les méthodes utilisées pour les interpolations et extrapolations. Pour les moins de 10000, oui pour "un qualificateur binaire recensement/ estimation correspondant à l'action : on affiche / on n'affiche pas". Pour les plus de 10000, la première pop légale est celle de 2006, le mieux serait de reprendre ensuite tous les cinq ans (2006, 2011, 2016), car si on prend moins de cinq ans par exemple entre 2006 et 2007, 4/5 des données utilisées pour le calcul des chiffres de la population sont identiques. Entre 2006 et 2010, encore 1/5 des données sont les mêmes. Il faut cinq ans pour qu'il y ait un renouvellement totale des données. GabrieL (discuter) 13 avril 2014 à 16:21 (CEST)[répondre]
Si on ne retient que trois valeurs pour le qualificateur : estimation/recensement exhaustif/recensement par échantillons, on obtient, sauf erreur de ma part, par déduction du calendrier des recensements le tableau suivant pour les populations légales 2011 publiées le 1er janvier 2014.Roland45 (discuter) 15 avril 2014 à 22:12 (CEST)[répondre]

Sourçage[modifier le code]

Sur Wikidata, les données ont souvent sourcées avec les wikipédias elles-même. Pire pour certaines données de population française, elles sont sourcées par la WP néerlandaise! Ceci est une aberration. Il est nécessaire de citer une source claire (Insee ou EHESS), comme cela est fait dans les actuels modèles de données sur la WP française. Dans le cas de la population municipale, il est souhaitable de citer l'url d'accès aux données de l'Insee.

OK sur ce principe ?Roland45 (discuter) 13 avril 2014 à 09:16 (CEST)[répondre]

Au début, beaucoup de données ont été importées de Wikipédia mais, même sur Wikidata, tout le monde a l'air d'accord sur le fait que ce n'est pas une bonne solution sur le long terme. La grosse interrogation est la licence CC0 de Wikidata qui ne semble pas vraiment compatible avec l'importation de masse de données CC-BY (Wikidata:PC#Modifying_license_.3F). --Zolo (discuter) 13 avril 2014 à 11:34 (CEST)[répondre]

Documentation[modifier le code]

Les modèles de données de population de la WP:fr produisent une documentation très complète (voir par exemple {{Données/Adon/évolution population}}. Ce qui n'est pas le cas dans Wikidata. On perdrait ainsi beaucoup de lisibilité, sauf si on peut ajouter des informations de type documentaire.

Y a-t-il un moyen de donner une documentation plus complète en particulier sur les modes de recensement en France ?Roland45 (discuter) 13 avril 2014 à 09:17 (CEST)[répondre]

Réutilisation des données dans les modèles de la WP:fr[modifier le code]

Pour que les données de population puissent être réutilisées correctement dans la WP:fr en respectant la convention d'affichage, il est nécessaire de pouvoir utiliser les qualificateurs eux-mêmes en tant que données. Est-ce possible ?Roland45 (discuter) 13 avril 2014 à 09:18 (CEST)[répondre]

Pas de problème là dessus. En revanche, si on ne veut garder que les années om il y a eu un recensement, il faut avoir des données là dessus, et ça ne semble pas très facile à obtenir. Voir la contribution de utilisateur:GabrieL sur Discussion_Projet:Communes_de_France#Méthode de mesure de la population. On a des solutions ? --Zolo (discuter) 13 avril 2014 à 11:40 (CEST)[répondre]
J'ai la base de données des premiers recensements, récupérée à partir des affichages en ligne. C'est précisément cette base qui sert à établir le fait qu'une donnée est affichable ou non, dans l'actualisation des modèles de données. Il suffit de faire un test de correspondance modulo 5. Ainsi pour le millésime 2011, on ne retient que les populations dont le premier recensement est 2006 et celle qui sont codées "A" (pour annuel), à savoir les communes de plus de 10000 habitants. Donc si je comprend bien on chargerait sur Wikidata une base spécifique aux premiers recensements et le module récupèrerait l'info via le code Insee. Cela correspond en fait à ce que l'on fait lors de l'actualisation. Je vais mettre en forme cette base et la publier. Cela devrait faire avancer le sujet.Roland45 (discuter) 13 avril 2014 à 12:18 (CEST)[répondre]
Bien entendu il conviendra d'actualiser cette base chaque année pour tenir compte des fusions de communes (les suppressions ne posent pas de problème, seules les fusions peuvent entrainer une modification du calendrier de recensement).Roland45 (discuter) 13 avril 2014 à 12:26 (CEST)[répondre]
Voici la base de données en question.Roland45 (discuter) 13 avril 2014 à 12:38 (CEST)[répondre]
Attention, il y aussi les quelques communes qui traversent le seuil des 10000 et qui passent d'une méthode à l’autre. GabrieL (discuter) 13 avril 2014 à 16:15 (CEST)[répondre]
Effectivement. C'est à la marge, mais formellement il faudrait vérifier chaque année toutes les bases par département et voir si l'indicateur "chaque année" correspond bien aux "A" du tableau. J'ai vérifié pour 2011 le 01 et le 02. Villers-Cotterêts qui a eu son premier recensement en 2005 est par exemple passé en annuel. La vérification doit prendre une petite heure.Roland45 (discuter) 13 avril 2014 à 18:49 (CEST)[répondre]
Dans l’autre sens aussi, Varennes-Vauzelles en Bourgogne est dans ce cas-là. C'est une collègue qui a supervisé son recensement en 2013. En 2004, se basant sur les chiffres de 1999, ils ont commencé avec le recensement annuel par échantillon puis, recensement exhaustif en 2013 et le prochain en 2018. Ils ont dû basculer d'une méthode à l’autre après trois populations légales sous le seuil (2006, 2007 et 2008), ainsi, je crois que 2011 fut le dernier par échantillon, je crois mais j'en suis pas sûr. GabrieL (discuter) 13 avril 2014 à 20:30 (CEST)[répondre]

Voici finalement le calendrier 2014 des recensements, récupéré à partir du site de l'Insee. Il y a ainsi 30 communes initialement recensées tous les 5 ans passées en annuel et a contrario 14 recensées antérieurement annuellement et désormais tous les 5 ans :

En fait si on veut être exhaustif, il faudrait charger sur wikidata annuellement la donnée à partir d'une base comme celle indiquée ci-dessus. Ainsi pour chaque commune on aurait par année deux types de données : la population et le mode de recensement, donnée déduite du fichier ci-dessus. Le croisement de ces données via le module permettrait d'afficher ou non la population dans le tableau ou graphique.Roland45 (discuter) 15 avril 2014 à 21:24 (CEST)[répondre]

Non, pour Saint-Germain-Source-Seine, c'est une commune recensée tous les ans depuis le début mais peut-être a-t-elle vu son année de recensement changer suite à sa fusion avec la commune voisine. En cas de fusion de communes, c'est le service du recensement de la direction régionale de l'INSEE de Lyon qui choisit pour la France entière l'année de recensement de la nouvelle commune (normalement année de recensement prévue de l'une des anciennes communes qui a disparu avec la fusion, généralement la plus grande d'entre elles - même s'ils peuvent à cette occasion théoriquement choisir une autre année pour raison de rééquilibrage des cinq groupes). GabrieL (discuter) 16 avril 2014 à 10:50 (CEST)[répondre]

Réutilisation des données de l'Insee dans Wikidata[modifier le code]

Ce sujet a déjà été traité par ailleurs. Je crois me souvenir qu'il n'y a pas de pb. Mais n'ayant plus la réf de la discussion, autant le repréciser ici.Roland45 (discuter) 13 avril 2014 à 09:28 (CEST)[répondre]

Bonjour Zolo et Roland45 Émoticône bonjour tout le monde,
Bon, je viens de regarder ça suite à un message de Zolo sur ma page de discussion. Il y a un soucis, Wikidata n'est pas sous la même licence que Wikipédia, Wikidata est sous licence CC0 alors que Wikipédia est sous licence CC-BY-SA. C'est-à-dire que si quelqu'un réutilise les données sur Wikipédia, il doit rappeler la paternité des données, or Wikidata s'est placé dans une licence où cette obligation n'existe pas or la position de l'INSEE à ce sujet est la suivante :
« Les publications et données mises à disposition sur le présent site (insee.fr) sont consultables et téléchargeables gratuitement ; sauf spécification contraire, elles peuvent être réutilisées, y compris à des fins commerciales, sans licence et sans versement de redevances autres que celles collectées par les sociétés de perception et de répartition des droits d'auteur régies par le titre II du livre III du code de la propriété intellectuelle ; la réutilisation est toutefois subordonnée au respect de l'intégrité de l'information et des données et à la mention précise des sources.
L’INSEE est favorable à la création de liens hypertextes vers les pages de son site. De façon générale, tout lien établi à partir d'un autre site vers le site internet de l'Insee doit indiquer de façon claire à l'internaute qu'il est dirigé vers le site www.insee.fr, en faisant notamment mention intégrale et visible de cette URL. En outre, l'Insee se réserve le droit de demander la dissolution des liens dont il estimera qu'ils sont de nature à porter préjudice à son image ou à ses droits.
Toute reproduction pour un usage autre que strictement privé des écrans de navigation du présent site et des marques et logos - notamment celui de l'Insee - qui y sont affichés est rigoureusement interdite. »
Étant donnée la mention que j'ai mise en gras, comme les règles de Wikidata ne semblent pas prévoir pas d'exception à sa licence CC0 dans le cas où elle réutilise des données n’étant pas sous une licence identique, il faut s'abstenir de réutiliser les données dans Wikidata sans autorisation écrite préalable de l'INSEE (« on ne peut (l')utiliser [la licence CC0] que pour des travaux sur lesquels on possède les droits, ou une délégation suffisante pour agir au nom d'un tiers » selon l'article Licence CC0). Je conseille donc à Wikidata (à un représentant de Wikimédia ?) de les contacter par courrier recommandé pour avoir une trace écrite de cette délégation suffisante :
Direction générale de l'INSEE
à l'attention de Mme ou M. le chef du département de l'offre éditoriale
18, boulevard Adolphe Pinard
Timbre H201
75675 Paris cedex 14
GabrieL (discuter) 15 avril 2014 à 11:29 (CEST)[répondre]
Bonjour AntonyB Émoticône
Merci pour ton message, je continue la discussion ici pour que cela soit sur une page du Projet. GabrieL (discuter) 15 avril 2014 à 12:45 (CEST)[répondre]
A noter : une discussion sur Wikidata pour mettre en place une procédure de demande de mise en CC0 des données. Si vous voulez participer, c'est d:WD:PC#Data release email templates. --Zolo (discuter) 16 avril 2014 à 12:32 (CEST)[répondre]