Wikipédia:RAW/2021-08-01

Fonctions
Membre de l'Assemblée législative de la population régionale (d); Indonesian Regional Representative Council 2014-2019 (d); DPD Gorontalo electoral district (d)
1er octobre 2014 - 30 septembre 2019
Sénatrice
Naissance	1er septembre 1969 (55 ans); Jakarta
Nationalité	indonésienne
Domiciles	Gorontalo, Setiabudi (en)
Formation	SMA Negeri 34 Jakarta (d) (1985-1989); Institute of Social and Political Science Jakarta (d) (à partir de 1989)
Activités	Femme d'affaires, femme politique, socialite
Conjoint	Fadel Muhammad (en)
Partis politiques	Parti démocratique indonésien de lutte (jusqu'en 2018); Parti pour l'unité et le développement (depuis 2018); Parti pour l'unité et le développement; Parti national démocrate

Regards sur l’actualité du mouvement Wikimedia

Infolettre francophone mensuelle n^o 235

2021-06-01 | 2021-07-01 | 2021-08-01 | 2021-09-01

S'inscrire ou se désinscrire

Brèves

▲ Un article assassin — Un « historien québécois spécialiste de l’histoire de l'Europe contemporaine » a appris, pour une énième fois, son décès. L'article Marc Simard dans la Wikipédia en français le déclarait en effet mort le 15 juillet 2021. L'historien a tenté à plusieurs reprises de supprimer ce passage, tout en ajoutant des informations sur une fonction qu'il a occupée et des langues qu'il « baragouinait ». Probablement méfiants à la suite des nombreux vandalismes affectant l'article, par la non-neutralité du verbe « baragouiner » ou par le fait que M. Simard intervenait sous IP, des contributeurs lui demandaient des sources pour ses ajouts. Lors de l'une des révocations, les mentions de mort sont accidentellement demeurées en place, ce qui a fait conclure à M. Simard qu'on lui demandait des sources pour prouver qu'il était en vie.
Marc Simard est ressuscité (à nouveau) une semaine plus tard et la page est désormais semi-protégée. L'historien est une personnalité controversée, ce qui peut expliquer l'entêtement de certains contributeurs à vouloir lui faire du tort. (fr)[1]

▲ OpenStreetMap —

« En quelques années seulement, OpenStreetMap a réussi à produire des cartes très détaillées qui rivalisent avec celles créées par les organismes nationaux et les grandes entreprises technologiques telles que Google et Nokia. Un vaste réseau de bénévoles combine le travail à distance, comme le traçage d'images satellites pour mettre à jour les caractéristiques naturelles, avec l'expertise sur le terrain, en parcourant les centres-villes pour s'assurer que les magasins, les restaurants et les bureaux sont correctement enregistrés.^{[trad 1]} »

— Alex Hern, The Guardian, 30 juin 2021

L'écosystème Wikimedia, notamment Wikipédia, Wikidata et Wikivoyage, utilise régulièrement les cartes d'OpenStreetMap (OSM). À la suite du Brexit, l'UE et le Royaume-Uni n'ont plus de politique harmonisée sur la propriété intellectuelle des bases de données. Par exemple, depuis le 1^er janvier 2021, une base de données créée au R.-U. n'est pas protégée en UE, et vice-versa. En plus de l'incertitude qui plane sur les bases de données, la fondation qui chapeaute les activités d'OSM, créée en 2006, vit de multiples difficultés bureaucratiques. Le directeur de la fondation mentionne également des coûts d'exploitation plus élevés et la perte du TLD .eu. Plusieurs pays européens n'ayant pas de chapitres locaux, la fondation juge que son influence sera meilleure si elle loge sur le territoire européen. L'Irlande et la France sont toutefois exclues, l'une pour des raisons administratives, l'autre par crainte de manquer de personnel maîtrisant l'anglais. [2]

▲ Cadeau virtuel — Le Premier Ministre britannique a offert une photo au président américain. Elle dépeint l'Afro-américain Frederick Douglass (1817-1895), homme d'État et abolitionniste. Ce don a été largement discuté dans les pages des quotidiens The Washington Post, The Independent et The Times. Certains jugent que c'est un cadeau médiocre en raison de sa valeur économique nulle, d'autres jugent que c'est un bon cadeau parce qu'il rappelle les liens forts qui unissent les deux pays et met en valeur les médias dits libres. [3], [4]

▲ Foundation 360 : James Baldwin — La Wikimedia Foundation (WMF) publie la série de billets Foundation 360 qui vise à mieux faire comprendre son fonctionnement à travers les gens qu'elle emploie. James Baldwin travaille au département des finances et administration de la WMF. Malgré son agenda chargé, il s'est prêté à une entrevue. Même s'il travaille régulièrement avec les nombres, il admet son incapacité à saisir l'ampleur de 15 milliards de pages vues par mois. Il continue en indiquant que beaucoup de personnes associent les gens dans son domaine à des spéculateurs ; il affirme au contraire que plusieurs veulent le bien de leurs concitoyens. S'il travaille à la WMF, c'est parce qu'il veut influencer en ce sens.

Son département est divisé en cinq branches : (1) Financial Strategy, (2) Operations, (3) Compliance, (4) Information Technology Services et (5) Administration. La première supervise l'allocation des ressources pour accomplir les missions du mouvement ; elle conseille également le groupe chargé des subventions et les chapitres (comme Wikimédia France par exemple). La deuxième soutient les opérations d'infrastructure, telles la comptabilité, la facturation, les salaires et les rapports de dépenses ; ce service est offert à l'ensemble du mouvement, y compris pour l'administration des subventions. La troisième, Compliance, s'occupe de tout ce qui touche au statut fiscal de la WMF (qui est une organisation 501(c)(3) selon le droit fiscal américain). Sans ce statut, elle serait dans l'impossibilité de recueillir des fonds, activité essentielle au maintien des activités du mouvement (par exemple, aucune possibilité de maintenir en fonction les serveurs si pas de fonds). Cette branche offre aussi des conseils aux groupes affiliés sur la façon d'encaisser dans leur pays l'argent remis par la WMF. Le quatrième, qui s'apparente au service de soutien des TIC, et le cinquième peuvent sembler sans intérêt pour le mouvement. Ils sont chargés de superviser le programme de dons de portables usagés aux bénévoles ainsi que les réservations de transport pour les bénévoles subventionnés qui participent à des évènements financés par la WMF.

Selon Charity Navigator, « organisme de notation des associations caritatives », la WMF obtient en 2021 une note de 4 sur 4 en ce qui a trait à la transparence, la comptabilité et les finances pour l'année fiscale 2019.

Baldwin explique que le système financier américain est suffisamment connu et réputé de par le monde pour que le transfert de fonds vers presque tous les pays soit simple à réaliser. Les plaintes les plus souvent entendues à la suite des transferts de fonds sont que les bénéficiaires n'ont pas reçu les fonds et que l'inflation locale a sensiblement réduit le montant promis. Régulièrement, les gens de la WMF parviennent à éliminer les problèmes soumis, mais il reste toujours des cas insolubles.

Quel dossier suscite le plus sa fierté ? Les subventions sont remises selon trois programmes. Personne ne savait quelle proportion de celles-ci était allouée à chaque région du globe. Après avoir mis en place un système pour catégoriser les subventions selon la région du globe, il a pu déterminer que les régions de l'Atlantique Nord étaient largement bénéficiaires des subventions. La WMF a décidé de relever le plafond global de subventions de plus de 7 millions US$, ce montant additionnel devant être dirigé en priorité vers les autres régions du globe. Selon Baldwin, cette décision va profiter au mouvement, mentionnant entre autres des groupes africains et asiatiques particulièrement actifs.

▲ La Meilleure Ressource — Cambridge University Press publiera en 2022 Should You Believe Wikipedia?, un livre rédigé par Amy S. BruckmanAmy S. Bruckman, professeur au Georgia Institute of Technology. Quelques semaines avant une présentation à un congrès sur les systèmes intelligents, elle s'est prêtée à une entrevue de PC Mag.

Amy S. BruckmanAmy S. Bruckman en 2001. Elle détient un PhD du MIT Media Lab et se spécialise en informatique sociale (*social computing (en)*)

Le journaliste lui a demandé à quand remontait son intérêt pour les communautés du Web. Vers 1990, elle avait observé un système virtuel multi-utilisateur basé sur le texte. L'un de ses collègues avait conçu un robot capable de se rendre dans un local précis à une heure précise, où il lisait un chapitre du livre Society of Mind de Marvin Minsky. Elle déclare avoir été accro dès ce jour. Elle a alors créée un univers multi-utilisateur basé sur le texte, suivi de MOOSE Crossing^{[note 1]}, un jeu où les enfants travaillaient ensemble à créer un univers tout en apprenant la programmation orientée objet et en pratiquant l'écriture créative. Le journaliste mentionne avoir de bons souvenirs de MOOSE Crossing. Il est toutefois curieux de savoir quel système d'exploitation elle utilisait. Internet n'était pas un média de masse à cette époque ; elle utilisait le système d'exploitation Unix.

En ce qui concerne Wikipédia, le journaliste lui demande si on peut se fier à son contenu. Pour elle, la réponse n'est pas simple. Dans son livre, elle affirme que le contenu d'une page de Wikipédia régulièrement consultée constitue probablement la forme d'information la plus exacte jamais créée. Elle mentionne qu'un article scientifique évalué par les pairs est habituellement étudié par trois spécialistes (qui peuvent ou non vérifier chaque détail) ; l'article est ensuite figé pour l'éternité. Le contenu d'une page de Wikipédia très consulté peut être vérifié par des milliers de personnes. L'article peut être mis à jour si une nouveauté apparaît. Les contributeurs maîtrisent à des degrés variables le sujet, mais s'ils étayent l'information par des sources fiables, le résultat est « robuste »^{[trad 2]}. A contrario, une page moins consultée pourrait être moins fiable.

Le journaliste enchaîne sur la notion de vérité. Pour Bruckman, les contenus d'Internet vont s'améliorer si les créateurs de contenus adhèrent à une « épistémologie de la vertu »^{[trad 3]}. Selon cette approche philosophique, la connaissance est une réalisation conjointe. Nous pouvons tous y participer en aspirant aux vertus épistémiques : « curiosité, autonomie intellectuelle, humilité intellectuelle, vigilance, prudence intellectuelle, rigueur intellectuelle, ouverture d'esprit, courage intellectuel et ténacité intellectuelle »^{[trad 4]}.

En supposant qu'une personne soit dotée de ces vertus, elle devrait rechercher la vérité. Mais, demande-t-il, comment savons-nous ce qui est vrai ? Pour Bruckman, le vrai monde existe, mais il n'est accessible que par nos sens limités et faillibles. Ça ne signifie pas qu'il est subjectif. Si elle est assise sur une chaise, le journaliste la percevra assise et elle aussi saura qu'elle est assise avec ses sens. Les deux seront d'accord qu'elle est assise sur une chaise. Le grand degré de corrélation de leurs observations subjectives permet de conclure que le vrai monde existe (et donc, qu'il y a définitivement une chaise). Plus il y a de gens qui perçoivent la même chose, plus on peut affirmer qu'elle est certaine. Plus il y a de gens qui possèdent ce qu'elle appelle des « processus cognitifs fiables »^{[trad 5]}, plus nous pouvons être certain que cette chose est vraie. Pour mieux asseoir son argumentation, elle porte son attention sur la théorie du changement climatique induit par les activités humaines. Est-ce vrai ? Selon elle, la réponse devrait être oui puisque de nombreuses personnes dotées de processus cognitifs fiables sont d'accord. Même si la connaissance existe hors du connaissant, le consensus social est la meilleure façon de déterminer ce qui est vrai.

Par la suite, le journaliste mentionne que la plupart des personnes vivent à l'intérieur d'une « bulle de gens partageant les mêmes idées »^{[trad 6]}, lieu qui soutient leurs biais cognitifs. Qu'en est-il de Wikipédia ? Bruckman affirme qu'elle n'a pas besoin d'un diplôme en climatologie pour choisir une nouvelle automobile. Elle reconnaît que de plus en plus de bulles de gens répandent de fausses informations, ce qui est un problème pour Internet. À son grand étonnement, Wikipédia semble un lieu où les fausses idées sont élaguées, éradiquées. Elle donne comme exemples la climatologie et la vaccination, où le consensus scientifique domine le discours dans les articles.

Pour le journaliste, Wikipédia est un modèle d'évaluation par les pairs, elle pourrait aussi accepter les témoignages oraux des victimes de l'Holocauste par exemple. Il note toutefois qu'ils ne sont pas acceptés par l'encyclopédie libre à cause de leur subjectivité. Bruckman rappelle que l'encyclopédie s'appuie sur des sources secondaires, c'est-à-dire des interprétations des témoignages, qui sont des sources primaires. Ces sources secondaires, les interprétations, doivent être produites par des historiens.

Bruckman écrit de temps à autre dans la Wikipédia en anglais. Elle a entre autres écrit sur les contenants à déchets, qui sont appelés bins ou cans en anglais, ce qui a prêté à débat dans cette communauté-là : à savoir quel terme devait être retenu comme titre de l'article.

Elle termine en affirmant que la vérité existe. Toutefois, savoir ce qu'est la vérité est un travail difficile. Pour elle, Internet sert à construire la connaissance. Elle juge que les internautes peuvent tirer des leçons du succès de Wikipédia.

▲ Enfermement — L'EFF a publié un billet sur l'« enfermement de l'Internet d'intérêt public ». L'auteur du billet commence par affirmer quelque chose qu'il est difficile de croire en ces temps modernes d'abondance médiatique sur Internet, que ce soit des articles en ligne, des livres électroniques ou des séries télévisées en continu. Dans les années 1990, lorsque le gouvernement américain a voulu démocratiser cette technologie, des penseurs ont conclu qu'en l'absence des industries du divertissements et de l'information, personne ne participerait à ce projet. Puisqu'il n'y avait aucun profit à en tirer en diffusant leurs contenus en ligne, pourquoi le feraient-elles ? Pour rendre ce nouveau média plus attractif, le gouvernement fédéral des États-Unis a passé plusieurs lois avantageant encore plus les acteurs de ces industries.

D'autres joueurs n'ont pas attendu de telles lois pour investir Internet : technophiles, étudiants universitaires et adeptes hâtifs de nouvelles technologies l'ont fait. Leurs efforts ont permis de construire un Internet où de plus en plus d'internautes pouvaient consulter des ressources gratuites et libres. L'auteur du billet donne comme exemple rec.arts.movies, un site où des gens ont inscrit beaucoup d'informations sur les films produits aux États-Unis, entre autres. Par la suite, la diversité et l'ampleur des contenus exigeant de plus en plus de maintenance, des internautes ont créé et maintenu une base de données des informations, ce qui a mené à la création de l'un des premiers sites Web créant à la volée les pages Web à partir d'informations stockées dans une base de données (« database-driven website »). En 1996, les contenus ont servi à créer une société commerciale, IMDb, laquelle a été plus tard vendue à Amazon.

Cette histoire démontre qu'Internet n'a pas attendu la présence des géants des médias et de l'information pour créer des contenus utiles et consultés. Internet n'avait pas besoin d'être reconnu par l'industrie des médias pour créer et divertir. Pour en revenir à IMDb, peu de participants ont pu profiter de la vente et de l'exploitation d'IMDb, qui offre également un accès payant qui s'adresse aux professionnels de l'industrie du cinéma. La base de données pré-IMDb est toujours en ligne, gratuitement, mais vous ne pouvez pas réutiliser ses contenus pour lancer une nouvelle société ; les termes de l'achat n'autorisent que sa réutilisation non-commerciale. Elle ne publie qu'une portion des contenus d'IMDb et si vous contribuez à IMDb, vous le faites sans rémunération. En pratique, Amazon a enfermé les contenus de la base de données originale.

Cette histoire n'est pas unique. Plusieurs projets lancés de façon bénévole ont pris une ampleur insoupçonnée, au point de dépasser les capacités des communautés bénévoles qui les ont créés et maintenus. Pour espérer poursuivre leurs missions, ces projets ont été vendus à des intérêts commerciaux ayant les capacités financières de poursuivre le maintien et la croissance de ces ressources qui faisaient pour la plupart partie des communs.

Néanmoins, quelques exceptions brillent. Wikipédia et OpenStreetMap (OSM) en font partie. La première se maintient grâce à sa vaste communauté mondiale et à sa capacité de s'autofinancer grâce aux levées de fonds. La seconde, qui jouit d'une communauté de moindre importance, peut elle aussi compter sur ses bénévoles. Selon l'EFF, ces deux sites sont des fleurons de l'Internet d'intérêt public. « Grâce à une gestion prudente ou à des avantages uniques, ils ont en quelque sorte échappé à un destin fermé et exploité en tant que service propriétaire appartenant à une poignée de géants de la technologie. »^{[trad 7]}

Pour l'auteur du billet, ces deux sites ne sont toutefois pas représentatifs de l'Internet d'intérêt public. Selon lui, ils sont aussi des géants technologiques, car ils ont une portée mondiale et doivent composer avec des soucis de transparence et de domination de marché. En 2021, il n'existerait aucun compétiteur digne de ce nom pour ces deux sites (plusieurs ont essayé, sans succès). Ils ont une influence trop importante dans l'Internet d'intérêt public parce que chacun est le seul à fournir des services dans son domaine respectif. Les politiques internes de ces deux communautés exercent, par ricochet, une influence sur l'ensemble des internautes qui les consultent. Les deux maintiennent des liens complexes et négociés avec les géants mercantiles du Web. La relation Google-Wikipédia est bien connue. Facebook et Apple donnent régulièrement à OSM, qu'ils utilisent abondamment. Pour cette raison, plusieurs craignent que les géants mercantiles d'Internet exercent une plus grande influence sur ces deux ressources que leur communauté respective.

Existe-t-il d'autres sites d'intérêt public ? Si oui, ne sont-ils que des dinosaures d'une époque révolue d'Internet ? L'auteur du billet croit que non. Il croit que des communautés agiles, répondant aux attentes des internautes, n'attendent que d'être découvertes. Il prétend que les géants actuels d'Internet sont les dinosaures qui seront renvoyés aux oubliettes de l'histoire lors d'une future révolution d'Internet.

[NdE : L'EFF a publié une série de billets en anglais sur l'Internet d'intérêt public les lire .]

▲ Statistiques des requêtes — Dans les derniers 30 jours, les Wikipédias linguistiques ont été consultées 6,4 milliards de fois. Quels sont donc les moteurs de recherche qui dirigent toutes ses requêtes ? Quels appareils sont utilisés ? Quels navigateurs Web ? Ces questions, des gens de la WMF se les posent pour les raisons que vous pouvez imaginer. Ils ont déterminé que les requêtes proviennent de 220 pays, en 100 langues différentes, par 50 familles de navigateurs Web et 20 moteurs de recherche. Wikipédia est disponible en presque 300 langues, pourquoi seulement 100 langues ? À cause du nombre total de requêtes dans le mois. S'il est inférieur à 500, il est classé parmi les autres langues parce que les gens de la WMF jugent que ce n'est pas représentatif de cette communauté linguistique. [5] Pour mieux étudier les statistiques de requêtes, ils ont créé une base de données interactive en conjonction avec le logiciel Turnilo. Une foule de statistiques est alors disponible. [6]

Google Search est responsable de plus de 90 % des consultations des Wikipédias. Saurez-vous nommer les quatre moteurs de recherche suivants par importance ? Yahoo !, autres moteurs, Bing et DuckDuckGo. [7] (sélectionnez le passage en blanc pour les connaître). Dans les derniers 30 jours, la Wikipédia en français a été consultée 290 millions de fois. Encore une fois, Google domine, suivi de Bing, Qwant, Ecosia et DuckDuckGo. [8]. Qu'en est-il des appareils mobiles comparativement aux portables et ordinateurs de bureau ? 4,5 milliards de consultations ont été faites avec des appareils mobiles, alors que 1,9 milliard de consultations ont été faites avec des portables ou des ordinateurs de bureau. [9]

Coin humour

Wikipédia est une entreprise sérieuse. Néanmoins, un peu d'humour peut aider à la rendre plus humaine. Pour souligner le 20^e anniversaire de la Wikipédia en français, cette publication propose quelques brèves humoristiques.

La France a sa Marianne, la Wikipédia veut son Jimmy

La mascotte de Linux est le manchot. La figure symbolique de la France est Marianne. Nombre d'hommes et de femmes sont célébrés pour leurs exploits et leur grandeur : Napoléon, Eleanor Roosevelt, Winston Churchill, Cléopâtre... Le globe puzzle est certes un symbole archi-connu, mais personne ne peut s'identifier à un concept.

Pourquoi ne pas doter l'encyclopédie libre d'un symbole fort, d'une image anthropomorphe ? C'est pourquoi des wikipédiens veulent déifier le co-fondateur de Wikipédia. Toutefois, il les défie et promet de faire intervenir les avocats et de modifier son article dans la Wikipédia en anglais si ses admirateurs poursuivent leur croisade.

Un article de Wikipédia est mis aux enchères...

Combien donneriez-vous pour acquérir un article de la Wikipédia en français ?^[1]

Un acheteur a fait le pari que l'article Futur, qu'il a acheté pendant un encan virtuel, serait comme le bon vin qui s'améliore avec l'âge. Un encanteur a flairé le bon filon : il propose de mettre à l'enchère Les Tournesols de Vincent van Gogh. Il est toutefois ennuyé qu'un compétiteur l'ait devancé pour Le Penseur. Ce compétiteur, qui s'est entendu avec les ayants droits de Rodin, juge que l'article se vendra plus cher que le Shelley Memorial !

Selon vous, quel prix pourra-t-on demander de l'article Catalogue de l'œuvre peint de Pieter Brueghel l'Ancien ?

Hana Hasanah Shahab (en) est la plus grande milliardaire du monde, avec une fortune évaluée à 182,4 milliards... de roupies indonésiennes !^{[note 2]}

Dans les coulisses de la Wikimedia

▲ Masquage des adresses IP — Ce sujet a été abordé dans une précédente parution. Au nom du droit à la vie privée entre autres, des salariés de la Wikimedia Foundation étudient la possibilité de masquer en partie ou en totalité les adresses IP qui apparaissent dans les historiques des pages. Le dossier est encore débattu, mais aucun plan définitif ne semble émerger des échanges. Sur la Wikipédia en anglais, les échanges sont nombreux ; si le masquage était imposé, l'interdiction de modifications par des contributeurs anonymes semblerait le choix de la majorité. [10]

▲ Images — Que serait Wikipédia sans les images ? La façon la plus simple d'insérer une image est [[Fichier:TITRE_IMAGE|vignette|LÉGENDE]]. Selon les souvenirs tirés de nos wikitiroirs, c'était déjà la façon de faire dès 2005^{[note 3]}. Avec les années, ce bout de wikicode s'est enrichi. On peut demander gauche, droite ou centre. On peut demander une taille absolue (en px) ou relative (grâce à upright). S'il s'agit d'un document PDF, on peut indiquer la page. D'autres paramètres sont offerts, voyez Aide:Insérer une image.

Évidemment, des wikipédiens ont voulu améliorer le produit. C'est réussi pour au moins deux modèles.

Si vous souhaitez montrer une partie d'une illustration, utilisez {{Détail image}}.

File:Secretary Pompeo Arrives to Meet with French Foreign Minister Le Drian in Paris (50610423656).jpg

Détail

Note : Selon notre expérience, il n'est pas facile de cadrer le détail. Ça exercera votre patience.

Vous souhaitez pointer des détails sur une illustration ? Alors, {{Image annotée}} est pour vous.

iris

pupille

Image annotée de l'œil.

Impressionnant, n'est-ce pas ?

Note : Selon notre expérience, il n'est pas facile de placer les points. Ça exercera votre patience.

Un autre outil offre la possibilité de créer des hyperliens transparents : <imagemap>. Naviguez à w:en:Template:Image map for The Situation Room. Si vous survolez l'une des têtes, vous verrez un texte. Si vous cliquez, vous serez dirigé vers l'article dans la Wikipédia en anglais.

Note : Pour créer ces hyperliens, il faut identifier des polygones, ce qui n'est pas facile à faire à l'aide d'un éditeur de texte. Des applications visuelles existent ; pour en savoir plus, naviguez à Extension:ImageMap.

▲ Des changements à l'interface ? — Un développeur de la Wikimedia Foundation propose de supprimer

le seuil pour le formatage des liens d'ébauche,
la taille personnalisée des images dans les articles,
la numérotation automatique des titres de section.

Ces trois services, offerts parmi les préférences, sont coûteux en temps serveur et peu utilisés. [11] Lorsqu'on parcourt les entrées sur Phabricator, on découvre que des alternatives sont possibles, lesquelles s'appuient sur les capacités des navigateurs Web modernes.

Enregistré sur Phabricator
Tâche 282790

▲ Anticiper les catastrophes — La forte croissance de Wikidata entraîne, entre autres, certains enjeux structurels. En conséquence, des scénarios sont envisagés pour, notamment, tenter de prévoir le pirescénario catastrophe. L'un d'eux tente d'établir une stratégie en cas de dépassement de la capacité de stockage de triplets RDF par Blazegraph. L'une des stratégies retenue est de supprimer, temporairement, une partie du contenu, en attendant la rectification du problème. On envisage ainsi que mieux vaut une Wikidata incomplète mais accessible, qu'une Wikidata inaccessible.
Dans cette optique, un utilisateur a recherché, à partir de la version du 17 mai 2021 de la base de connaissances libres, les types de triplets « non-vitaux » puis a déterminé leurs quantités. Voici en vrac quelques données obtenues :

Wikidata possède environ 12,8 milliards de triplets RDF et en gagne environ 4,77 millions à chaque jour (beaucoup de points d'exclamation par l'auteur dans ce passage).
19,1 % des triplets sont des descriptions (généralement une phrase au début de l'élément, qui décrit le label qui la précède). Chaque élément possède, en moyenne, 28,4 descriptions (sur une possibilité de 274) et 18,5 % des éléments possédant une description n'en ont pas en anglais. 50 % des descriptions sont parmi 32 langues et 90 % parmi 94 langues. Environ 3 % des descriptions sont en néerlandais^{[note 4]} et 1,74 % sont en français.
3,8 % de l'ensemble des triplets sont des étiquettes (labels, les « noms » des éléments de Wikidata). Chaque élément possède, en moyenne, une étiquette en 5,28 langues (sur une possibilité de 476) et 14,7 % des éléments possédant une étiquette n'en ont pas en anglais. Cette langue compte néanmoins pour 16,2 % de l'ensemble des étiquettes, alors que c'est 2,93 % pour le français.

Surdas, personnage du XVI^e siècle à la datation incertaine.

▲ Sémantiser l'incertitude — Depuis la moitié des années 2010, on constate qu'environ 10 % des articles biographiques de Wikipédia en français possèdent des informations de base divergentes d'avec la base de connaissance libre Wikidata. Ces divergences concernent surtout des dates et lieux de naissance et de décès des personnalités. Le traitement de celles-ci montre que dans environ un tiers des cas, c'est Wikipédia en français qui présente le mieux l'information, pour un autre tiers, c'est Wikidata, alors que pour le dernier tiers, les deux sites sont incomplets ou dans l'erreur.
L'une des causes de ces divergences est la difficulté d'insertion de l'incertitude dans l'information sémantique de Wikidata. Avec le temps, la base de connaissance libre s'est dotée de rangs, qualificatifs et valeurs spécifiques pour mieux intégrer cela, mais les corrections sont difficilement automatisables et la maîtrise de la chose demeure ardue pour un humain. Voici quelques trucs pour ce faire :

pour insérer un intervalle de temps, il faut d'abord attribuer à l'entrée la précision la plus grande possible sur le temps^{[note 5]}, puis lui ajouter les qualificatifs P1319 (« date au plus tôt ») et P1326 (« date au plus tard »)
pour noter les approximations (ca) et présomptions (?), il faut ajouter le qualificatif P1480 (« qualité de l'information ») avec les valeurs Q5727902 (« circa ») ou Q18122778 (« présumé »). Pour les dates, à sources égales, on préfère généralement la plus précise possible (exemple)
pour attribuer les PoV, en plus des références, on peut ajouter les qualificatifs P3680 (« déclaration soutenue par ») et P1310 (« contesté par »)
pour entrer une évaluation de la qualité des valeurs, il faut attribuer un rang prioritaire aux dates jugées les plus pertinentes et dévaluer les valeurs clairement fausses ou obsolètes. Généralement, on évite de supprimer une valeur car un bot, ou un contributeur distrait, pourrait toujours la ramener plus tard, surtout si celle-ci est sourcée.

Un exemple peut être observé sur l'élément dédié à Surdas. En effet, une panoplie de dates de naissance et de décès sont supposées pour cette personnalité et les bots n'ont pas (encore ?) les moyens de distinguer celles qui sont pertinentes de celles qui ne le sont pas. En conséquence, il faut donc entrer toutes les dates sur Wikidata (autrement, un bot risque de le faire tôt ou tard et ce, de manière bien moins juste que vous) et y apposer les rangs, qualificatifs et références appropriées pour chacune. C'est à ce moment que l'intervention d'un humain qui s'y connaît demeure primordiale, afin de hiérarchiser les sources.

SPARQL du mois

SPARQL sur Wikidata

Le SPARQL permet de trier selon divers critères les plus de 94 millions d'éléments de Wikidata. À chaque mois, vous êtes invités à dénicher la requête SPARQL qui vous semble la plus intéressante pour les lectrices et lecteurs des RAW.

Desgénérations

Le mois dernier, nous avons parlé d'un modèle permettant d'établir des arbres généalogiques à partir de Wikidata. On peut se demander combien d'étages possèderaient les plus grands arbres selon les données disponibles (et si les ressources le permettaient).

En février 2019, nous nous étions intéressés aux éléments présentant le plus grand nombre de descendants recensés sur Wikidata. Reprenons cette thématique, mais cette fois sous l'angle des générations.

Pour ce faire, il faut utiliser à nouveau la propriété P40 (« enfant »). Cependant, pour recenser les différentes générations, il faut dénombrer le nombre de maillons d'une chaîne d'éléments qui possèdent tous une valeur pour cette propriété. Une manière simple de procéder est donnée dans l'exemple suivant :

#3 premières générations de descendants de Charlemagne
SELECT DISTINCT ?generation1Label ?generation2Label ?generation3Label
WHERE
{
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
  wd:Q3044 wdt:P40 ?generation1.
  ?generation1 wdt:P40 ?generation2.
  ?generation2 wdt:P40 ?generation3.
}

Cliquez pour essayer !

Cependant, le processus devient rapidement fastidieux et coûteux en ressources, en plus d'être inélégant. Puisque l'objectif n'est pas de recenser l'ensemble des descendants, mais seulement le nombre de générations, nous allons utiliser une série d'algorithmes pour SPARQL qui ont été réunis sous le vocable de service Gatter, Apply and Scatter (GAS) et qui permettent d'explorer ce genre de chose.

Ainsi, appliqué au même personnage, une requête utilisant ce service prend la forme :

SELECT (MAX(?depth) as ?max_generations) (SAMPLE(?item) as ?descendant)
WHERE
{
  SERVICE gas:service {
    gas:program gas:gasClass "com.bigdata.rdf.graph.analytics.SSSP" ;
                gas:in wd:Q3044 ;
                gas:traversalDirection "Forward" ;
                gas:out ?item ;
                gas:out1 ?depth ;
                gas:maxIterations 100 ;
                gas:linkType wdt:P40 .
  }
}

Cliquez pour essayer !
GAS tient principalement compte de deux paramètres : gas:in wd:QXXX - l'élément de départ, et gas:linkType wdt:PXXX - la propriété à suivre. Il donne ensuite le prochain élément (gas:out), le nombre de "sauts" à partir du premier élément (gas:out1). Quant à gas:maxIterations, il établit le nombre maximal de sauts.

noframe

Pour Charlemagne, nous obtenons ainsi 42 générations.

Pour trouver tous les ancêtres de Charlemagne, on peut adapter le passage gas:traversalDirection "Forward" en remplaçant le qualificatif "Forward" par "Reversed" :

SELECT (MAX(?depth) as ?max_generations) (SAMPLE(?item) as ?descendant)
WHERE
{
  SERVICE gas:service {
    gas:program gas:gasClass "com.bigdata.rdf.graph.analytics.SSSP" ;
                gas:in wd:Q3044 ;
                gas:traversalDirection "Reversed" ;
                gas:out ?item ;
                gas:out1 ?depth ;
                gas:maxIterations 100 ;
                gas:linkType wdt:P40 .
  }
}

Cliquez pour essayer !

Cela donne sept générations supplémentaires, jusqu'à Mummolin. Si on suppose qu'il est le fils (et non le gendre) de Mundéric, alors on peut encore ajouter plusieurs générations et se rendre jusqu'à Teutomer, pour un total de 58 générations. Est-ce la plus longue lignée accessible sur Wikidata ?

À force de travailler sur des articles biographiques, j'ai remarqué que d'autres civilisations semblent avoir de très bonnes archives historiques. J'ai donc rapidement exploré les dirigeants japonais et chinois à la recherche de lignées plus longues que celle des Mérovingiens.

Ainsi, si on explore celle de Jimmu, le fondateur mythique du Japon, on obtient une génération de plus que pour Teutomer. Si on remonte les ancêtres de Jimmu, on obtient 62 générations, mais plusieurs de celles-ci sont constituées de divinités (!).

La plus longue lignée que j'ai trouvée se trouve du côté du monde chinois. C'est celle de Shaodian (en) (少典), père de l'empereur Jaune ayant vécu il y a environ 3 000 ans. Celle-ci compte pas moins de 127 générations, dont le dernier membre est né en 2006 !

Plutôt que d'utiliser la propriété P40, nous pouvons également explorer les générations en utilisant les propriétés P22 (« père ») et P25 (« mère »). Ainsi, par exemple, si on veut s'assurer de la validité biologique d'une lignée, on peut tenter de trouver la plus longue lignée féminine puisque l'on n'est 100 % certain que de la mère d'un enfant :

#Lignée des ancêtres féminins d'Élisabeth II
SELECT (MAX(?depth) as ?max_generations) (SAMPLE(?item) as ?descendant)
WHERE
{
  SERVICE gas:service {
    gas:program gas:gasClass "com.bigdata.rdf.graph.analytics.SSSP" ;
                gas:in wd:Q9682 ;
                gas:traversalDirection "Forward" ;
                gas:out ?item ;
                gas:out1 ?depth ;
                gas:maxIterations 100 ;
                gas:linkType wdt:P25 .
  }
}

Cliquez pour essayer !
Nous n'obtenons que 7 générations précédentes pour Élisabeth II, ou un total de 11 si on descend jusqu'aux dernières descendantes de cette lignée : Mia et Lena Tindall.

On peut aussi adapter toutes les requêtes précédentes pour obtenir plus que le simple nombre de générations. Ainsi, on peut, par exemple, lister les membres de la lignée par génération en affichant les valeurs de gas:out et gas:out1 :

#Ancêtres de Lena Tindall
SELECT ?itemLabel ?generation ?item
WHERE
{
  SERVICE gas:service {
    gas:program gas:gasClass "com.bigdata.rdf.graph.analytics.SSSP" ;
                gas:in wd:Q63676181 ;
                gas:traversalDirection "Forward" ;
                gas:out ?item ;
                gas:out1 ?generation ;
                gas:maxIterations 100 ;
                gas:linkType wdt:P25 .
  }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
ORDER BY (?generation)

Cliquez pour essayer !

Le service GAS permet d'explorer aussi d'autres propriétés de type "mère-fille", comme par exemple P184 (« directeur ou directrice de thèse ») et P185 (« doctorant ou doctorante »), P802 (« élève ») et P1066 (« élève de »), etc. On peut ainsi remonter 3 générations vers le haut et descendre 7 générations vers le bas d'élèves d'Isaac Newton :

#Élève descendants d'Isaac Newton
SELECT ?itemLabel ?generation ?item
WHERE
{
  SERVICE gas:service {
    gas:program gas:gasClass "com.bigdata.rdf.graph.analytics.SSSP" ;
                gas:in wd:Q935 ;
                gas:traversalDirection "Forward" ;
                gas:out ?item ;
                gas:out1 ?generation ;
                gas:maxIterations 100 ;
                gas:linkType wdt:P802 .
  }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
order by ?generation

Cliquez pour essayer !

N'hésitez pas à proposer d'autres propriétés ou personnalités/éléments à explorer dans le courrier du lectorat !

John Herschel, Caroline Herschel et William Rowan Hamilton, derniers descendants scolaires d'Isaac Newton recensés par Wikidata.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Je suis toujours épatée par l'étendue de mon ignorance grâce à RAW, merci!!!! --Thekidpossum (discuter) 12 août 2021 à 17:41 (CEST)[répondre]
Un grand merci pour ce mensuel toujours si riche... Épaté par la citation d'un vampire de fiction (Maharet)... Et ce SPARQL : kesako ? va vraiment falloir que je m'y intéresse... Hop ! hop ! continuez à nous régaler ! et bonnes vacances (si jamais) ! => Sg7438 discuter, c'est ici ! 1 août 2021 à 06:16 (CEST)[répondre]
Merci et bravo pour ce numéro fort intéressant. — Jules* ^Discuter 1 août 2021 à 09:54 (CEST)[répondre]
À propos du livre d'Amy S. Bruckman
- Je suis frappé qu'elle se réfère souvent à la "vérité", qui n'est pas le but de Wikipédia, laquelle recherche l'exactitude et non la vérité.
- Je me demande si l'on peut admettre l'assertion « le consensus social est la meilleure façon de déterminer ce qui est vrai. » (Vous avez quatre heures).--Croquemort Nestor (discuter) 1 août 2021 à 10:01 (CEST)[répondre]
L’histoire de monsieur Simard est édifiante. Après plusieurs annulations logiques, un contenu non sourcé, aussi impactant que l'annonce de décès, est resté en ligne. o_O Où est-ce que le système habituellement bien huilé a bloqué ? Pas de source = on retire ; il n'y a pas de demie-mesure ici (ni d'urgence à annoncer une personne comme morte). Trizek ^bla 1 août 2021 à 21:10 (CEST)[répondre]
@Trizek : La brève me semble pourtant claire là-dessus. C'est Eihel qui a merdé en retirant dans le RI, mais en oubliant dans le corps du texte. D'ailleurs, à sa place, j'aurais évité d'aller en rire sur le Bistro.
J'ai également souligné que l'article de cette personnalité est régulièrement la cible d'attaques virulentes. J'imagine qu'il y aurait moyen de faire une sorte de filtre adapté, mais bon, j'ai pas l'intérêt et/ou l'énergie de pousser plus loin. - Simon Villeneuve 4 août 2021 à 02:22 (CEST)[répondre]
Merci pour les détails, @Simon Villeneuve. Trizek ^bla 4 août 2021 à 14:55 (CEST)[répondre]

Le contenu d'une page très consultée de la Wikipédia est dans les faits la forme d'information la plus fiable jamais créée.^{[trad 8]}^,^[3]
– Amy S. Bruckman, professeur au Georgia Institute of Technology

Rédigé/traduit par Cantons-de-l'Est et Simon Villeneuve

Citations originales

↑ (en) « In just a few years, OpenStreetMap has succeeded in producing highly detailed maps that rival those created by national bodies and big tech companies such as Google and Nokia. A large network of volunteers combines remote work, such as tracing satellite imagery to update natural features, with on-the-ground expertise, touring city centres to ensure that shops, restaurants and offices are correctly recorded. »
↑ (en) « solid »
↑ (en) « virtue epistemology »
↑ (en) « curiosity, intellectual autonomy, intellectual humility, attentiveness, intellectual carefulness, intellectual thoroughness, open-mindedness, intellectual courage and intellectual tenacity »
↑ (en) « reliable cognitive processes »
↑ (en) « bubble of similarly minded folks »
↑ (en) « Through careful stewardship, or unique advantages, they have somehow escaped an enclosed and exploited fate as a proprietary service owned by a handful of tech giants. »
↑ (en) « The content of a popular Wikipedia page is actually the most reliable form of information ever created »

Notes

↑ Jeu de mots en anglais. MOO est l'abréviation du terme générique de ce type de jeu (voir w:en:MOO pour plus de détails) et crossing signifie « intersection », « passage ». Un moose crossing est un endroit régulièrement emprunté par les élans d'Amérique lorsqu'ils traversent une route.
↑ Elle n'est pas l'unique milliardaire de la planète. Voyez cette liste plus (d)é(sé)quilibrée.
↑ Il est tentant de croire que c'était le cas dès les débuts de Wikipédia, mais si vous naviguez à cette version de l'article Pomme, vous ne verrez pas thumb ou vignette. En 2021, le moteur de Wikipédia accepte indifféremment Fichier/File/Image, même si ce dernier est déconseillé.
↑ J'ai remarqué qu'un bot ajoute systématiquement des descriptions dans cette langue lors de la création d'un nouvel élément
↑ Si les deux extrêmes sont dans la même décennie, alors ont peut mettre celle-ci comme précision. Souvent, il faut mettre le siècle. Dans 158 cas, pour P1317 (« actif en/en vie »), c'est le millénaire car il y a chevauchement de siècles. Dans un cas, j'ai même dû mettre la précision au kilomillénaire !
↑ Cette fausse citation est inspirée de la stratégie adoptée par Maharet, et décrite dans La Reine des damnés, pour établir avec certitude sa descendance.

Références

↑ Contributeurs, « Regards sur l'actualité de la Wikimedia, Brèves », 4 juillet 2014
↑ https://www.wikidata.org/w/index.php?title=Wikidata:Request_a_query&type=revision&diff=1459385569&oldid=1458938371&diffmode=source
↑ (en) S. C. Stuart, « Wikipedia: The Most Reliable Source on the Internet? », PC Mag,‎ 3 juin 2021 (lire en ligne)

[1] (en) « In just a few years, OpenStreetMap has succeeded in producing highly detailed maps that rival those created by national bodies and big tech companies such as Google and Nokia. A large network of volunteers combines remote work, such as tracing satellite imagery to update natural features, with on-the-ground expertise, touring city centres to ensure that shops, restaurants and offices are correctly recorded. »

[3] (en) « solid »

[4] (en) « virtue epistemology »

[5] (en) « curiosity, intellectual autonomy, intellectual humility, attentiveness, intellectual carefulness, intellectual thoroughness, open-mindedness, intellectual courage and intellectual tenacity »

[6] (en) « reliable cognitive processes »

[7] (en) « bubble of similarly minded folks »

[8] (en) « Through careful stewardship, or unique advantages, they have somehow escaped an enclosed and exploited fate as a proprietary service owned by a handful of tech giants. »

[16] (en) « The content of a popular Wikipedia page is actually the most reliable form of information ever created »

[2] Jeu de mots en anglais. MOO est l'abréviation du terme générique de ce type de jeu (voir w:en:MOO pour plus de détails) et crossing signifie « intersection », « passage ». Un moose crossing est un endroit régulièrement emprunté par les élans d'Amérique lorsqu'ils traversent une route.

[10] Elle n'est pas l'unique milliardaire de la planète. Voyez cette liste plus (d)é(sé)quilibrée.

[11] Il est tentant de croire que c'était le cas dès les débuts de Wikipédia, mais si vous naviguez à cette version de l'article Pomme, vous ne verrez pas thumb ou vignette. En 2021, le moteur de Wikipédia accepte indifféremment Fichier/File/Image, même si ce dernier est déconseillé.

[12] J'ai remarqué qu'un bot ajoute systématiquement des descriptions dans cette langue lors de la création d'un nouvel élément

[13] Si les deux extrêmes sont dans la même décennie, alors ont peut mettre celle-ci comme précision. Souvent, il faut mettre le siècle. Dans 158 cas, pour P1317 (« actif en/en vie »), c'est le millénaire car il y a chevauchement de siècles. Dans un cas, j'ai même dû mettre la précision au kilomillénaire !

[15] Cette fausse citation est inspirée de la stratégie adoptée par Maharet, et décrite dans La Reine des damnés, pour établir avec certitude sa descendance.

[9] Contributeurs, « Regards sur l'actualité de la Wikimedia, Brèves », 4 juillet 2014

[14] ttps://www.wikidata.org/w/index.php?title=Wikidata:Request_a_query&type=revision&diff=1459385569&oldid=1458938371&diffmode=source

[17] (en) S. C. Stuart, « Wikipedia: The Most Reliable Source on the Internet? », PC Mag,‎ 3 juin 2021 (lire en ligne)

[trad 1]

[note 1]

[trad 2]

[trad 3]

[trad 4]

[trad 5]

[trad 6]

[trad 7]

[1]

[note 2]

[note 3]

[note 4]

[note 5]

[2]

[note 6]

[trad 8]

[3]