Wikipédia:RAW/2012-05-20

Une page de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

Brèves[modifier le code]

Le Taj Mahal vu depuis une arche, un angle de vue peu exploité qui a été suggéré par un guide indien. Poco a poco a pris cette photo sous un fort contraste lumineux, l'arche paraissait trop sombre sur la photo. Avec l'aide de deux wikimédiens, il a réduit la sous-exposition lumineuse de l'arche. La photo retouchée est une image de qualité dans Commons. [1] Par ailleurs, on lui doit plus de 170 images de qualité.
  • Oracle of Wikipedia trouve le plus court chemin entre deux articles de la Wikipédia en anglais (si les articles ne sont pas trop récents). <commentaire>Mon meilleur pointage est de cinq clics, loin des 12 clics du champion.</commentaire>
  • Dans Commons, Paris est mieux couverte par des images de qualité (113) que Toulouse (38) et New York (36).
  • Pour la période 2011-2012, les États-Unis, l'Allemagne, la Grande-Bretagne et la France ont contribué plus d'un million de fois par trimestre à l'ensemble des Wikipédias linguistiques. Les pays africains sont loin derrière, à peine 10 000 contributions trimestrielles par pays. [2]
  • Aux internautes américains, Google propose Knowledge Graph (KG), une autre façon de répondre aux requêtes. Une capture d'écran dans cet article montre des résultats pour Frank Lloyd Wright (dans le KG, il y a un extrait de l'article de la Wikipédia en anglais). Un journaliste croit que cet outil est « Wikipédia aux stéroïdes ».[3]
  • Des passionnés du débarquement de Normandie et de la bataille de Normandie se sont donnés comme mission de documenter les photos prises au cours de ces évènements. Wikimédia France les accompagne dans le cadre d'un projet GLAM. Les photos sont publiées sous licence Creative Commons. [4]
  • Dans les communautés wikimédiennes, les conflits sont nombreux et peuvent mener au départ de contributeurs vétérans, à des attaques personnelles ou du vandalisme. La Wikipédia en anglais a mis en place le Dispute resolution noticeboard (DRN) comme guichet unique pour révéler un conflit. Selon son intensité, le conflit sera traité par les membres du DRN, sinon les contributeurs seront dirigés vers une autre instance. [5]
  • La « Wikipédia » en bengali en bengali comprend environ 23 000 articles et un peu plus de 50 contributeurs actifs, même si la population qui parle cette langue est de 300 millions. Un wikimédien bengale explique que Google renvoie le plus souvent des pages de la Wikipédia en anglais et que les Bengales les plus éduqués y font leurs premiers pas, sans connaître l'existence de la version en bengali. Il rajoute qu'il faut installer un logiciel pour pouvoir écrire dans cette langue qui n'est pas romane. De plus, les Bengales sont répartis en trois grands groupes nationaux, ce qui provoque des tensions géopolitiques. [6]
  • Stuart Geiger, un doctorant à l'université de Georgetown, a publié une affiche ([PDF]) qui résume l'essentiel de son étude sur la lutte au vandalisme dans la Wikipédia en anglais. C'est à partir de 2006 que des outils d'assistance sont apparus. Cette année-là, c'est ARV qui est le plus souvent utilisé. En 2007, les AIV helperbots sont utilisés dans 40 % des interventions contre le vandalisme. La même année, Twinkle est ajouté à l'arsenal. En 2008, Huggle vient en renfort. En 2009, les outils de lutte au vandalisme sont utilisés dans 90 % des interventions sur la Wikipédia en anglais. « En 2009, [tous les] bots [de la Wikipédia en anglais] font environ 1 million de contributions par mois (16,33 % de toutes les modifications)[trad 1]. » Le nombre de bots, peu importe leur usage, est stable depuis quelques années.

Wikicanulars[modifier le code]

Un article paru dans The Atlantic Monthly discute de la crédulité de la communauté wikipédienne anglophone. [7]

En décembre 2008, T. Mills Kelly, un professeur de l'Université George Mason, a incité ses étudiants à forger l'histoire d'Edward Owens, un faux pêcheur devenu pirate qui aurait sévi aux XIXe et XXe siècles. « Ils ont publié des vidéos sur YouTube, interviewé des experts, numérisés et retranscrits des sources primaires et rédigé une page de la Wikipédia en l'honneur d'Owens[trad 2]. » Kelly a révélé le canular à la fin de 2008. Quelques années plus tard, en janvier 2012, il a annoncé que sa classe monterait deux canulars. Des étudiants ont simulé l'existence d'une brasserie tout comme de la recette de sa bière.<commentaire>Merci Simon Villeneuve (d · c) d'avoir remis en question cette affirmation !</commentaire> Des étudiants ont affirmé avoir retrouvé la recette d'une bière vendue par une brasserie américaine, recette perdue lors de l'incendie de la brasserie en 1812. Pour réussir leur canular, les étudiants tablaient sur le bicentennaire de la guerre anglo-américaine de 1812 et sur la fabrication d'un drapeau américain dans cette brasserie. Ils ont réussi leur pari sans être mis à jour. Un autre groupe a créé un tueur en série, Joe Scafe, en s'appuyant sur des coupures d'anciens journaux qui détaillent les meurtres authentiques de quatre femmes. Ils ont fabriqué d'autres sources pour étayer l'existence du prétendu tueur. La communauté wikipédienne n'y a vu que du feu. Cependant, l'une des étudiantes a posé une question à la communauté de reddit pour en savoir plus sur le prétendu tueur. Cette communauté a mis moins d'une heure pour mettre à jour le canular. Quelqu'un a demandé pourquoi l'étudiante n'avait pas préalablement fait une requête à Google. Les coupures numérisées semblaient artificiellement vieillies. L'article avait été rédigé par un petit groupe de contributeurs, tous des nouveaux.

L'auteur de l'article dans The Atlantic Monthly en profite pour comparer la structure collaborative de trois sites :

  1. Wikipédia suppose que les contributeurs sont le plus souvent de bonne volonté. Donc des contributeurs peu scrupuleux peuvent détourner ce système à leur profit. Les membres de sa communauté entretiennent peu de liens, mais centralisent l'échange d'informations. Même si tous les lecteurs voient les mêmes informations dans un article, les discussions sur celui-ci se tiennent dans une autre page. Les lecteurs sont donc peu informés de ces discussions.
  2. Facebook comprend plusieurs communautés actives mais décentralise l'échange d'informations. Les « amis » se partagent des informations et corrigent des erreurs, mais ces informations ne sont pas transmises aux autres internautes qui partagent ou voient les mêmes contenus.
  3. reddit a construit sa communauté autour d'échanges décentralisés d'informations. Les discussions ne sont pas séparées, mais bien l'essence de ce site. Si quelqu'un exprime des doutes, les autres réagissent.

Les étudiants de Kelly ont aussi tablé sur d'autres facteurs pour construire leur canular. Ils tiennent des blogues rédigés à la première personne. Ils se donnent des titres académiques, ce qui met un verni de vérité sur ce qu'ils avancent. Ils répliquent durement aux sceptiques.

« [Les] canulars durent longtemps dans les communautés qui sont construites sur la confiance. Mais dans Internet, où les identitiés sont incertaines et malléables, nous devrions tous tendre à être sceptiques[trad 3]. » Quant à Kelly, il donne ce cours pour sensibiliser les étudiants aux dangers de la confiance a priori.

Dans les coulisses de la Wikimedia[modifier le code]

Ce qui suit parle essentiellement de technique.
Affiche publicitaire créée pour Monmouthpedia

Les dernières moutures de MediaWiki (1.20wmf) ont ajouté différentes fonctionnalités :

  • filtrer votre page de liste de suivi (LdS) en fonction de l'« Espace de noms associé ». En cochant cette case, vous voyez seulement les modifications dans un espace de noms. Vous pourriez par exemple avoir une LdS pour l'espace principal et une LdS pour tous les autres espaces de noms, deux pages que vous pouvez mettre dans vos favoris. [8] <On en discute dans Le Bistro.>
  • « [ne] montrer que les contributions des nouveaux utilisateurs » dans la liste des contributions. <commentaire>Je crois qu'il s'agit d'un nouveau service, mais je peux me tromper.</commentaire>
  • intégrer l’High Definition en CSS (HD) dans l'habillage Vector, ce qui autorise une plus grande résolution graphique et réduit les risques qu'une partie de l'écran soit vide. [9] Observez ces deux captures d'écran pour vous donner une idée de quoi il en retourne. (Plus d'infos sur HD)
  • reconnaître ?uselang=default, ce qui indique au moteur d'utiliser l'habillage par défaut pour la page à afficher. Vous pouvez aussi demander un autre habillage (par exemple ?useskin=monobook ou ?useskin=vector - comparez [10] et [11]).
  • La WMF a fait appel à la communauté Weekend Testers, un groupe de volontaires dont la spécialité est de tester les logiciels, dans le but de mettre à jour des bogues dans la prochaine mouture de MediaWiki. Forte du succès obtenu, la WMF prévoit faire appel aux volontaires d'OpenHatch, une autre communauté qui se spécialise dans les tests logiciels. [12]
  • Les copies de sécurité des toutes les Wikipédias sont maintenant disponibles dans quatre sites de par le monde. À moins d'une catastrophe mondiale, il sera toujours possible de reconstruire leur contenu. Pendant les travaux qui ont permis cette sauvegarde, des gens ont découvert une copie de la Wikipédia en anglais de 2001. [13]
  • Dr. Dobb's Journal (en) a publié une interview de Ward Cunningham, l'inventeur du WikiWikiWeb, l'ancêtre du wiki que nous connaissons. Cunningham « [croit] que la raison pour laquelle le wiki a du succès est que c'est le premier média qui méprise la hiérarchie. Et il a permis aux gens ordinaires de contribuer selon leur propre compréhension de ce qui est précieux[trad 4]. » « Et la faiblesse du wiki est qu'il affirme : "N'importe qui obtient les mêmes droits d'accès [...]" Donc, le plus de succès vous obtenez, le plus difficile il est d'être un wiki[trad 5]. » À la remarque de l'interviewer : « L'un des problèmes majeurs de wikis modernes est l'absence complète de portabilité[trad 6] », Cunningham a répondu que le format d'échange Wikicréole a été proposé mais il ressemble beaucoup au format MediaWiki. JSON est probablement mieux adapté aux besoins de la portabilité. Toujours selon lui, plus l'article d'une personne est modifié, plus elle est notable. <commentaire>À mettre en parallèle avec PageRank de Google. </commentaire> [14]
  • Wikipédia est publié dans 285 langues et les messages de MediaWiki, dans 400 langues. L'équipe responsable de la localisation propose aux internautes une palette d'outils pour abaisser les barrières linguistiques. Ces outils permettent (1) de saisir du texte dans une langue que leur clavier ne peut rendre, (2) de télécharger du web des polices de caractères pour afficher les textes qui ne sont pas écrits en caractères latins et (3) de choisir la langue de l'interface. Des gens de la WMF et des wikimédiens travaillent présentement au Universal Language Selector (« Sélecteur universel de langue »), un outil qui permettra de choisir à la volée une langue.

The Architecture of Open...[modifier le code]

Le texte qui suit est fortement inspiré du chapitre MediaWiki dans The Architecture of Open Source Applications, vol. 2. Cet ouvrage est publié sous CC-BY-SA 3.0.

« L'analyseur syntaxique est l'une des composantes essentielles de MediaWiki, ce qui rend difficile toute tentative de le changer ou de l'améliorer. Puisque des centaines de millions de pages wiki de par le monde dépendent de l'analyseur syntaxique pour un rendu uniforme des pages HTML, il doit demeurer extrêmement stable[trad 7]. » « Il y a eu plusieurs tentatives pour créer un autre analyseur syntaxique, mais aucune n'a réussi jusqu'à maintenant. En 2004, un tokenizer expérimental a été écrit par Jens Frank pour analyser syntaxiquement le wikitexte, et activé pour la Wikipédia ; Trois jours plus tard, il était désactivé à cause de mauvaises performances de l'allocateur de mémoire des tableaux en PHP. Depuis, le gros de l'analyse syntaxique est fait par une grande quantité d'expressions rationnelles et des masses de fonctions d'assistance (helper function). Le langage wiki, ainsi que tous les cas spéciaux que l'analyseur syntaxique doit traiter, s'est beaucoup complexifié, rendant toute nouvelle tentative encore plus difficile[trad 8]. » Tim Startling, un salarié de la WMF, a créé un préprocesseur qui transforme une partie du wikitexte en un arbre syntaxique, ce qui rend plus rapide le traitement par l'analyseur syntaxique. L'éditeur visuel sur lequel travaille d'autres programmeurs de la WMF demande un analyseur encore plus rapide.

Au départ, les modèles devaient servir uniquement à répliquer telle quelle une information utile dans des dizaines, des centaines, voire des milliers d'articles (par exemple, le bandeau d'un portail dans le bas des pages). L'introduction de paramètres (dans MediaWiki 1.3) a permis de personnaliser le rendu des modèles. L'ajout d'un paramètre par défaut (dans MediaWiki 1.6) a donné naissance en quelque sorte à un autre langage de programmation. Le traitement de ce langage alourdit le travail de l'analyseur syntaxique. Des contributeurs ont créé des modèles qui excèdent ce qui était tolérable en pratique. Tim Starling a alors créé l'extension ParserFunctions qui limite les possibilité de créer du code trop gourmand en ressources. Cette extension a mené à la création de modèles encore plus complexes qui réduisent les performances de l'analyseur syntaxique. Des programmeurs de la WMF travaillent pour introduire Lua, un langage de script, ce qui devrait soulager l'analyseur syntaxique.

Les gadgets permettent de personnaliser l'interface, ce qui rend les wikis encore plus conviviaux. Des programmeurs amateurs n'ont pas à comprendre comment fonctionne MediaWiki pour y ajouter des fonctions utiles aux utilisateurs des wikis. De plus, des programmeurs de la WMF travailleraient sur un entrepôt de gadgets qui sera accessible depuis n'importe quel wiki, de la même façon que les médias dans Commons le sont. Par ailleurs, chaque contributeur peut ajouter du code CSS ou JavaScript dans common.css et common.js. Si des gens veulent autre chose, il leur est possible de rédiger du code en PHP et de l'arrimer à MediaWiki grâce aux hooks qu'il publie. Grâce à sa flexibilité, ce système a permis de limiter la croissance du code de MediaWiki.

L'habillage Monobook est difficile à modifier et maintenir. Le passage à Vector par défaut est une conséquence de la façon dont sont rédigés les habillages, tous dérivés de la classe Skin. À une époque, des bots passaient de page en page pour recueillir des informations. Les pages web sont parfois mal rendues, ce qui peut bloquer les bots. C'est pourquoi des gens ont travaillé à ce qui est appelé l'API. Il offre quelques dizaines de commandes qui retournent des informations en un format facile à analyser par d'autres programmes. De plus, la plupart des modifications qu'un contributeur peut faire à partir d'une page web peuvent aussi l'être grâce à l'API. Il existe d'ailleurs des bibliothèques logicielles (en Python et .NET, par exemple) conçues exclusivement pour cet usage (qui servent à concevoir les bots).

Ce qui a démarré comme un projet d'été pour un seul étudiant qui voulait étudier PHP est maintenant MediaWiki, un projet mature et stable qui sert de moteur à un site web qui fait partie du top 10 mondial par le nombre de visiteurs et qui a recours à une infrastructure opérationnelle « ridiculement » petite. Si ce site répond aussi bien, c'est parce que son moteur est constamment optimisé et maintenu par des programmeurs extraordinaires. L'évolution du web et la croissance soutenue de Wikipédia exige de perpétuelles améliorations, plusieurs s'appliquant à MediaWiki.

MediaWiki est un outil polyvalent. Dans l'écosystème Wikimedia, il sert à créer et corriger une encyclopédie (Wikipédia), à propulser une médiathèque (Commons) ou à retranscrire des textes numérisés (Wikisource). MediaWiki est aussi utilisé comme CMS corporatif ou comme entrepôt de données, parfois en parallèle avec une infrastructure sémantique. Ces usages spécialisés, imprévus au départ, continueront probablement à favoriser des améliorations au logiciel. Pour cette raison, l'architecture logicielle de MediaWiki est active et vivante, tout comme l'immense communauté qui l'utilise régulièrement.

Les utilisateurs contribuant à un seul sujet ont rarement, voire jamais, la volonté ou la capacité d'écrire de façon neutre. De plus, à l'examen, on trouve souvent un conflit d'intérêt[1].
Retour des lecteurs : vos suggestions sur la présentation de RAW ou ses prochaines publications sont les bienvenues ici.
Rédigé/traduit par Cantons-de-l'Est
Citations originales
  1. (en) « As of 2009, bots make about one million edits per month (16.33% of total edits). »
  2. (en) « They created YouTube videos, interviewed experts, scanned and transcribed primary documents, and built a Wikipedia page to honor Owens' memory. »
  3. (en) « it's that hoaxes tend to thrive in communities which exhibit high levels of trust. But on the Internet, where identities are malleable and uncertain, we all might be well advised to err on the side of skepticism. »
  4. (en) « I think the reason why the wiki is popular is because it's the first medium that disregarded that hierarchy. And it allowed people to contribute based on their own understanding of what was valuable. »
  5. (en) « And the weakness of wiki is that it says, "Anybody gets the same access to that attention." So the more successful you are, the harder it is to be a wiki. »
  6. (en) « One of the big problems with wikis today is their complete non-portability. »
  7. (en) « The parser is one of the most essential parts of MediaWiki, which makes it difficult to change or improve. Because hundreds of millions of wiki pages worldwide depend on the parser to continue outputting HTML the way it always has, it has to remain extremely stable. »
  8. (en) « There have been many attempts at alternative parsers, but none has succeeded so far. In 2004 an experimental tokenizer was written by Jens Frank to parse wikitext, and enabled on Wikipedia; it had to be disabled three days later because of the poor performance of PHP array memory allocations. Since then, most of the parsing has been done with a huge pile of regular expressions, and a ton of helper functions. The wiki markup, and all the special cases the parser needs to support, have also become considerably more complex, making future attempts even more difficult. »
Notes
Références
  1. Observations d'Antandrus sur la conduite wikipédienne, Wikipédia en français, 28 mars 2012