Wikipédia:RAW2018-10-01
Infolettre francophone mensuelle no 201
|
Brèves
[modifier le code]▲ Périodique wikis — Vous pouvez consulter trois périodiques : WikiJournal of Medicine, WikiJournal of Science et WikiJournal of Humanities publiés sur la Wikiversity en anglais. Les articles proposés sont relus par des pairs avant d'être publiés. Aux formats HTML et PDF, les articles sont dotés d'un DOI et sont signés par leurs auteurs. [1]
▲ Traduction — Le 30 septembre est la Journée internationale de la traduction, et la Wikimedia Foundation tient, elle aussi, à célébrer cette journée parce que la traduction constitue un apport essentiel au maintien de l'écosystème Wikimedia. « Presque tout ce travail est effectué par des volontaires du monde entier qui aiment leur langue et s'identifient aux valeurs du savoir libre. Ces bénévoles consacrent leur temps à traduire des articles, de la documentation et des messages d'interface utilisateur de logiciels dans leur langue. Par conséquent, les personnes qui parlent leur langue ont un meilleur accès à du matériel éducatif utile, comme des informations essentielles sur les vaccins, et permettent à un plus grand nombre de personnes encore d'apporter leurs propres connaissances. »[trad 1]
Le billet souligne le travail de deux wikimédiens français : Authueil (qui a traduit plus de 600 articles en français à partir d'autres langues) et Patachonf (plus d'un millier d'autres langues), ainsi que d'un contributeur grec : Nikosgranturismogt (qui dépasse deux mille articles traduits en grec, surtout de l'anglais). Ces trois contributeurs sont des traducteurs amateurs, alors que Alfiya Akbutina est une traductrice professionnelle qui traduit surtout du russe vers le bachkir. Elle fait partie d'un groupe de femmes qui se disent des « grands-mères du wiki bachkir »[trad 2]. Akbutina est peu versée dans la technologie, mais éprouve beaucoup de plaisir à traduire des articles de différents domaines : médecine, artistes, technologie, mode... au gré de ses intérêts. [2]
▲ Primer — Une start-up en intelligence artificielle, Primer, développe Quicksilver, un outil qui permet de détecter des articles sur des scientifiques à créer, de notoriété semblable à ceux déjà présents sur la Wikipédia en anglais. Quicksilver a parcouru environ 30 000 articles de ce wiki et leur élément Wikidata associé, puis 3 millions de phrases dans des documents décrivant leurs travaux et les scientifiques, pour finir avec 200 000 auteurs d'articles scientifiques. Créant des critères de notoriété à partir des articles de Wikipédia, le logiciel a proposé environ 40 000 articles à créer.
▲ Rechercher des médias libres — Si vous êtes un aficionado de Wikipédia et des sites frères de l'écosystème Wikimedia, vous savez où trouver des médias publiés sous licence libre. Vous n'avez aucune idée ? Indice : Wikimedia Commons. Peut-être aimeriez-vous élargir vos horizons du libre ? Google peut cibler sa recherche sur des médias dits libres en modifiant le paramètre des droits d'usage. Le site de Creative Commons offre un moteur de recherche qui ne renverra que des médias publiés sous licence libre. Essayez par exemple Chopin.
▲ Payer pour que le Sud contribue — Lors de Wikimania 2018 en Afrique du Sud, des contributeurs ont soulevé l'absence de temps libre de certaines communautés pour pouvoir contribuer à l'élaboration de Wikipédia (ou d'autres wikis)[note 1]. C'est un problème considérant le modèle sur lequel sont fondés les wikis hébergés par la Wikimedia Foundation (WMF), un modèle basé essentiellement sur le bénévolat des contributeurs.
Le périodique Wired publie un article sur ce sujet, suggérant de payer des contributeurs du Sud pour contrer cette inégalité. Conscient de la sensibilité du sujet, l'auteur de l'article propose de promouvoir une activité qui semble relativement bien acceptée jusqu'ici par les communautés wikimédiennes : les résidences.
▲ La prochaine édition de Wikimania — Après l'édition 2018, qui s'est déroulée en juillet dernier au Cap, en Afrique du Sud, retour en Europe ! Wikimania 2019 aura lieu du 14 au 18 août à Stockholm, en Suède. Des dates à réserver !
▲ Wikimedia Endowment — La société Amazon a versé 1 million USD à la Wikimedia Endowment, fonds de dotation établi pour pérenniser financièrement l'écosystème Wikimedia. En effet, Wikipédia et les projets-frères sont financièrement soutenus par des donateurs individuels, mais cette source de financement, assise sur la confiance des internautes, pourrait se tarir dans un futur proche, d'où le fonds établi en 2016. En plus des dons individuels, la Wikimedia Endowment offre des arrangements pour des dons futurs (par exemple, par le biais d'une police d'assurance). [3]
Dans les coulisses de la Wikimedia
[modifier le code]▲ GFDL et Wikimedia Commons — Ce wiki « n’autorisera plus le téléversement des photos, peintures, dessins et enregistrements audio ou vidéo qui ne sont publiés que sous la licence GFDL. Cela prendra effet à partir du dimanche 14 octobre 2018. Les textes et livres, manuels, logos, diagrammes et captures d’écran des manuels et guides d’utilisation des logiciels publiés sous la licence GFDL sont encore autorisés. Un fichier fourni à la fois sous la licence GFDL et une autre licence acceptée, telle que Creative Commons BY-SA, est également encore autorisé. » (fr)[4]
▲ Moteur de recherche — Le superviseur de l'équipe chargée du moteur de recherche des wikis a publié un billet sur le fonctionnement de celui-ci. Il explique que le processus de recherche suit grossièrement ces étapes : (1) l'ensemble des documents à rechercher est stocké dans une base de données, qui s'appelle alors un index, (2) un utilisateur soumet une requête, (3) les documents qui correspondent à la requête sont copiés de l'index, (4) ils sont classés selon leur degré de correspondance et (5) ils sont présentés à l'utilisateur, du plus probable au moins probable. Chacune de ces étapes est de façon superficielle simple, mais elles sont dans les faits complexes pour diverses raisons. Par exemple, vous lisez ce texte en français, une langue romane et donc syllabique, mais comment traiter les langues idéographiques, tels le chinois et le japonais ? Dans la suite du billet, l'auteur porte son regard sur l'étape (2).
Les ordinateurs et les humains excellent dans certains domaines, le plus souvent exclusifs. Par exemple, nous les humains avons en général beaucoup de facilité à traiter le langage, au contraire des ordinateurs. Lorsque vous lisez la phrase « J'ai vu l'oiseau, volant au-dessus des montagnes », vous comprenez intuitivement que l'observateur se trouve plus bas que l'oiseau. Par contre, si vous lisez « J'ai vu la ville, volant au-dessus des montagnes », vous savez que la ville ne peut pas voler et donc vous en conclurez probablement que l'observateur se trouve dans un aéronef. L'ordinateur, lui, ne saura probablement que conclure en lisant la seconde phrase, à moins qu'il n'ait été préalablement préparé. « L'aisance que les humains ont avec le langage cache souvent la plupart de la complexité, des connaissances et de la prise de décision qui va dans l'utilisation des mots et qui leur donne un sens. En général, les gens ne savent même pas ce qu'ils font pour traiter le langage — du moins jusqu'à ce qu'ils doivent programmer un ordinateur à le faire. »[trad 3] En attendant la mise au point d'une intelligence artificielle capable de lire et « comprendre » des millions de documents, il faut amener l'ordinateur à imiter la compétence humaine.
Le traitement d'une requête commence par l'analyse lexicale qui consiste à convertir une chaîne de caractères en une liste de symboles (des tokens). Dans la majorité des langues romanes, l'analyse lexicale se résume à séparer la requête en mots. Toutefois, l'espace n'est pas l'unique séparateur de mots, car la ponctuation joue un rôle dans le texte. L'ordinateur doit aussi traiter les mots composés (comme « tout-en-un »). Le point n'est pas toujours final (comme dans « C.O.D. »). En français, il est pertinent de séparer le mot élidé du mot qui suit (comme dans « t'aime »), mais pas en anglais (par exemple « don't »). D'autres aspects du langage écrit peuvent également « égarer » l'analyse lexicale.
Que faire pour les langues idéographiques, où l'espace ne joue aucun rôle sémantique ? Dans ce cas, il faut trouver les « mots » parmi les idéogrammes à l'aide d'un dictionnaire, c'est la segmentation des mots. Quels mots choisir ? Ceux qui sont les plus probables. Quand les idéogrammes sont mal écrits, le moteur de recherche doit pouvoir détecter les erreurs. Il doit aussi composer avec les noms propres. L'apprentissage automatique peut aider le moteur de recherche, mais ce n'est pas toujours suffisant. Il peut aussi s'appuyer sur des données statistiques et des données empiriques. Dans certains cas, pour les langages syllabiques, le moteur va diviser le texte en séquences de n lettres qui se chevauchent. Aux yeux d'un humain, c'est presque inutile, mais le moteur de recherche peut extraite une information utile à la condition de choisir le bon nombre de lettres.
Il n'existe aucune réponse simple à ces requêtes complexes. Dès lors, les programmeurs recherchent des règles qui fonctionnent le mieux, puis ajoutent des exceptions. L'auteur du billet met en garde, toutefois, contre les systèmes fortement « arrimés » à une seule langue, parce qu'ils planteront de façon spectaculaire lorsqu'ils seront exposés à d'autres langues. Ce scénario n'est pas improbable, parce que Wikipédia et Wiktionnaire se déclinent en de multiples langues, et pas seulement des langues romanes mais aussi le mandarin, le japonais et le télougou. C'est pourquoi il est partisan d'une approche simple et robuste (c'est-à-dire qui ne fera pas planter le système).
Il mentionne que la recherche peut aussi porter sur des termes qui comprennent des espaces ou tout autre séparateur (ex., « Thiokol SR73-AJ/TC-1 »). Le moteur peut aussi rechercher des noms propres, une tâche facile pour les humains, mais parfois très difficile pour les systèmes logiciels (ex., « Ðiện Biên Phủ » ou encore « John Smith », nom incomplet de plusieurs personnes ; voyez tous les John Smith dans la Wikipédia en français).
Il termine en mentionnant avoir tenté différentes approches pour la Wikipédia en chinois, où le mandarin traditionnel côtoie parfois le mandarin moderne, la Wikipédia en japonais, la Wikipédia en coréen et la Wikipédia en thaïlandais. Avec plus ou moins de bonheur. Néanmoins, l'équipe chargée du moteur de recherche poursuit ses efforts pour améliorer les résultats dans ces langues.
Dans une note de bas de page, il présente un exemple où l'ordinateur fait mieux les calculs, mais où l'humain perçoit facilement un motif. Demander à quelqu'un de trouver tous les entiers divisibles par 3 ou 5, mais pas les deux en même temps, puis de tous les additionner. Pour les entiers inférieurs à 100, c'est 2103. Sous la barre de 1 000, c'est 201003. Pour 10 000, c'est 20010003. Inférieurs à 100 000, c'est 2000100003. Jusqu'à 1 000 000, c'est 200001000003. Aucun humain n'aurait pu additionner aussi facilement ces nombres ; toutefois, aucun ordinateur n'aurait pu, sans programmation préalable, découvrir le motif. [NdT : ces résultats sont à rapprocher de la somme des premiers entiers.]
Courrier du lectorat
[modifier le code](Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)
Je suis peiné de lire que des gens suggèrent de payer des citoyens du Sud pour qu'ils contribuent. Ils n'ont pas le niveau de vie de l'hémisphère Nord et ils manqueront toujours de temps libre, de soutien financier, etc., comparativement aux gens du Nord. Si la WMF les soutient, elle doit envisager de les soutenir ad vitam æternam, un proposition qui déplaira à la communauté wikimédienne. Par ailleurs, même s'ils sont soutenus financièrement par la WMF, ils écriront des articles sur leurs intérêts, comme les gens du Nord le font (ce qui est tout à fait normal). Est-ce que les internautes du monde entier y trouveront leur compte ? Je crois que non, mais je peux me tromper. Finalement, le nombre d'articles à écrire/améliorer est immense, sur une foule de sujets. Les gens du Sud qui seront payés constitueront une part minuscule de l'effort bénévole. Leur apport sera marquant par les sujets abordés, mais je crains que le nombre d'articles soit microscopique comparativement aux articles écrits par les gens du Nord. — Cantons-de-l'Est discuter [opérateur] 2 octobre 2018 à 02:57 (CEST)
- Autres sites proposant des médias libres : pixabay.com et pexels.com
« Voilà pourquoi je passe plus de temps à lire Wiki in extenso, aux environs de 2245. Il n'a pas été mis à jour depuis plusieurs décennies mais c'est encore suffisamment récent pour qu'on y parle de bombes solaires et de grenades à fragmentation. »
— Hugh Howey, Phare 23 Rédigé/traduit par Cantons-de-l'Est et Simon Villeneuve.
|
- (en) « Nearly all of this work is done by volunteers from around the globe—volunteers who love their language and identify with the values of free knowledge. These volunteers invest their time into translating articles, documentation, and software user interface messages into their languages. As a result, people who speak their language have better access to useful educational materials, such as essential vaccine information, and enable even more people to contribute their own knowledge. »
- (en) « Bashkir Wiki-Grandmas »
- (en) « The ease that humans have with language often hides most of the complexity, knowledge, and decision-making that goes into using words and giving them meaning. People generally aren’t even aware of how much they do to process language—at least not until they have to try to get a computer to do it. »
- commentaire de Simon Villeneuve : lors de l'école d'été du numérique 2018, nous avons eu des témoignages semblables d'Haïtiens concernant l'absence de temps libre pour contribuer.