Sujet sur Discussion Projet:Les sans pagEs

Défi : 1000 nouvelles bios de femmes en 5 jours

50
Roland45 (discutercontributions)

Bonjour à toutes et à tous.

Après un défi passé un peu inaperçu en septembre dernier (10 000 articles de communes complétés avec une section Risques en 40 jours, soit un ajout de 56 Moctets dans l’espace principal de WP et de plus de 15 000 cartes à Commons - voir le projet), j’ai décidé d’apporter ma contribution robotisée à une cause majeure pour Wikipédia : la réduction du biais de genre sur Wikipédia en français afin d'améliorer la visibilité sur Wikipédia des femmes.

Le projet:les Mille Pages a pour objectif de créer des séries de 1 000 biographies de femmes dans des délais les plus courts possibles (5 jours visés), à l’aide de processus automatisés ou bots, par traduction à partir de la WP anglaise (au début). Le descriptif du projet peut être vu en cliquant sur le lien bleu.

Le phasage est le suivant :

Phase 1Création de 1000 biographies de scientifiques américaines, par traduction d’articles existant sur Wikipédia en anglais. Ces articles seront d’amblée wikifiés (liens internes a minima), avec les mêmes références que l’article original (avec la syntaxe de la WP:fr), avec portail et catégories adaptées. Des tâches connexes seront réalisées (évaluation, ajout article dans des listes).
Phase 2Trois nouvelles séries de 1000 articles sur les scientifiques américaines. Nécessite une adaptation des différents glossaires.
Phase 3Approche par occupation et par langue. Des requêtes sql sur Wikidata permettent de lister par occupation/métier les articles figurant dans d’autres WP et pas dans la WP fr : d’abord en langue anglaise, puis espagnole, puis allemande. Nécessite la création de glossaires nouveaux. Pour limiter l'évolution des glossaires, cette phase se limitera aux métiers scientifiques.

Les articles seront ainsi créés par lots de 10 (ou plus selon comment cela se passe), pour atteindre la première série de 1000.

Une relecture sera nécessaire. Je fais donc appel aux contributeuses ou contributeurs qui voudront bien relire ces articles tant sur le plan de la syntaxe que du style ou de la wikification.

Je suis encore en train d’affiner certains points de détails avant de lancer formellement l’opération.

Cordialement.

Lupin~fr (discutercontributions)

Bonjour @Roland45,

dans l'absolu je trouve ça intéressant et il est tjs agréable de voir de nouvelles initiatives. J'y vois toutefois plusieurs réserves, pour lesquelles je tente de proposer des solutions, l'idée n'est pas de vous décourager mais de prendre en compte les problèmes qui peuvent se poser pour tirer le meilleur de votre idée :

  • la création robotisée me semble gênante, elle engendre un grand nombre de biais (pas forcément plus que les êtres humains, mais sans doute plus que celles que nous créons). Par contre, identifier des sujets d'articles me semblerait intéressant si ils sont traités par des être humains ;
  • la traduction d'articles en langue anglaises et de personnes des EU augmente le biais occidentalo-centré, le faire automatiquement démultiplie encore ce poids. Il serait intéressant de mettre le focus sur des langues moins répandues. De ce point de vue, le choix des langues espagnoles et allemandes me semble préférable, et si un moyen technique existe de choisir d'autres langues, cela me semblerait intéressant :)

Cordialement

Roland45 (discutercontributions)

@Lupin~fr Bonjour.

Je suis d'accord sur le renforcement du biais américano-centré, puisque je commencerai par des scientifiques américaines. En passant à la phase par occupation et hors WP anglaise, cela devrait se corriger avec le temps. Par contre pour le reste, les bots ne font que ce que fait un humain mais en plus vite. Avec la précision qu'une relecture s'impose bien entendu, comme d'ailleurs pour n'importe quelle traduction avec l'outil de traduction en ligne. Cordalement.

Lupin~fr (discutercontributions)

Je me permet de ne pas être d'accord : un bot ne fait que ce qu'il a été fait pour effectuer. Tout dépend donc de comment il est développé ;)

Quand à la relecture, elle demandera beaucoup de travail et de soin pour compenser d'éventuels biais. Le moins pire qu'on puisse faire serait de tenir compte de ces biais si l'algo est disponible pour être analysé (mais cela demande une analyse de personnes compétentes, qui prend du temps). Pour info, cet algo et le code source est-il dispo ?

Merci bien :)

Lupin~fr (discutercontributions)

@Roland45 pour info, quand on corrige une notification, le compte corrigé n'est en fait pas notifié. Il faut insérer cette notif dans un nouveau message pour que ça fonctionne.

Nattes à chat (discutercontributions)

C'est intéressant comme projet ! Qui relira les articles produits ? 1000 en 5 jours cela fait beaucoup.

Je rejoints un peu @Lupin~fr : on va avoir des articles americano centrés, j'aurais préféré voir d'autres langues.

Ensuite pourquoi les scientifiques ? Il y a des secteurs où le biais de genre est encore plus problématique : les fonctions religieuses ou guérrières, le personnel militaire, ou encore les diplomates et les architectes voir ici 1.

Ensuite si tu pouvais commencer par les scientifiques nées avant 1940 ce serait encore mieux car plus on remonte dans le temps plus le fossé des genres s'amplifie.

Roland45 (discutercontributions)

@Lupin~fr Si un algorithme unique existait, ce serait le graal absolu et je le diffuserais urbi et orbi. C’est d’ailleurs dans cette voie que je m’étais déjà engagé en 2020 en utilisant l’API google translate, mais d’une part il fallait découper les différents codes d’articles en sections de 5000 caractères maxi, ce qui allongeait considérablement le temps de traitement, mais surtout le résultat était pitoyable et le temps de reprise de l’article aurait été plus long que le faire manuellement avec l’outil de traduction. J’ai donc abandonné cette voie.

La nouvelle approche est radicalement différente et est décrite dans le projet. L’outil de traduction utilisé est désormais DeepL Pro, mieux que Google translate d’après les experts. En fait il n’existe pas un bot, mais une vingtaine, dont deux principaux de 1000 lignes de code environ. Diffuser ces bots ne serait d’aucune utilité car il faut savoir comment ils s’emboîtent.

Pour info, je suis aussi favorable aux données ouvertes, puisque j’ai même mis à disposition une batterie de bots permettant de rédiger automatiquement des sections entières d’articles de communes de France (voir le projet) fonctionnant sur le mode manuel clicker/coller. Mais peu se sont lancés dans l’aventure. Seulement trois contributeurs, dont un (ou deux) développe maintenant ses propres scripts à l’aide des briques de codes des différents programmes. J’ai donc abandonné la mise à jour de ces outils (ce qui est ennuyeux, car pour rappel la plupart des données des communes changent chaque année).

Concernant le biais, il ne peut exister que dans le choix des articles, car je doute que DeepL ait un quelconque biais dans ses traductions. Il peut par contre y avoir des erreurs de traduction de type orthographe, syntaxe, conjugaison (pour rappel le bot quant à lui tentera de corriger les formulations au passé en présent de narration, ce qui est quand même de la haute voltige), formulation, etc.

@Hyruspex En fait, ce ne sont pas 1000 articles qu’il faudrait relire mais … près de 4000 ! Puisque outre la création de l’article, le bot ajoute le nom de la personne et son descriptif dans les articles éphémérides, l’article d’homonymie (s’il y en a) et l'évaluation dans la page de discussion. Mais pas de panique.

D’abord en réalité les articles en question (les 1000 premiers) … sont en fait déjà traduits et préparés (à l’aide de la batterie de bots dont je parle ci-dessus), mais éclatés en différents endroits. Cette dernière phase consiste essentiellement en l’assemblage de tous ces morceaux, sauf en ce qui concerne les modifications des articles éphémérides et autres qui sont actualisés en live. Je ne pouvais pas annoncer un objectif sans être sûr qu’il soit atteint.

Des quelques relectures que j’ai déjà faites par sondage, les modifs à faire sont minimales et ponctuelles. En cas de modification générique, je suis amené à modifier le code, c’est ce qui prend un peu plus de temps (et qui m'a occupé ces derniers temps).

Pourquoi les scientifiques américaines ? Tout simplement parce que pour produire des articles déjà plus ou moins correctement wikifiés, il me fallait un glossaire(= table annexe) des catégories, portails et projets associés déjà conséquent et donc une thématique où il y ait déjà pas mal d’articles existants en WP fr, pour qu’un bot puisse les triturer et récupérer ces dites tables. C’est-à-dire une thématique qui ait déjà un biais par rapport aux autres. Ainsi je reconnais que la manip revient à renforcer un biais … déjà existant !

Maintenant si on accepte des articles moins wikifiés, voire pas du tout, n'importe quelle langue peut être utilisée (parmi les 29 que propose DeepL).

Pour l’ordre de traitement, je pourrais le faire, mais il m’est beaucoup plus facile de suivre l’ordre actuel de mes listes (alphabétique pour cette première série de 1000, puis plus erratique pour les suivantes). Cordialement.

Roland45 (discutercontributions)

@Hyruspex Même problème qu'hier. Il est probable que tu n'aies pas été notifiée. Je te fais donc ce message pour t'informer ... du message ci-dessus!

Lupin~fr (discutercontributions)

@Roland45 il est toujours dommage de voir son travail ne pas servir. Pour des données numériques telles que pour les communes de France, je pense que le projet adapté serait plutôt wikidata, qui recense ces données là. Toutefois, il faudrait en discuter sur le bistro de wikidata afin de valider qu'un tel usage est bien conforme aux règles que s'est donné le projet.

De la même manière pour WP, sur la forme, je pense qu'une discussion sur le bistro Wikipédia serait nécessaire au cas où une telle création d'articles par des bots serait acceptable (les corrections de formes actuelles me semblent plus limitées).

Le domaine de la traduction n'est pas exempte de biais. Par exemple on peut traduire wife en épouse ou femme, researcher en chercheur ou chercheuse, je ne parle même pas de tenure track qui peut être traduit de multiples façons, ou encore de MCF qui peut être écrit maître de conférence ou maîtresse de conférence au féminin, etc. Une recherche avec les mots-clés « biais » et « deepl » (ou traduction) donnera une idée du problème.

Dans l'idée d'une étude et de proposition, ça me semble très intéressant de voir ce que sortent ces bots, mais je pense qu'une phase d'étude est nécessaire avant de passer à l'écriture d'articles. Les membres des sans pagEs sont particulièrement sensibilisées aux biais de ce genre ;)

En tout cas, merci de cette proposition, c'est un travail qui permettrait peut-être d'identifier les points d'attention dans cet outil de traduction, peut-être même des relecteurs et relectrices pourraient se proposer (mais sans doute pas pour 1000 articles dans un premier temps, la relecture est chronophage:)).

Roland45 (discutercontributions)

@Lupin~fr Merci pour tes observations. Mais :

  • jusqu’à preuve du contraire Wikidata (que je connais par ailleurs) est un entrepôt de données, or mes outils proposent du rédactionnel, à partir précisément de données (et d’ailleurs mes bots utilisent WD sur un certain aspect (mais je ne rentrerai pas dans le détail) ;
  • il ne faut pas avoir peur des bots. J’ai 100 fois entendu qu’un bot ne peut pas faire du rédactionnel et encore moins créer des articles, et qu’en tout état de cause ce serait moins bien fait qu’un humain. Et pourtant dans le cadre du Wikiconcours de mars 2020, 11,5 Moctets de textes ajoutés en un mois sur 254 articles (record de désébauchage tous wikiconcours confondus), soir 45 ko en moyenne par article, près de 18 000 références ajoutées (voir le Wikiconcours), avec un rédationnel bien plus élaboré que de nombreux ajouts faits par des contributeurs non aguerris. Je vais prochainement faire une annonce sur le Bistro et je m’attends aussi à ce genre de remarque alors que personne ne s’interroge sur les multiples créations quotidiennes, souvent des articles de très piètre qualité;
  • le problème de traduction le plus difficile à régler dans ce qui nous intéresse est effectivement la féminisation des noms. Ceci est pris en compte dans mon bot, mais cela reste relativement complexe et je reconnais que ce n’est pas totalement réglé ;
  • celles ou ceux qui veulent procéder à ces relectures le feront. En tout état de cause je procèderai moi aussi à ces relectures ;
  • la première série de 1000 sera lancée dans les jours qui viennent.

Cordialement.

Lupin~fr (discutercontributions)

@Roland45 oui, WD est une base de données, qui permet de rassembler de manière plus factuelle certains éléments, sans doute moins biaisés (ou moins dans le contenu rédactionnel, bien qu'il puisse subsister des biais, comme le biais géographique très occidentalo-centré par exemple).

Je n'ai pas peur des bots, mais il se trouve que nous sommes quelques un·es à être familier avec l'informatique, et donc avec le fait qu'un bot n'est pas sans biais comme certain·es le pensent. Je lis toutefois que vous êtes conscients des biais existants, ce qui est rassurant. Comme vous êtes conscient du problème posé par les biais de traduction, bien que ce problème ne soit pas résolu, la création de vos articles (ou ceux de votre bots, mais qui vous seront attribués) ne risque-t-elle donc pas d'être biaisés et aller à l'encontre de l'objectif ? La relecture ne suffit déjà pas avec les articles créés par les êtres humains, ajouter des articles créés avec des biais potentiels ne va-t-il pas ajouter de la confusion ?

Le fait que des articles soient mal écrits ne peut justifier la rédaction d'articles avec une méthode qui pourrait être jugée problématique par la communauté, c'était la raison pour laquelle je vous encourageais à lancer le débat, qui permettrait de échanges intéressants.

Vous semblez pressés de lancer le début de cette traduction. Je comprend qu'un tel projet soit enthousiasmant, mais accepteriez-vous de délayer ce début afin de débattre de cela avec la communauté ?

Cordialement,

Roland45 (discutercontributions)

Quand pour ma part, je parle d'articles mal écrits quotidiennement, c'est un constat, pas un argument pour créer des articles similaires. Je sens que le débat risque d'être constructif!

Les différents bots en question ne font que ce que font un grand nombre de contributeurs qui utilisent l'outil de traduction sans qu'on leur ait jamais demandé quoi que ce soit et qu'on leur ait fait une quelconque injonction. Pour rappel, j'ai un certain nombre d'AdQ à mon actif et sais donc ce qu'est une bonne rédaction. Ce qui n'est pas le cas d'un grand nombre. Pour info, je maitrise aussi diverses langues, ce qui facilite la compréhension de l'article original. Et enfin pas loin de 850 000 contributions avec des bots, cela aide. Pour la qualité des articles produits, elle ne fera que refléter la qualité des originaux (souvent piètre) (en tout cas piètre par rapport à ce que je produis dans la WP française - pour info, ma dernière contribution).

Mais qu'à cela ne tienne si ces articles ne plaisent pas, je m'arrêterai après la première salve de 1000. Il y a d'autres biais à corriger que les biais de genre.

Mes contributions sur cette PDD s'arrêteront ici. Merci.

PAC2 (discutercontributions)

Je suis très sceptique sur l'approche.

J'ai l'impression qu'on veut apporter une solution quantitative au problème en créant plein d'articles alors que le biais de genre est un problème plus global (peu de contributrices, peu de liens vers des articles de femmes).

Je trouve que l'usage de traducteurs automatiques n'est pas quelque chose à encourager. Premièrement les articles sources ne sont pas toujours de bonne qualité. Deuxièmement, ça me semble problématique de peupler Wikipédia avec du contenu traduit automatiquement plutôt que du contenu original.

C'est assez paradoxal de faire faire aux bots le travail intéressant de rédaction et de laisser aux humains le travail ingrat de vérification et de relecture. Ça me fait penser aux travaux du sociologue Antonio Casilli (voir En attendant les robots) qui montre la nécessité du microtravail humain derrière les intelligences artificielles.

Je serais plutôt laisser le plaisir du travail rédactionnel aux humains. C'est ce qui fait la richesse de Wikipédia.

Dernier point, ce n'est pas parce qu'un code source est complexe qu'il ne doit pas être ouvert. On doit pouvoir discuter du fonctionnement d'un bot.

Lupin~fr (discutercontributions)

Je crains que cela n'augmente beaucoup la charge de travail de relecture pour éviter une augmentation très importante des biais dûs à la traduction. La personne ne souhaitant pas discuter de ce sujet, il ne nous laisse comme solution que la surveiller les articles à la relecture, mais en période de fêtes, cela tombe vraiment très mal car je crains que peu de monde soit dispo... :-(

J'hésite à poser la question sur le bistro de savoir quel est l'avis sur la rédaction automatisée. En soi, la discussion me semblerait intéressante pour que la communauté puisse se situer sur le sujet, même si on n'est pas à l'abri de réaction négatives (c'est visiblement aussi ce que craint le proposant). Qu'en pensez-vous ?

PAC2 (discutercontributions)

oui il faut discuter collectivement de cette approche de rédaction automatique.

Au delà de cet exemple, la question va se poser avec les nouveaux modèles d'intelligence artificielle comme ChatGPT ou Galactica. Est ce qu'on a déjà eu une prise de décision sur le sujet ?

Lupin~fr (discutercontributions)

Pas à ma connaissance, mais elle n'est pas une référence en la matière ;) @Hyruspex aura peut-être une mémoire plus remplie que la mienne à ce sujet ;)

Nattes à chat (discutercontributions)

aucune idée j'ai vu passer sur les liste wikimedia international ce truc de ChatGPT mais je n'ai pas creusé.

Je voudrais d'abord remercier @Roland45 de proposer quelque chose pour réduire le biais de genre, mais je suis perso plus dans une approche qualitative en ce moment. J'ai un peu peur que cela fasse beaucoup d'articles à relire d'un coup et je me demande si on ne peut pas se cantonner aux scientifiques les moins biens représentéées et aussi peut être ne pas les balancer d'un coup, mais petit à petit pour qu'on ai le temps d'absorber ?

Msbbb (discutercontributions)

J'aime bien l'idée de l'initiative, mais hélas, trois fois hélas, « des articles americano centrés ». Pas que dans le domaine proposé ici, la wiki.fr a un côté vassale qui me déplaît.

Je profite de ce fil pour évoquer aussi ChatGPT , que j'avais mentionné sur le Bistro du 14 déc Wikipédia:Le Bistro/14 décembre 2022#Wikipédia:Débat d'admissibilité (PàS), cela devient n'importe quoi ! et il n'y a pas eu de réaction. Je rejoins la question de PAC2 (d · c · b), même si ce n'est pas le sujet ici. Formule cordiale.

Softenpoche (discutercontributions)

Bonjour, Je teste actuellement ChatGPT dans sa version 15 Dec et le trouve plutôt bien pour une première version. Bien sûr il faut repasser derrière pour vérifier les infos, mais globalement, si on lui pose les questions de manière précise et claire, ses réponses sont pertinentes. Au vu de la marge de progression qui lui reste encore, c'est certainement un outil qui va faire sa place dans un avenir proche. Maintenant, il reste encore à voir le modèle économique que ses concepteurs adopteront. Cordialement Softenpoche (discuter) 22 décembre 2022 à 23:10 (CET)

Nattes à chat (discutercontributions)
Roland45 (discutercontributions)

ReBonjour,

Pour répondre à @Hyruspex, mais aussi pour couper court à toute confusion, je préfère apporter quelques précisions.

D’abord, si vous lisez bien la fiche projet et si vous connaissez le VBA, vous vous apercevrez qu’on est ici à 1000 lieues de l’intelligence artificielle. Au pire peut-on assimiler à des processus d’apprentissage d’AI, le fait qu’à chaque relecture que je fais faisant apparaître une modif susceptible d’être générique ou a minima concernant un certain nombre d’articles, je complète la table associée au module de wikification (qui ne fait pas que de la wikification, mais aussi des corrections de formulations). Ainsi plus il y a de relecture, plus les articles produits ensuite s’améliorent.

Dans la fiche projet, il y a bien écrit qu’une relecture « à grandes mailles » est faite préalablement, c’est-à-dire, que j’aurai déjà procédé à une relecture avant publication, mais plutôt de type survol. Ce n’est ainsi pas une production brute issue du traducteur qui est publiée, mais il est impensable de faire une relecture complète avant publication.

Pour donner un exemple, j’ai produit la traduction d’un article relativement long et qualifié de BA dans la WP en anglais : Ann T. Bowling, et en outre très spécialisé. Il concerne la thématique des chevaux et pourra intéresser @Tsaag Valren qui pourra faire une relecture avisée (si elle le souhaite), et peut-être le monter au niveau BA en français (qui, il faut le reconnaître, est d’un niveau bien plus élevé que la WP en anglais).

Il est évident qu’un tel article très spécialisé peut comporter des erreurs de traductions, il n’empêche que la page produite est une base de départ plus qu’intéressante.

Concernant l’image figurant sur la WP en anglais, elle est en fair use, mais je ne l’ai pas importée sur la WP en français car a priori notre fair use ne couvre que les cas de logos de marques déposées, les bâtiments récents et les monnaies.

Concernant le RI et pour donner un exemple de formulation difficile à traiter en termes de féminisation des noms, je reconnais que l'expression « l'une des principaux généticiens mondiaux » sonne mal et devra assurément être corrigée. Mais si on met une des principales généticiennes, on réduit, car elle est peut-être la principale du groupe des femmes généticiennes. Alors ?

Concernant la production, je ne verrai cela qu’après les fêtes, il reste encore quelques bricoles à régler.

Msbbb (discutercontributions)

Merci des précisions.

Nattes à chat (discutercontributions)

Oui merci pour tes précisions.

Sinon j'ai chatté avec ChaptGPT et bon je n'ai pas trouvé tout très satisfaisant. C'est bluffant parfois, mais il ne cite pas ses sources ce qui fait que ce qu'il dit est invérifiable. Par contre il m'a donné quelques liens internets intéressants (je lui ai demandé quelles étaient les concurrents d'une multinationale et les défis qu'elle rencontrait et c'est la réponse la moins idiote qu'il m'a donnée). Il y avait quelques liens archivés la dedans

Par contre il lui est impossible de me genrer correctement (même s'il n'arrête pas de s'excuser), il met tout au masculin et prétend être un système de langage neutre qui ne peut pas fournir ses sources :/.

ce qui est rigolo c'est les différences de réponses quand on pose grosso modo la même question en anglais et en français.

Softenpoche (discutercontributions)

Hello Hyruspex, Bon, chacun fera ses expériences et c'est souhaitable. Mais je suis ravi que tu aies remarqué également la gentillesse de l'outil. Ainsi, à la question "ChatGPT est-il destiné à remplacer wikipédia ?", il répond gentiment : "Non, ChatGPT n'est pas destiné à remplacer Wikipedia. ChatGPT est un modèle de langage en ligne développé par OpenAI qui a été entraîné sur un grand corpus de textes en ligne afin de pouvoir répondre de manière cohérente et naturelle aux questions posées par les utilisateurs. ChatGPT est conçu pour être un outil de conversation et de réponse en ligne, et non pour être une source d'information encyclopédique comme Wikipedia. En effet, Wikipedia est une encyclopédie en ligne gratuite qui vise à fournir une couverture étendue et complète de l'information sur un large éventail de sujets, tandis que ChatGPT est conçu pour répondre à des questions spécifiques posées par les utilisateurs de manière à aider à résoudre des problèmes ou à fournir des informations sur un sujet donné". Sur ce, Joyeux Noël à toutes et tous. Cordialement Softenpoche (discuter) 24 décembre 2022 à 09:45 (CET)

Nattes à chat (discutercontributions)

Ce qui me turlupine c'est l'opacité du système : on ne sait pas sur quelles source sil se base pour répondre. Le potentiel de manipulation à terme si beaucoup de monde utilise l'outil est préoccupant pour moi.

Je lui ai demandé ce qu'étaient les sans pages et il m'a pondu un beau paté de n'importe quoi. Par contre quand on lui balance un lien il s'excuse de s'être trompé et te sert un résumé du contenu

PAC2 (discutercontributions)

Tout à fait d'accord. Sur ce sujet, je recommande de suivre la linguiste Emily Bender. Voir notamment https://dair-community.social/@emilymbender/109570351833193530

Elle dit qu'il ne faut pas confondre les modèles de langage avec des modèles de connaissance et que les chatbots ne peuvent pas remplacer les moteurs de recherche.

Lupin~fr (discutercontributions)

@Hyruspex C'est l'un des souci de l'IA par apprentissage, il est difficile (pour ne pas dire impossible) de rendre compréhensible son résultat, ce qui la rend inutilisable si on veut que les personnes qui l'utilisent la comprennent.

Lupin~fr (discutercontributions)
Dalb (discutercontributions)

Bonjour en tant que "simple" rédactrice voire "correctrice de Liens", j'avoue être très perplexe. ajouter 1000 scientifiques américaines me fait froid dans le dos. au biais déjà évoqués qui réduisent certes les autres langues, mais aussi la francophonie, j'ajouterai des biais sur des domaines (les thèmes portées par les américaines). Si ce recours à des traitements automatiques se généralisent, il faudrait absolument avoir un tableau de bord spécifique pour évaluer les énormes biais. (Il y a peut être un outil quelque part existant ?)

Lewisiscrazy (discutercontributions)

« Froid dans le dos » c'est vraiment une expression très forte. Et la wikipédia francophone n'a pas à être centrée sur l'espace francophone: ça c'est un biais clair qui vient de l'intérêt des rédacteur·ices francophones et de leur accès aux sources.

Je suis pas fan de l'argument ci-dessus sur l'augmentation du biais que cette démarche entrainerait, parce que je suis pas fan de l'objectif de réduction du biais: des discussions cet été sur l'objectif de LSP, je retiens surtout qu'on ne sait pas mesurer ce biais (on ne sait même pas compter le nombre total de biographies admissibles sur wikipédia). Est ce que maintenant on va se demander s'il y a trop de bios de femmes américaines? Comment on va estimer la limite à ne pas dépasser? De fait, on ne peut pas réduire un biais qu'on ne sait même pas mesurer.

Et même s'il y avait un jour "trop" (selon qui?) de bios de femmes, on pourrait quand même avoir l'envie d'en créer de nouvelles, parce que ça nous intéresse et que les articles correspondants sont admissibles. Les gens qui créent des articles sur les footballers ne le font pas parce qu'il y a trop de biographies de rugbymen, iels écrivent des articles admissibles sur le sujet qui les intéresse.

Pour revenir à la proposition initiale, j'ai l'impression que l'avantage de la démarche par rapport à la traduction google automatique des pages wp:en est assez faible, mais quand même, si ça se fait tout seul, je vois pas trop le problème.

Les détails de rédaction (féminisation etc.) ne sont pas la partie la plus fastidieuse de l'écriture des articles. Pourquoi pas essayer sur un petit nombre de nouveaux articles, sur lesquels serait posé un bandeau annonçant clairement la démarche et qu'une relecture est nécessaire? On pourrait impliquer le projet science pour cela.

Le problème que je vois, qui n'a pas été discuté ci-dessus (sauf erreur), c'est que les critères d'admissibilité ne sont pas les mêmes sur wp:en et wp:fr, il faut pas se retrouver ensuite avec 1000 DdA.

Nattes à chat (discutercontributions)

assez d'accord avec toi @Lewisiscrazy. Et partante pour commencer sur une cinquantaine d'articles pour voir ce que cela donne.

Roland45 (discutercontributions)

@Hyruspex, @Lewisiscrazy et @AntonyB Voici donc les 50 premières créations ici. En réalité 49, car un article existait déjà. Je continuerai plus tard.

Hamuli (discutercontributions)
Nattes à chat (discutercontributions)

Hello @Roland45 j'en ai relu une Alice Mossie Brues. Il n'y avait qu'une source présente au début, ce qui est insuffisant je pense, quoique la suite m'a démontrée qu'elle est largement admissible.

J'ai inversé l'ordre de présentation des parents pour mettre la mère en premier (on met systématiquement le père en premier et c'est un biais de genre que de définir une femme uniquement par ses relations aux hommes de son entourage). Au lieu de mettre "son père est xyz et sa mère est yxz " j'ai mis " ses parents sont " : la formule est plus inclusive.

Ensuite et bien l'article équivalait peu ou prou à un CV académique et il manquait l'essentiel, à savoir la description de ses travaux en génétique en utilisant des ordinateurs et le fait qu'elle soit une des rares femmes à obtenir un doctorat en anthropologie physique.

J'ai du rajouter ses publications principales qui ne figuraient pas, et une section bibliographie.

C'est pour cela je pense qu'il te faut réunir une équipe de gens qui voudront bien relire au fur et à mesure pour rendre la lecture de ces articles plus intéressantes que juste un parcours académique. Or 4000 cela fait beaucoup beaucoup !

Moi je ne me vois pas en tant que bénévole faire plus qu'un article ou deux par mois, sinon je serai obligée de lâcher mes propres sujets de contributions favoris.

Par contre si tu avais une floppée d'informaticiennes ou de chercheuses scientifiques francophones dans les domaines des sciences et technologies informatiques et internet je pourrais les refiler pendant un des cours universitaires que les sans pagEs donnent pendant l'année.

Roland45 (discutercontributions)

@Hyruspex C'est sûr que rechercher et apporter des sources et infos complémentaires et reformuler prend beaucoup plus de temps qu'une simple relecture de base. Concernant les informaticiennes, quand je passerai à l'approche par métier, cela pourra se faire.

Nattes à chat (discutercontributions)

Ah j'oubliais : j'ai rajouté son nom de famille à plusieurs reprises car utiliser constamment le prénom pour une femme est infantilisant et constitue un des biais de genre repérés par la recherche :)

Nattes à chat (discutercontributions)

et hop encore une Ana Livia Cordero. Pour celle-ci c'est toute son appartenance au mouvement des droits civiques américains qui n'était pas très claire (mais cela vient de l'article en anglais). @Roland45 moi je veux bien m'engager pour relire toutes les afro américianes scientifiques (enfin pas en un week end hein) parce que cela correspond à mes objectifs personnels de participations à Noircir Wikipédia.

Je vois aussi qu'il faut à chaque fois rajouter le lieu de naissance et de mort dans le RI je ne sait pas si tu peux corriger ça ?

PAC2 (discutercontributions)
Roland45 (discutercontributions)

Je remercie tous les contributeurs qui ont bien voulu participer à cette phase expérimentale. Pour la suite du projet, j'ai apporté des informations sur le bistro de ce jour. et sur la page projet.

En synthèse :

  • Publication dans l’espace projet de la totalité des 1000 (ou plus) articles avec un préfixe «Projet:Les Mille Pages/» ;
  • Chaque article est ensuite travaillé par celui ou celle qui le souhaite, soit individuellement soit collectivement (à plusieurs ou lors d’un editathon par exemple), soit directement dans l’espace projet sur l’article-projet, soit ailleurs, puis est publié dans l’espace principal par le contributeur qui le souhaite, sous son pseudo, quand il estimera que l’article a suffisamment été relu, complété, reformulé ;
  • Un bilan sera fait après un certain délai (2 mois par exemple) ;
  • Si un nombre suffisant d’articles est adopté et que la démarche est jugée comme pouvant être poursuivie, une phase par occupation/métier sera lancée (neurologue, astronome, auteur américain ou britannique de roman d'amour, fabricant de poupées (pourquoi pas ?!), etc. (pour le coup, les hommes pourraient aussi être faits), sur les mêmes bases : publication dans l’espace projet puis adoption ou pas.

Les tableaux de suivi seront du type de celui-ci. Il appartiendra à ceux qui prennent en charge et publient un article de compléter la colonne « éléments de notoriété ».

En complément du billet du Bistro et sur le plan technique, la publication sur l'espace projet modifie certains aspects. Notamment le fait que le bot, juste après la publication de l'article, procédait à diverses tâches : création de la page d'évaluation, ajout de la personne (et de son descriptif) dans les différents éphémérides, ajout le cas échéant de la personne dans les pages d'homonymie. Ces tâches n'auront plus lieu d'être et devront, le cas échéant, être faites à la main.

De même les articles étant créés désormais dans l'espace projet, ils ne peuvent pas comporter des catégories explicites.

C’est pourquoi les articles qui seront produits (avec ledit-préfixe) comporteront en fin de wikicode et en mode masqué :

  • le code de la page d’évaluation ;
  • les catégories ;
  • l’information sur l’existence u non d’une page d’homonymie.

Il suffira alors de les copier pour les réutiliser.

Ce même billet figure sur la page projet. Pour éviter un éparpillement des discussions, il me parait souhaitable que la discussion soit poursuivie sur la page du projet, sauf pour des questions qui concerneraient spécifiquement le projet:Les sans pagEs.

Une petit réponse spécifiquement pour @Hyruspex. Concernant les afro-américaines, j'ai mis dans mon tableau de suivi le « pays de nationalité », tel qu'il ressort de Wikidata (P37, quand il y est). Il s'avère qu'avec ce paramètre on ne peut pas identifier immédiatement les afro-américaines, mais uniquement la langue parlée. Le descriptif doit normalement donner cette info, mais je referai un passage général pour voir si c'est bien indiqué à chaque fois.

Merci et Bonnes fêtes. Cordialement.Roland45 (discuter) 30 décembre 2022 à 16:04 (CET)

Nattes à chat (discutercontributions)

merci bon cela ne les identifie pas effectivement :)

PAC2 (discutercontributions)

Je trouve cette nouvelle manière de procéder beaucoup plus satisfaisante. Merci d'avoir changé le processus de publication.

Je garde quelques réserves sur la rédaction/traduction automatique mais j'ai besoin de temps pour mettre par écrit mes arguments pour lancer le débat.

Lupin~fr (discutercontributions)

Merci @Roland45 pour ce travail important de communication et de présentation. :)

une question bête : les stat' de femmes afro-américaines sont assimilables à des stat' sensibles en France, cela peut poser souci au moins pour les personnes vivantes (pour les personnes décédées, il me semble qu'il y a un délai à respecter).

Formellement, cette législation s'applique-t-elle à WP ?

Dans l'idée que cette législation a pour but de protéger lesdites personnes, ne serait-il pas préférable d'éviter d'indiquer dans le descriptif cette info ? (même si cette législation ne s'applique pas formellement, un peu comme le principe « Ne pas nuire » de Wikipédia:Biographie de personne vivante ?

Bonne fêtes

Nattes à chat (discutercontributions)

Coucou moi je suis en Suisse, donc ce qui se passe en France ... Qui plus est les États-Unis ont eux des statistiques ethniques et du coup les afro américaines sont identifiées... Autres pays autres pratiques. Pour ma part je trouve cela pratique pour identifier des bios à faire pour Noircir Wikipédia !

Dominic Mayers (discutercontributions)

Je pense que les discussions dans le bistro ont montré une mauvaise compréhension du projet de Roland45. Voir le dernier commentaire de Roland45 dans le bistro. La synthèse donné ci-dessus est très utile et elle aurait du être mise plus en évidence, plus tôt. Je ne dis pas que les mises en garde fasse à une production massive d'articles ne sont pas pertinentes, mais il ne faut pas négliger un point essentiel suggéré par Roland: rien n'est produit directement dans l'espace principal. C'est donc toujours la communauté qui décide, comme à l'habitude. Les mises en garde restent valides. Il n'y a pas de contradiction. Il serait peut-être utile de clarifier la procédure de transfert dans l'espace principal étant donné la nature de la production initiale.

Roland45 (discutercontributions)

@Lupin~fr « Les statistiques ethniques sont interdites en France », entend-on dire dans les débats politico-médiatiques, indépendamment des lois, avis de la Cnil, rapports et pratiques réelles de la statistique française. Mais c’est faux ! De fait, celles-ci sont déjà admises en France comme dans le reste de l'Europe occidentale. Dommage que des préjugés idéologiques empêchent les professionnels de les utiliser comme elles le mériteraient. Je t’invite à lire cet article (la source est fiable).

Or là on est ultra-loin d’un recueil de statistiques, simplement une mention dans un tableau pour quelques personnes concernées, d’un qualificatif associant pays ou continents d’origine et nationalité ou pays de vie. Sauf à ce qu’on me prouve le contraire, le mot afro-américain n’est pas proscrit de la langue française.

Roland45 (discutercontributions)

Pour info, je viens de publier les 250 premiers articles dans l'espace projet (voir la page projet).

Pour info d'@Hyruspex, il y a 4 afro-américaines dans cette première série : Agnes D. Lattimer (6), Bettye Washington Greene (118), Cecile Hoover Edwards (159) et Donna P. Davis (236).

Pour la suite, je pense qu'il est souhaitable de poursuivre ls échanges sur la page projet.

Meilleurs voeux à toutes et à tous de satisfactions de contributions dans Wikipédia et de santé, d'amour et de partage dans la vraie vie. Cordialement.

Atchoum (discutercontributions)

Bonjour

J'ai une question et il me semble que vous êtes la personne la plus à même d'avoir la réponse.

Sur la page du projet, on peut lire : "En novembre 2022, Wikipédia en français compte 539 859 biographies d'hommes, contre 130 266 de femmes, soit seulement 19,415 %."

Je ne pensais pas que c'était aussi biaisé, mais est-ce que la même statistique par décennie ou année de naissance est disponible ?

Merci d'avance de votre réponse.

Roland45 (discutercontributions)

Bonjour @Atchoum,

Pour les stats de biais par année de naissance, il y a cet outil, mais il s'arrête en 2021. Cordialement.

Lupin~fr (discutercontributions)

@Roland45

L'une des atouts des sans pagEs est qu'elle ne limite pas WP à un outil technique mais prend en compte les biais qui y sont présents, dans la méthode (dépendance à des sources parfois biaisées, biais dans le choix des sources, etc.), je précise donc que ma réflexion part du constat que la technique ne peut pas apporter une réponse à tout.

Vous avez raison, je me suis d'ailleurs mal exprimé en parlant de stat', car le problème que je souhaitais soulever n'est pas de faire des stat' anonymes mais d'identifier des femmes vivantes aux États-unis comme afro-américaines, avec les risques que cela peut engendrer en terme de discriminations. Le fait que ces personnes vivent loin de France géographiquement me semble ne pas suffire car

  1. le français est lu et parlé dans des zones proches en Amérique (dans certaines régions des États-unis, au Canada, mais aussi aux Antilles) ;
  2. ces femmes voyagent, et le lectorat voyage aussi ;
  3. par Internet, on peut harceler sans bouger d'un pouce.

Il ne s'agit pas d'appeler à cesser d'identifier les personnes souffrant de discriminations, car sans les identifier, difficile de leur donner une meilleure visibilité. Je n'appelle pas non plus à nous soumettre à une loi qui ne s'applique pas stricto sensu à notre projet mais appelle à une réflexion éthique pour savoir si le sens et les raisons de cette loi (pour protéger les minorités) ne seraient pas dans l'intérêt de notre objectif.

Je suis conscient que cela peut sembler s'imposer un frein, ce n'est pas l'objectif et les personnes qui connaissent mon activité savent que ce n'est pas mon objectif. C'est la raison pour laquelle je ne me prononce pas contre mais appelle juste à une réflexion éthique ensemble pour ne pas foncer tête baissée dans une solution technique sans identifier les risques possibles.

Répondre à « Défi : 1000 nouvelles bios de femmes en 5 jours »