Wikipédia:AbuseFilter/Requêtes/2010/mai

Une page de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Éphémérides[modifier le code]

Demandé par — Rhadamante le 23 mars 2010 à 15:04 (CET)

Changement proposé : Comme déjà proposé sur irc, je propose la création d'un nouveau filtre, spécialement conçu pour les pages d'éphémérides (du 1er janvier eu 31 décembre, en passant par les années, 1986, etc..) particulièrement sujettes (un peu plus d'une dizaine par jour sur l'ensemble des pages) au vandalisme bête (= ajout de personnes largement hors critères). Si certaines dates semble plus sujettes à ce type de vandalisme (en substance, toutes les dates à partir de la fin des années 80, encore que, on peut en trouver sur des dates antérieures), je me dis qu'on pourrait assez facilement filtrer les modifications incluant:

  • dieu ("dieu vivant" ou ce genre de bêtises)
  • célèbre (possibilité de faux positifs sur celle là, mais très utilisé pour ce type de vandalismes)
  • futur
  • star
  • international
  • mondial
  • amour ("naissance de machine, mon amour éternel")
  • chéri(e)
  • bébé
  • élève
  • étudiant
  • playboy
  • sex-symbol

liste non exhaustive (je regarderai les différentes pages pour trouver plus d'exemples. Après je me demande s'il faudrait restreindre ce filtre aux seules sections "naissances" (cas le plus fréquent) ou si on le faisait pour toute la page (avec un risque plus élevé de faux positif).

Restreindre aux sections "naissances" me semble compliqué et inutile, on peut avoir ces vandalismes dans 1986#France par exemple.
Est-ce que tu penses que c'est utile de l'étendre aux pages comme 1er janvier en sport ? Moyg hop 23 mars 2010 à 15:18 (CET)
Non, ce genre de page est moins visible que les pages classiques, et donc moins sujette aux vandalismes. — Rhadamante 23 mars 2010 à 15:27 (CET)

Commentaires des éditeurs :

proposition de règle :
(article_prefixedtext rlike "(?:[123]\d|[1-9])(?(?<=\b1)er)\s(?:janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre)") & (lcase(added_lines) rlike "\b(?:dieu|d[eé]esse|c[éeè]l[éeè]bre|future?|stars?|mondiale?|amour(?:eux|euse)?|ch[ée]rie?|chiwie?|bébé|[ée]l[eè]ve|[eé]tudiante?|playboy|sexe?[- ]symbole?|super(?:be)?|g[ée]ni(?:e|ale?)|internationale?[ma[îi]tre(?:sse)?|grande?|pirat[eé]|hackeu?r|connue?|fameu(?:x|se)|(?:ré|re)?incarnation|disciple)\b") & !("autoconfirmed" in user_groups)
J'ai ajouté super/superbe et génial, mais c'est très loin d'être exhaustif... Faudra peut-être ajouter les lignes de la forme "\*\s*\[\[199\d\]\]" (les petits jeunes, qui ont de bonnes chances de pas être encore célèbres...), mais je ne sais pas encore si les regex dans AbuseFilter sont ou non multiline. Je tâche de me renseigner, peut-être que j'arriverai à trouver ça de moi-même avec un peu de chance ^^'
Alphos [me pourrir la vie] 23 mars 2010 à 15:24 (CET)
Bon, ben c'est vérifié et c'est pas du multiline... J'essaye de voir avec werdna si on peut le mettre en place d'une manière ou d'une autre Clin d'œil Alphos [me pourrir la vie] 23 mars 2010 à 15:33 (CET)
Par acquit de conscience, j'ai vérifié un truc qui ne fonctionnait à ma connaissance pas (option multiline pour un sous-masque), eh ben ça marche ^^
une règle sur les dates récentes serait donc added_lines rlike "(?m:^\*+\s* \[\[(?:199|200)\d(?:\|.*)?\]\])"
Autre possibilité : compter sur le fait que ces lignes sont en général ajoutées à la fin de la section "naissances", donc peu avant la section "décès". La regex deviendrait alors : new_wikitext rlike "\n\*+\s*\[\[(?:199|200)\d(?:\|.*)?\]\].{0,50}\n*==\s*Décès\s*==" & !(old_wikitext rlike rlike "\n\*+\s*\[\[(?:199|200)\d(?:\|.*)?\]\].{0,50}\n*==\s*Décès\s*==")... Je sais, c'est rusé Tire la langue Après, il faudra sans doute adapter la longueur du texte entre la date et la section décès... Alphos [me pourrir la vie] 23 mars 2010 à 16:02 (CET)
En y repensant, regex assez spécifique mais sans limite de longueur : \n\*+\s*\[\[(?:199|200)\d(?:\|.*)?\]\][^=]*\n*==\s*Décès\s*== Alphos [me pourrir la vie] 23 mars 2010 à 16:15 (CET)
Peut-être « formidable » et « magnifique » à ajouter. — Rhadamante 23 mars 2010 à 15:36 (CET)
je rajoute « grand(e) », « maitre », « pirate », « blogueur », « connu(e) », « fameux/se », « génie », « incarnation », « disciple » — Rhadamante 23 mars 2010 à 15:54 (CET)
Règle "cumulée" : (rule:="\n\*+\s*\[\[(?:199|200)\d(?:\|.*)?\]\][^=]*\b(?:dieu|d[eé]esse|c[éeè]l[éeè]bre|future?|star(?:lette)?s?|mondiale?|amour(?:eux|euse)?|ch[ée]rie?|chiwie?|bébé|[ée]l[eè]ve|[eé]tudiante?|playboy|sexe?[- ]symbole?|super(?:be)?|g[ée]ni(?:e|ale?)|internationale?[ma[îi]tre(?:sse)?|grande?|pirat[eé]|hackeu?r|connue?|fameu(?:x|se)|(?:ré|re)?incarnation|disciple|beau|belle|l[ea]\splus|pr[eé]sidente?|fan\s?club)\b[^=]*\n*==\s*Décès\s*==") & (article_prefixedtext rlike "(?:[123]\d|[1-9])(?(?<=\b1)er)\s(?:janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre)") & (new_wikitext rlike rule) & !(old_wikitext rlike rule)
Cette règle devrait aussi dégoter les ajouts à la ligne suivante, du genre
  • 1991 : Bidule (qui serait le nouveau mannequin à la mode ou un tennisman premier à l'ATP)
==>
  • 1991 :
    • Bidule (le même, qui est effectivement célèbre)
    • Machine, ma petite chérie

Je vais donner un avis terriblement naïf, mais cette expression rationnelle... elle va reconnaitre tous les ajouts (célèbre, mondial, international, disciple, président...), non ? — Arkanosis 23 mars 2010 à 18:49 (CET)

Terriiiiiiblement naïf. La règle fait correspondre à plusieurs critères
  • première condition : article_prefixedtext rlike "(?:[123]\d|[1-9])(?(?<=\b1)er)\s(?:janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre)" ==> seulement sur une éphéméride
  • deuxième condition :
    • dans la section précédant immédiatement le titre "Décès" (qui est en général la section "Naissances" ou la section "Naissances > XXème/XXIème siècle" si des sous-sections par siècle existent)
    • un texte comportant un de ces mots
    • après une date postérieure à 1989
  • troisième condition : et seulement si un tel texte n'était pas présent avant.
Je crois qu'on peut admettre que ce genre de situations sera assez rare dans le courant de l'année. Il sera possible de retoucher tout cela en 2011 pour inclure les dates postérieures à 1990 (donc à partir de 1991), etc voire de le faire pour les 18 dernières années au lieu des 20 dernières années. Ça évitera par exemple d'avoir des canulars à propos de maires de moins de 18 ans... Les termes choisis sont POV-pushesques, assez caractéristiques pour ne pas dire spécifiques du genre de vandalisme évoqué par Rhadamante, et on va de toutes façons le tester pendant quelques semaines avant de baliser. S'il y a un faux-positif, il sera toujours temps de corriger ce qui ne va pas...
Alphos [me pourrir la vie] 23 mars 2010 à 21:27 (CET)
Je tente de voir ce que ça donne sur quelques historiques d'éphéméride. Alphos [me pourrir la vie] 25 mars 2010 à 15:12 (CET)
Première correction : lcase.
Deuxième correction : pluriel pour beau/belle, ajout de bel.
Troisième correction : ajout des détections de naissances récentes sans wikilien sur le nom
Nouvelle règle :
(rule:="\n\*+\s*\[\[(?:199[4-9]|20\d{2})(?:\|.*)?\]\]([^=]*\b(?:dieu|d[eé]esse|c[éeè]l[éeè]bre|future?|star(?:lette)?s?|mondiale?|amour(?:eux|euse)?|ch[ée]rie?|chiwie?|bébé|[ée]l[eè]ve|[eé]tudiante?|playboy|sexe?[- ]symbole?|super(?:be)?|g[ée]ni(?:e|ale?)|internationale?[ma[îi]tre(?:sse)?|grande?|pirat[eé]|hackeu?r|connue?|fameu(?:x|se)|(?:ré|re)?incarnation|disciple|beaux?|bel(?:les?)?|jeunes?|l[ea]\splus|pr[eé]sidente?|fan\s?club)\b[^=]*\n*|[^=\[\]]+)==\s*décès\s*==") & (article_prefixedtext rlike "(?:[123]\d|[1-9])(?(?<=\b1)er)\s(?:janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre)") & (lcase(new_wikitext) rlike rule) & !(lcase(old_wikitext) rlike rule)
Testé sur les 1er et les 2 du mois, pas de faux positif. Je poursuis sur les jours suivants, mais je poste déjà ça...
Faudra changer 199[4-9] l'année prochaine par contre Tire la langue
Alphos [me pourrir la vie] 25 mars 2010 à 16:04 (CET)
Je sais pas s'il est aussi « urgent » que ça de modifier les paramètres de dates. Je ne pense pas que les ip deviennent subitement matures à 18 ans+1 jour, ou si le flot de célébrités de juste 18 est si important que ça... — Rhadamante 25 mars 2010 à 16:37 (CET)
J'ai ajouté une ancre ^ sur la date, pour que ça ne s'occupe que des pages et non des PdD, et ajouté une précision au jour du mois pour ne pas agir sur des pages comme 32 décembre
J'ai aussi ajouté les lignes (commençant par "*") dont le premier "mot" est une année non wikiliée, avec la même condition que précédemment sur la date, pour ce genre de choses :
(rule:="\n\*+\s*(\[\[)?(?:199[4-9]|20\d{2})(?:\|.*)?(?(1)\]\])([^=]*\b(?:dieu|d[eé]esse|c[éeè]l[éeè]bre|future?|star(?:lette)?s?|mondiale?|amour(?:eux|euse)?|ch[ée]rie?|chiwie?|bébé|[ée]l[eè]ve|[eé]tudiante?|playboy|sexe?[- ]symbole?|super(?:be)?|g[ée]ni(?:e|ale?)|internationale?[ma[îi]tre(?:sse)?|grande?|pirat[eé]|hackeu?r|connue?|fameu(?:x|se)|(?:ré|re)?incarnation|disciple|beaux?|bel(?:les?)?|jeunes?|l[ea]\splus|pr[eé]sidente?|fan\s?club)\b[^=]*\n*|[^=\[\]]+)==\s*décès\s*==") & (article_prefixedtext rlike "^(?:[12]\d|3[01]|[1-9])(?(?<=\b1)er)\s(?:janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre)") & (lcase(new_wikitext) rlike rule) & !(lcase(old_wikitext) rlike rule)
Ça ne devrait ajouter aucun faux positif, mais retirer plusieurs faux négatifs, autant en profiter.
Faux négatifs repérés :
  • la section a été remplacée intégralement, titre et contenu : [1] 11 février
  • pas vraiment un faux positif :la fille d'un chanteur mort, 3 avril.
  • idem [2] 11 juillet
  • pas vraiment non plus un FP, vu que le titre de la section "naissances" a été enlevé lors de l'édit (donc un vandalisme potentiel aussi) : [3] 7 novembre
J'ai testé sur toute l'année via l'interface de tests de l'extension, rien trouvé d'autre.
Alphos [me pourrir la vie] 25 mars 2010 à 18:56 (CET)
Bon bah c'est bien tout ça. Il faudra voir à la longue si on peut améliorer ça pour éliminer ce qui pourrait encore passer à travers las mailles, mais ça sera déjà un sacré progrès par rapport à la situation actuelle. — Rhadamante 26 mars 2010 à 16:59 (CET)
Il n'y a pour l'instant aucun faux-positif, ni aucun positif tout court. Il y a en revanche pas mal de faux-négatifs, à cause des petits malins qui mettent ça dans la section "événements". Ces sections peuvent contenir de plus des événements du XXIe siècle, il faut donc altérer un peu la règle, qui devient alors :
(rule:="\n\*+\s*(\[\[)?(?:199[4-9]|20\d{2})(?:\|.*)?(?(1)\]\])(?:([^=]*\b(?:dieu|d[eé]esse|c[éeè]l[éeè]bre|future?|star(?:lette)?s?|mondi(?:al(?:es?)?|aux)|amour(?:eux|euse)?|ch[ée]rie?|chiwie?|bébé|[ée]l[eè]ve|[eé]tudiante?|lyc[éé]n(?:ne)?s?|playboy|sexe?[- ]?symbole?|super(?:be)?s?|g[ée]ni(?:es?|al(?:es?)?|aux)|internation(?:al(?:es?)?|aux)|ma[îi]tre(?:sse)?|grande?|pirat[eé]|hackeu?rs?|connue?s?|fameu(?:x|ses?)|(?:ré|re)?incarnations?|disciples?|beaux?|bel(?:les?)?|jeunes?|l[ea]\splus|pr[eé]sidente?|fan\s?club)\b[^=]*\n*|[^=\[\]]+)==\s*décès\s*==|(?:\s*:)?\s*naissance\sd[e'][^=\[\]]+(?:===\s*\{\{xxie siècle\}\}\s*===[^=]*)?==\s*naissances\s*==)") & (article_prefixedtext rlike "^(?:[12]\d|3[01]|[1-9])(?(?<=\b1)er)\s(?:janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre)") & (lcase(new_wikitext) rlike rule) & !(lcase(old_wikitext) rlike rule)
Même recherche mais :
  • soit juste avant la section "décès" (déjà le cas avant)
  • soit juste avant la section "naissances" (donc dans la section "événements"), ou juste avant la sous-section "{{xxie siècle}}" qui est juste avant la section "naissances" (donc dans la sous-section {{xxe siècle}} de la section "événements"), commençant par "naissance de/d'".
Je propose de tester cet ajout dans une semaine, histoire de voir s'il y a une différence dans les faux-positifs avec la règle telle qu'elle est actuellement.
Alphos [me pourrir la vie] 27 mars 2010 à 14:43 (CET)
Sans doute à ajouter roi/reine empereur/impératrice et tout ce qui pourrait aller avec... — Rhadamante 27 mars 2010 à 23:14 (CET)
Même règle, mais regex classée par ordre alphabétique, et avec roi/reine/empereur/impératrice, plus "un des plus / une des plus" :
(rule:="\n\*+\s*(\[\[)?(?:199[4-9]|20\d{2})(?:\|.*)?(?(1)\]\])(?:([^=]*\b(?:amour(?:eux|euse)?|beaux?|bébé|bel(?:les?)?|c[éeè]l[éeè]bre|ch[ée]rie?|chiwie?|connue?s?|dieu|d[eé]esse|disciples?|[ée]l[eè]ves?|empe?reur|[eé]tudiante?|fameu(?:x|ses?)|fan\s?club|future?|g[ée]ni(?:es?|al(?:es?)?|aux)|grande?|hackeu?rs?|imp[ée]ratrice|(?:ré|re)?incarnations?|internation(?:al(?:es?)?|aux)|jeunes?|l[ea]\splus|lyc[éé]n(?:ne)?s?|ma[îi]tre(?:sse)?|mondi(?:al(?:es?)?|aux)|pirat[eé]|playboys?|pr[eé]sidente?|rois?|reines?|sexe?[- ]?symbole?s?|star(?:lette)?s?|super(?:be)?s?|une?\sdes\splus)\b[^=]*\n*|[^=\[\]]+)==\s*décès\s*==|(?:\s*:)?\s*naissance\sd[e'][^=\[\]]+(?:===\s*\{\{xxie siècle\}\}\s*===[^=]*)?==\s*naissances\s*==)") & (article_prefixedtext rlike "^(?:[12]\d|3[01]|[1-9])(?(?<=\b1)er)\s(?:janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre)") & (lcase(new_wikitext) rlike rule) & !(lcase(old_wikitext) rlike rule)
On devrait s'y retrouver un peu plus facilement comme ça...
Alphos [me pourrir la vie] 28 mars 2010 à 22:34 (CEST)
Où en est on ? Clin d'œil Micthev (discutercontrib') 31 mars 2010 à 21:38 (CEST)
« Je propose de tester cet ajout dans une semaine, histoire de voir s'il y a une différence dans les faux-positifs avec la règle telle qu'elle est actuellement. Alphos [me pourrir la vie] 27 mars 2010 à 14:43 (CET) ». Ça répond à ta question, Micthev ? Alphos [me pourrir la vie] 31 mars 2010 à 22:08 (CEST)
Oui ! lu trop vite ! dans une semaine — "dans" était passé à la trappe ! C'est pour ça que je ne comprenait pas Émoticône Gêne !+ Micthev (discutercontrib') 31 mars 2010 à 22:14 (CEST)

Une idée pourquoi ça n'est pas repéré ? — Rhadamante 8 mai 2010 à 03:49 (CEST)

On a fait "partir" les détections à partir de 1994. À voir avec les autres si on peut/doit étendre la période, sachant qu'il y a très peu de faux-positifs pour le moment, si tant est qu'il y en a. Alphos [me pourrir la vie] 8 mai 2010 à 13:20 (CEST)

Jim Clark 2010-05-03 08:24[modifier le code]

Demandé par .:DS (shhht...):. le 3 mai 2010 à 10:36 (CEST)

Changement proposé : Je ne sais pas si AbuseFilter est fait pour (ou si c'est dans l' 'esprit' de son utilisation), mais un vandale modifie l'article Jim Clark pour proclamer son amour pour le pilote, et ce régulièrement depuis 2006 (l'historique est édifiant). Son IP est dynamique, et la seule solution trouvée est de protéger l'article en écriture pendant de longues périodes, ce qui n'est pas glop. Donc, est il possible de créer un filtre spécial pour cet article réagissant au texte « plus grand pilote »? .:DS (shhht...):. 3 mai 2010 à 10:36 (CEST)


Commentaires des éditeurs :

Le Filtre n°29 (qui actuellement n'effectue qu'un balisage) est prévu à cet effet.

Je le modifie pour le vandalisme que tu mentionnes.

Si on veut faire plus qu'un balisage (interdire la modification par exemple), il faudra en discuter plus longuement (je suis assez tiède sur ce sujet). — Arkanosis 3 mai 2010 à 11:01 (CEST)

Interdire la modification ne me semble pas un problème si ça évite la semi-protection. Par contre il risque de trouver rapidement un moyen de contourner le filtre. En tout cas, je pense que c'est à tester et AbuseFilter peut être une alternative intéressante aux (semi) protections (je vois souvent des cas limite sur WP:DPP et où un filtre embêterait moins de monde). Moyg hop 3 mai 2010 à 12:18 (CEST)
J'ai ouvert une section sur le BA pour parler d'AbuseFilter à la place des protections. Moyg hop 3 mai 2010 à 13:55 (CEST)