Discussion Wikipédia:AutoWikiBrowser/Typos/Archives 2012

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.

Lien bleu puis rouge ??[modifier le code]

Salut,

Je voudrais insérer cette page dans la PU de mon bot sur Wikiversité. Pourquoi, lorsque je copie et que je colle le lien bleu (en précisant donc que la source est WP, puisque c'est indiqué dans le titre de l'article) il apparaît en rouge sur wikiversité ? Pour info, mon bot est VKHbot et je suis VKH. --90.24.175.215 (d) 22 avril 2012 à 10:19 (CEST)

La page v:Wikiversité:AutoWikiBrowser/Typos n'est pas encore reconnue par AWB (il faudra attendre la prochaine version).
Toutefois il doit être possible d'importer un fichier .xml avec ces règles orthographiques, je vais étudier ceci aujourd’hui. JackPotte ($) 22 avril 2012 à 11:12 (CEST)

ok cool merci. --90.24.175.215 (d) 22 avril 2012 à 12:57 (CEST)

Décheterrie => Déchèterie[modifier le code]

Bonjour, de nombreuses pages concernant les communes françaises ont le mot déchèterie mal orthographiée : La version officielle est déchèterie, mais on trouve souvent déchetterie. Un bot pourrait il arranger ça ? Merci d'avance, Jéjé64 (d) 25 mai 2012 à 08:26 (CEST)

Je m'en occupe, sachant que déchetterie et déchèterie sont acceptés, mais pas décheterrie et déchèterrie. JackPotte ($) 13 juillet 2012 à 20:58 (CEST)

Cette structure n'est pas reconnu comme une unité par les règles--kirikou (d) 12 juillet 2012 à 14:27 (CEST)

Le modèle {{Unité}} uniformise déjà cela. JackPotte ($) 13 juillet 2012 à 20:57 (CEST)

balise </br>[modifier le code]

Elle est à remplacer par <br /> ?--kirikou (d) 12 juillet 2012 à 14:28 (CEST)

Normalement oui puisqu'il ne s'agit en aucun cas d'une balise fermante. JackPotte ($) 13 juillet 2012 à 20:56 (CEST)

Règles Unité métre avec ou sans exposant[modifier le code]

Bonjour,

J'essaye d'utiliser les expressions rationnelles d'AWB aussi dans WPCleaner en plus de celles déjà présentes dans WP:FAUTE. Les langages de programmation étant différents (C# pour AWB, Java pour WPCleaner), les expressions régulières sont un peu différentes, surtout pour les expressions complexes. Je convertis donc toutes celles que je peux pour pouvoir les utiliser, et filtre celles qui me semblent trop complexes à convertir.

Je rencontre un problème sur l'article Vélodrome de Londres : en appliquant les règles AWB, WPCleaner propose de remplacer « (5000m²) » par « ({{unité|5000|m}}²) », au lieu de « ({{unité|5000|m|2}}) ». Je peux me tromper, mais j'ai l'impression que c'est parce que la règle « Unité mètre + exposant » ne gère pas les exposants sous la forme « ² ». Quelqu'un pourrait confirmer et éventuellement corriger la règle ?

Merci --NicoV (d) 12 septembre 2012 à 22:25 (CEST)

Cela vient bien de ça. Pour corriger, il suffit d'ajouter ² et ³ aux intervalles « [2-9] » des deux règles « Unité mètre + exposant ». En effet, les matches sur les {{exp}} et <sup> encadrants sont optionnels, probablement pour matcher « 42m2 ». En Java il y a peut-être besoin d'échapper ces caractères. Ce qui donne donc [2-9²³] ou [2-9\uC2B2\uC2B3]. od†n ↗blah 13 septembre 2012 à 07:24 (CEST)
Merci pour la réponse. Pas de soucis avec ²³ pour moi, mais à mon avis il faut faire des règles dédiées pour chacun de ces 2 cas, car la valeur correspondant au [2-9] est réutilisée dans le replace ($8 et $9). --NicoV (d) 13 septembre 2012 à 12:08 (CEST)
Ahhh oui en effet, j'avais oublié ça. Il va falloir ajouter des règles dédiées pour « ² → 2 » et pour « ³ → 3 ». En revanche il y a peut-être possibilité de combiner les deux règles « Unité mètre + exposant » actuelles ? Ça permettrait au final d'avoir un total de 3 règles au lieu de 6. od†n ↗blah 13 septembre 2012 à 12:22 (CEST)
J'ai ajouté les règles pour ² et ³, mais je ne sais pas trop comment les combiner pour n'avoir que 3 règles au lieu de 6… --NicoV (d) 14 septembre 2012 à 11:14 (CEST)
J'ai essayé, et je n'ai pas pu, à cause d'un truc tout con : besoin d'expressions spécifiques pour remplacer la virgule par un point… od†n ↗blah 14 septembre 2012 à 12:55 (CEST)

Règle ISBN[modifier le code]

Bonjour,

Toujours dans mes tests pour utiliser cette liste de typos dans WPCleaner. Ca marche dans presque tous les cas, mais j'ai un souci avec la 3e règle ISBN:

<Typo word="ISBN" find="([^}]+)\}\}(?:,|;|\.| )? *(?:et|o[uù]|corr?ig[eéèêë]|puis|/|\\|;|,|\+)? *\{\{ISBN" replace="$1" />

Si je la comprends bien, cette regexp trouve tous les textes qui :

  • commencent par des caractères différents de } (([^}]+), cette chaîne est mémorisée dans $1)
  • suivis de }} (\}\})
  • suivis éventuellement par un caractère parmi « ,;.  » ((?:,|;|\.| )?)
  • suivis éventuellement par des caractères espace ( *)
  • suivis éventuellement par et, ou, … ((?:et|o[uù]|corr?ig[eéèêë]|puis|/|\\|;|,|\+)?)
  • suivis éventuellement par des caractères espace ( *)
  • et se terminant par {{ISBN (\{\{ISBN)

Le problème, c'est que par exemple cette expression matche avec Cette loi …, Paris (1991), 306 {{p.}} {{ISBN (un texte sur plusieurs lignes) dans Cinétique chimique et propose de le remplacer par Cette loi …, Paris (1991), 306 {{p. (suppression de }} {{ISBN à la fin).

Est-ce que j’ai mal compris cette expression régulière, ou est-elle incorrecte ? --NicoV (d) 14 septembre 2012 à 20:19 (CEST)

Le rôle de cette regex semble être de remplacer {{ISBN|1}}…{{ISBN|2}} par {{ISBN|1|2}}
Je peux te proposer ceci :
{{\s*[Ii](?:SBN|sbn)\s*\|\s*(.+?)\s*(?:(\|)\s*(.+?)\s*)?}} *[,;.]? *(?:et|o[uù]|corr?ig[eéèêë]|puis|/|\\|;|,|\+)? *{{\s*[Ii](?:SBN|sbn)\s*\|\s*(.+?)\s*(?:(\|)\s*(.+?)\s*)?}}
    → {{ISBN|$1$2$3|$4$5$6}}
Ça fonctionne avec les cas de figure classiques, mais ce code peut sûrement être amélioré.
od†n ↗blah 15 septembre 2012 à 07:21 (CEST)
Ok, la regexp actuelle semble donc beaucoup trop large pour remplir son rôle. Ok pour essayer la nouvelle version de la regexp.
J'ai par contre une question sur les constructions du type \s*. Dans les regexp au format WPCleaner, j'essaye au maximum d'éviter cette construction et j'utilise plutôt \s*+ : la différence est que la quantification devient possessive au lieu de simplement gloutonne (cf. Wikipédia:Liste_de_fautes_d'orthographe_courantes#Explications_détaillées) et donc beaucoup plus rapide. Est-ce que ça marcherait aussi avec les regexp AWB ? --NicoV (d) 15 septembre 2012 à 11:20 (CEST)
Apparemment .NET ne supporte pas cette construction (source, chercher Possessive Quantifiers). Pour travailler sur les regexes et optimiser celles-ci, je ne peux que te conseiller le très puissant RegexBuddy ; il dispose d'un mode "debug", qui permet de connaître le nombre d'opérations effectuées par le moteur de regex. od†n ↗blah 15 septembre 2012 à 12:31 (CEST)
Sauf erreur de ma part, \s* ne pose pas de problème de performances, car le glouton ne peut rien manger d'autres que des espaces (et linebreaks etc.), donc le moteur n'a pas besoin de backtracker une fois qu'il rencontre un autre caractère, donc juste après. C'est avec des choses comme .* qu'on se retrouve avec des backtracks énormes. Et pire encore avec .*?, contrairement à ce qu'on pourrait penser intuitivement. Dans le code que j'ai mis au dessus, le problème pourrait peut-être se situer au niveau des .+?, qu'il faudrait rendre plus spécifiques avec par exemple [^|}] ou [\d -]. od†n ↗blah 15 septembre 2012 à 17:34 (CEST)
Tout seul le \s* ne doit pas être trop gênant, mais par contre des choses comme *[,;.]? * le sont probablement plus dans le cas de nombreux espaces consécutifs, car ça peut donner de nombreaux backtracks inutiles. --NicoV (d) 22 septembre 2012 à 10:29 (CEST)

Réouvrir - rouvrir[modifier le code]

Bonjour, on me signale que « réouvrir » existe. Si personne n'apporte la preuve que ce verbe n'existe pas, il faudrait supprimer la correction. Merci Leag ⠇⠑⠁⠛ 10 octobre 2012 à 08:31 (CEST)

Effectivement, ça existe… — Ltrl G📞, le 10 octobre 2012 à 09:18 (CEST)
✔️ J'ai retiré la ligne. JackPotte ($) 10 octobre 2012 à 22:42 (CEST)
Impec merci Leag ⠇⠑⠁⠛ 11 octobre 2012 à 08:52 (CEST)

status en statut[modifier le code]

Bonjour, je viens d'ajouter une règle pour le mot « scène », merci de vérifier que la Typo proposée est appropriée.

Pas de problème pour la typo. Leag ⠇⠑⠁⠛ 18 octobre 2012 à 16:43 (CEST)
Merci Émoticône sourire pour ta vérification Leag, vénérable Rhinolaineux.--Philippe.petrinko (d) 18 octobre 2012 à 23:11 (CEST)
Pas de chihi entre nous Émoticône Leag ⠇⠑⠁⠛ 19 octobre 2012 à 08:46 (CEST)

En lisant un peu plus bas dans la liste des S, je constate que la Typo actuelle transforme « status » en « statut », sans tenir compte de l'éventuel pluriel initial.

Par exemple, « divers status » (pluriel) devient « divers statut », ce qui induit une faute en nombre. Difficile de prévoir tous les mots précédant le mot « status » qui vont indiquer le nombre précis, à part les articles, et quelques autres mots.

Comment les experts d'AWB traitent-ils habituellement la chose? --Philippe.petrinko (d) 18 octobre 2012 à 15:31 (CEST)

Ils ajoutent un -s à la main. Mais nous pourrions aussi modifier la règle pour tenir compte du mot précédant "status". JackPotte ($) 19 octobre 2012 à 21:04 (CEST)

Aout (encore)[modifier le code]

Je reviens dessus car visiblement « aout » est encore corrigé en « août ».

Je ne suis pas un spécialiste et ne vois pas de laquelle de ces lignes ça peut venir ni ce qu'il faut changer pour que le circonflexe ne soit ni ajouté ni retiré...

  • <Typo word="août" find="\b(\d{1,2}) +Ao([uû])t\b" replace="$1 ao$2t" />
  • <Typo word="août" find="([a-z,;:] |['’]) ?(\[*)Ao([uû])t\b" replace="$1$2ao$3t" />
  • <Typo word="août" find="\b[Aa]o[uû].? +([0-9]{4}|\[\[[0-9]{4}\]\])\b" replace="août $1" />

Wanderer999 ° me parler ° 4 novembre 2012 à 22:09 (CET)

✔️ JackPotte ($) 4 novembre 2012 à 22:59 (CET)
Hum y'avait plus de changements que je ne le pensais... Merci ! Wanderer999 ° me parler ° 5 novembre 2012 à 00:54 (CET)

Bonjour !

Nemoi m'a fait remarquer que l'ajout du modèle:ISBN, du fait qu'il ajoute des parenthèses, pose un petit problème typographique : avant correction par AWB il y a souvent dans les articles une virgule (ou un point) avant la mention ISBN, et le fait que le modèle ajoute des parenthèses créée donc une faute, en laissant la virgule...

Je ne sais pas si je suis clair dans mon explication, voici donc un avant / après (voir sections « Sources ») qui sera plus parlant...

Est-il « techniquement » possible de corriger AWB pour qu'il supprime virgule (ou point) juste avant l'emploi du modèle:ISBN ? Ou est-ce que j'en demande trop ? Émoticône

Wanderer999 ° me parler ° 7 novembre 2012 à 20:02 (CET)

✔️ Effectivement cette modification datait 2009, époque où le site ne gérait pas ce mot clé. Et je n'ai pas vu de consensus clair depuis pour remplacer ISBN 2-930338-37-7 par {{ISBN|2-930338-37-7}}. JackPotte ($) 7 novembre 2012 à 23:16 (CET)

Points de suspension[modifier le code]

Je trouve régulièrement des points de suspension précédés d'une virgule ou d'un espace (ce qui est fautif, exemple), est-il possible d'ajouter un truc pour qu'AWB le détecte ? Wanderer999 ° me parler ° 12 novembre 2012 à 01:24 (CET)

D'accord pour corriger etc..., mais même si tes propos me semblent justes, je n'en vois pas d'attestations dans notre article Points de suspension. JackPotte ($) 14 novembre 2012 à 00:58 (CET)
Wikipédia n'est pas une source, c'est bien connu Émoticône C'est quand même évoqué et .
Une recherche Gogole démontre rapidement que c'est une règle typographique basique...
J'ai la flemme de retrouver les liens vers des sites « institutionnels », je vais me coucher ! Émoticône sourire Wanderer999 ° me parler ° 14 novembre 2012 à 01:19 (CET)
Idem, je ne comprends pas pourquoi dans Chant lyrique l'AWB Regex Tester remplace bien les etc., mais pas cette page avec le même regex... JackPotte ($) 14 novembre 2012 à 01:33 (CET)