Aller au contenu

Sujet sur Discussion utilisateur:Lofhi/Structured Discussions Archive 1

WikiConvention: Listes des articles les plus consultés en 2018 et avant

24
J. N. Squire (discutercontributions)

Bonjour :)

J'ai proposé une intervention pour la WikiConvention francophone à Bruxelles de septembre 2019, basée sur des Top 50 annuels des articles les plus vus sur la Wikipédia en français (pour avoir une perspective). Je me souviens que tu avais lancé un script pour continuer de sortir des listes de pages les plus consultées pour 2017 et avant, mais impossible de mettre la main dessus pour poursuivre l'élaboration des Top 50.

Saurais-tu où en est ce projet exactement ? Cela fait longtemps que je n'ai pas lu de nouvelles sur le sujet. ^^;

Lofhi (discutercontributions)

Salut ! Oulah, tant de pression. Je l'ai sous la main, mais il faudrait que je le refasse et que je vérifie définitivement que les résultats soient cohérents avec un site comme stats.wikimedia.org. Pour information, les données viennent d'ici. Je suis assez occupé et je n'ai pas envie de faire nawak, puis ça serait me mettrait mal que ton intervention se base sur des bêtises. Pour juin, c'est bon ? Par année ça suffit ?

Lofhi (discutercontributions)

Je mets de côté une page qui me servira.

J. N. Squire (discutercontributions)

Désolé pour la pression, je pensais qu'il suffisait de lancer un script. ^^;

Oui oui, c'est OK pour juin et par année. :)

J. N. Squire (discutercontributions)

Bonjour :)

On est en juillet et je suis en plein préparatifs pour Wikimania* et la WikiConvention, et donc je me demandais s'il y avait eu des avancées pour 2017, voire avant si tu as pu ?

*Sur un sujet complètement différent, mais je prioriserai mes préparatifs d'intervention en fonction de ta réponse.

Lofhi (discutercontributions)

Salut, le script devrait être bon, mais je n'ai pas compris si tu voulais générer les rapports toi-même. Aussi, avec la méthode adoptée, je ne pourrais pas remonter avant 2012, car il n'y a pas des jeux de données pour ces années sous le format que je souhaite.

J. N. Squire (discutercontributions)

En fait, je comptais faire comme 2018 : tu t'occupes du Top pour les pages, tandis que je m'occupe d'en extraire les articles pour faire un Top 50 sans faux-positifs (et où je demanderai des avis extérieurs à l'occasion).

N'y a-t-il pas de jeux de données pour avant 2012 ? Cela nécessiterait-il de développer un tout autre script ?

Lofhi (discutercontributions)

Alors, tout est possible, mais je ne souhaite pas me porter responsable des données que tu vas présenter à ta convention, c'est une question de respect : suffit que je foire un truc...

Il a déjà été demandé d'avoir les données sous le même format jusqu'en 2008 (voir T188041), mais cela traîne un peu. Il y a quelqu'un qui a généré les archives, mais cela ne vient pas de la fondation. Je te laisse choisir si tu veux les utiliser. Sinon, oui, il existe des données pour les années précédentes, mais pas sous le même format (par jour, ce qui est chiant).

Cela ne me dérange pas de générer les rapports, mais je dois télécharger les archives, cela devrait me prendre quelques heures une fois commencé.

J. N. Squire (discutercontributions)

Ok, limitons nous aux données à partir de 2012 pour l'instant. Et ne te mets pas trop la pression : la Wikiconvention francophone est un évènement plutôt réduit. Personnellement, je stresse davantage pour sa proposition de session pour Wikimania pour août prochain. ^^;

Lofhi (discutercontributions)

J'ai commencé à télécharger les archives (c'est lourd) et je commencerai à générer les rapports demain.

Lofhi (discutercontributions)

C'est un peu lent, mais le téléchargement des dernières archives sautent. Je ne sais pas si c'est ma connexion qui est instable, ou les serveurs qui ne suivent pas.

Lofhi (discutercontributions)

Et quand des archives ne sont pas compressées, c'est assez long de recommencer...

Lofhi (discutercontributions)
Lofhi (discutercontributions)

Pour savoir si cela colle, j'ai 802 460 439 lectures confondues pour le premier mois de 2016. Cela colle à peu près avec les données de ce site, à quelques millions près (824 914 139). C'est sûrement expliqué parce que je ne prends pas en compte les lectures avec Wikipedia Zero... et d'autres raisons.

Pour Wikipédia:Accueil principal sur leur site, on a 7 954 211 lectures sur la version ordinateur alors que dans l'archive, la ligne est la suivante : fr.z Wikipédia:Accueil_principal 8631683... Donc, tu devrais retenir que les données vont dans le même sens, mais visiblement les méthodes de calcul sont différentes (sans que je ne comprenne aujourd'hui la raison).

Lofhi (discutercontributions)

Utilisateur:Lofhi/Les 1000 pages les plus vues de 2015 : il y a un problème avec l'archive du mois de janvier de 2015. Tu peux voir que cela donne des trucs assez bizarres. Je ne sais pas ce que représente « -field-empty- » par exemple et aucune documentation ne parle de la spécificité de l'archive. De même, l'encodage utilisé est différent des autres. Je pense que je vais essayer avec l'autre archive moins compressée (qui pèse 5 Go...). Je peux aussi ignorer le mois de janvier, si tu en as vraiment besoin.

J. N. Squire (discutercontributions)

Prends ton temps avec 2015. Avoir 2017 et 2016 permettra déjà de faire apparaître quelques éléments intéressants.

Lofhi (discutercontributions)

J'ai demandé à générer une nouvelle fois l'archive sur Phabricator, on verra bien.

Lofhi (discutercontributions)

Utilisateur:Lofhi/Les 1000 pages les plus vues de 2014 : cela commence à devenir bizarre. On tombe sur des archives qui n'étaient pas générées directement par la fondation. « From 2007 to May 2015: derived from Domas ». Je regarderai manuellement plus en profondeur.

J. N. Squire (discutercontributions)

OK. De mon côté, j'ai commencé un brouillon pour 2017. J'ai peu de possibilités pour y travailler dessus sereinement pour l'instant, mais c'est déjà un bon début.

Lofhi (discutercontributions)

J'ai reçu une réponse : ils n'ont plus données pour les archives problématiques et elles ne pourront pas être générées à nouveau. Ils pourront seulement modifier le codage des caractères en UTF8 (voir T227955).

Ce message a été caché par Lofhi (historique)
Ce message a été caché par Lofhi (historique)
Ce message a été caché par Lofhi (historique)
Ce message a été caché par Lofhi (historique)
Répondre à « WikiConvention: Listes des articles les plus consultés en 2018 et avant »