Utilisateur:Pmartin/Wikiwix

Une page de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
WiKiwix   Wikipediaondvd   Cache



Ajouter une nouvelle remarque


Quelques retours sur le moteur de recherche[modifier | modifier le code]

Bonjour,

Si je comprends bien d'après le bistro d'aujourd'hui, vous êtes à l'origine du moteur de recherche dont l'on parle aujourd'hui dans le bistro. Mes excuses pour mon message sec de ce matin, c'était une mauvaise journée, heureusement terminée ! Je pense que pour l'instant, le moteur n'est pas assez mûr pour être inclus avec les autres dans Special:Search, mais il est très prometteur. J'ai quelques suggestions ci-dessous, et quelques idées en l'air (je ne suis pas programmateur, juste grand utilisateur !). Désolé si je dis des évidences !

  • Un moteur de recherche pour Commons a récemment été créé et a rencontré un franc succès : Mayflower. En explorant ses fonctions, et surtout sa page de présentation et de discussion, vous aurez un aperçu des requêtes d'utilisateurs et donc de fonctions possibles. Tout n'y est pas lié aux images.
  • Utiliser un dump signifie être en retard : or, de nombreux utilisateurs s'étonnent déjà que le moteur de recherche ne trouve pas les articles créés quelques jours auparavant. Une solution serait d'utiliser le toolserver, où la base de données est recopiée en direct ou presque. En attendant, un petit avertissement précisant la date à laquelle le dump a été fait serait pas mal.
J'ai choisi d'utiliser le dump xml comme solution d'urgence pour pouvoir sortir très rapidement une version qui tourne. Utiliser un système de mise à jour régulière est prévu, on hésite encore sur le moyen technique. Le canal irc qui répertorie en live est assez attrayant, ça permettrait d'avoir un moteur constamment à jour des toutes dernières modifs.
  • Pouvoir utiliser l'URL pour faire une recherche serait pratique, du genre http://www.wikipediasearch.net/?lang=fr&q=ma_recherche, notamment pour pouvoir lier l'outil depuis Wikipédia. Passer des paramètres dans l'URL serait chouette aussi (voir Mayflower qui fait ça très bien, je trouve).
http://www.wikipediasearch.net/?lang=fr&action=ma%20requete :)
  • Une question bête : le logo et le nom de Wikipédia sont des marques déposées, je ne sais pas s'ils peuvent être utilisés comme ça, mais comme vous travaillez pour le projet WP1.0 vous connaissez sans doute.
Pascal a signé un contrat d'utilisation de la marque en échange d'une commission sur la vente des cd.
  • Comme proposé sur le bistro, séparer la langue de l'interface de la langue de la Wikipédia recherchée serait un plus. Des traductions en différentes langues sont assez faciles grâce à la communauté Wikimedia (exemple).
Pas bien difficile en effet, par contre ça oblige l'utilisateur à choisir la langue de l'interface et la langue du corpus. J'ai l'impression que ça n'est pas très pratique.
  • Concernant la pertinence des résultats :
    • La requête prend-elle en compte les accents ? "Rémi" devrait retourner les mêmes résultats que "Remi", comme beaucoup de monde n'a pas les accents sur le clavier (ou les oublie sur les majuscules). Une autre possibilité serait de laisser l'utilisateur choisir si les accents sont pris en compte ou non.
Les lettres accentuées sont toutes désaccentuées. Y compris les accents exotiques d'europe de l'est.
    • La prise en compte du pluriel me semblerait une grosse amélioration : que "sous-marins" retourne la même chose que "sous-marin" (ou au moins l'article Sous-marin, qui n'obtient que 59% si on recherche "sous-marins"). Le fait que les titres d'articles sont au singulier n'est pas forcément connu du lecteur moyen.
La toute première version du moteur faisait le retrait du pluriel. Ca a été supprimé pour justement ne pas réduire la signification de la requète, un mot et son pluriel pouvant ne pas avoir exactement le même sens. Le vocabulaire thématique permet entre autre de faire le lien entre un mot et son pluriel pendant la recherche.
    • Les pourcentages sont très bien, j'ai un peu suivi la discussion sur le nombre de points. Mais quand je cherche "sous-marin", je trouve 4 résultats à 100%... est-ce normal ?
J'ai changé l'affichage, les scores ne sont plus affichés. Le pourcentage correspond au score divisé par 2, avec un plafond à 100%. Ce n'est qu'une question d'esthétique à discuter :)
    • Les redirections peuvent sans doute être utilisés. Par exemple, reefer redirige vers Navire frigorifique : quand je cherche "reefer", les résultats pourraient donc afficher "Navire frigorifique" en premier, en précisant éventuellement que c'est à cause de la redirection.
Oui c'est à creuser, pour l'instant les pages de redirection ne sont (théoriquement) pas indexées.
    • Peut-être que les noms d'images et de modèles ne devraient pas être pris en compte dans les recherches, car ils n'ont pas toujours de rapport avec le sujet de l'article ; détecter la plupart de ces liens ne devrait pas être trop difficile.
Ils ne sont eux non plus (théoriquement) pas indexés par le moteur de recherche.
  • A propos d'éventuelles options avancées que je trouverais intéressantes :
    • Comme avec Mayflower, proposer des catégories associées à la recherche. Mayflower propose aussi d'inclure ou d'exclure certaines catégories dans la recherche, une option extrêmement utile pour les Wikipédiens actifs.
    • Les liens portail en bas de page pourraient être utilisés pour afficher le "domaine" de l'article de façon simple (ce que les catégories ne permettent pas toujours). Entre 2/3 et 3/4 des articles possèdent un bandeau, certains en possèdent 2 ou 3, rarement plus. Comme le résumé affiché ne permet pas toujours de savoir de quoi l'article parle, afficher son "domaine" permet déjà de savoir où aller. Après, on peut même envisager une recherche par domaine... ou réutiliser les icônes de ces bandeaux pour un affichage différent !
    • Pour les Wikipédiens actifs, d'autres options sont intéressantes : afficher la taille de l'article (et limiter la recherche à une fourchette de taille), la date de dernière modification (idem), montrer des liens directs vers la page de discussion, l'historique, les pages liées, etc. (tout ceci serait désactivé par défaut, pour garder une apparence sobre).

OK, je rêve un peu, mais il y a peut-être des choses utiles là-dedans :-) Merci de ce travail en tout cas. Cordialement, le Korrigan bla 20 mars 2007 à 22:25 (CET)

Bonjour Korrigan, merci pour toutes ces suggestions. Je me suis permis de répondre aux questions dans ton texte :) Mononoke Hime 20 mars 2007 à 23:37 (CET)


Quelques réponses sur le retours sur le moteur de recherche[modifier | modifier le code]

Oui tout à fait nous sommes à l'origine du moteur de recherche posté le 20 Mars sur le Bistro.

Concernant toutes les fonctionnalités à ajouter , elles arriveront dans un deuxième temps. En effet il me semble important de régler les problèmes de mises à jours dans un premier temps. Comme te la signaler Mononoke Hime nous explorons plusieurs pistes afin de résoudre très rapidement ce souci. D'après ce que j'ai pu m'entretenir avec lui cet inconvénient devrait être résolu début de semaine prochaine.
Concernant le logo de wikipedia, je suis en contact régulièrement avec la fondation afin d'éviter le moindre problème, donc de ce point de vue là tout est ok. Mais ne va pas croire que cela nous donne certains passe droit , puisque seul l'approbation de la communauté compte.
Concernant le manque de maturité du moteur, en fait elle est toute relative, en effet compte tenu de notre réactivité et de vos attentes nous allons très vite trouver un concensus.

Cordialement Martin Pascal

De Wikipédia à tous les projets francophones de Wikimedia.[modifier | modifier le code]

Dans le cadre de vos réflexions sur l'évolution de Wikipediasearch.net, je souhaite vous proposer de d’étendre ce dispositif à tous les projets francophones de Wikimédia, afin d’avoir un outil permettant de récapituler l’information éparpillée entre les différents sites correspondants.

Par exemple, imaginez que vous faites une étude sur Victor Hugo. Avec un moteur balayant les divers projets de Wikimédia, vous auriez en une seule recherche pour cet auteur :

  • sa biographie dans Wikipédia, et les articles afférents,
  • ses citations dans Wikiquote,
  • ses œuvres sur Wikisource,
  • les mots en rapport dans le Wiktionnaire (Hugolien !),
  • les documents multimédias correspondants de Wikimedia Commons,
  • les évènements culturels sur Wikinews,
  • des cours sur Wikilivres ou la Wikiversité.

Bref, toute la « substantifique moëlle » de Victor Hugo vue par les multiples Wikis de Wikimédia.

A ma connaissance, un tel système n’existe pas encore… -- Almak 14 avril 2007 à 21:14 (CEST)

Excellente idée Almak, en fait actuellement nous préparons une V2 de wikipediasearch.net, qui devrait sortir en fin de semaine. Cette version cloturera dans un premier temps la première phase d'évolution lié au recherche dans Wikipedia. Le but ce cette V2 est de proposer différents type de recherche lié au contenus. A ce titre et sans trop en dire nous allons proposer un moteur de recherche d'images, l'affichage des catégories et des projets auquels sont rattachés les articles, les regroupements chronologiques et surtout la mise à jour en temps réel. Mais tes excellentes idées seront reprises pour la V3. Merci Almak, et en fait je cherchais le moyen de pouvoir rentrer en contact avec la communauté soit par le biais d'un forum, ou ... , afin que celle -ci puisse nous soummettre ce genre d'idée et je pense qu'en passant par cette page de discussion nous avons résolu ce problème, donc doublement merci Pmartin 15 avril 2007 à 08:19 (CEST)

Le moteur est temporairement fermé[modifier | modifier le code]

Le moteur est temporairement fermé et devrait réouvrir rapidement ces portes. Nous sommes désolés de la gène occasionnée. Pmartin 17 avril 2007 à 15:15 (CEST)

le moteur est réouvert[modifier | modifier le code]

Une nouvelle interface, des nouvelles fonctionnalités sont mises à la disposition. Pmartin 11 mai 2007 à 09:04 (CEST)

belle faute[modifier | modifier le code]

"contacter nous", eh ben bravo

c'est corrigé, merci de nous avoir signalé la coquille Pmartin 17 mai 2007 à 09:36 (CEST)

Un peu d'aide[modifier | modifier le code]

Bonjour,

Bravo pour cette nouvelle version, c'est un plaisir de voir cet outil se développer. La nouvelle mouture me rend un peu confus quand même, notamment avec de nouvelles icônes dont on ignore leur fonction (la petite boussole par exemple). Je suggère d'utiliser des info-bulles pour dire à quoi servent les boutons ("Atlas", la boussole, dire que le sélecteur de catégorie emmène sur la page de Wikipédia et ne fait pas une recherche sur la catégorie, etc.). De même pour les flèches bleues, qui ne sont pas très évidentes je trouve (un alignement plus "classique" serait meilleur de mon point de vue : << < > >>).

Une petite page d'aide / de FAQ dans le genre de celle-ci serait d'ailleurs la bienvenue, pour expliquer les questions courantes sur ce moteur. Mes questions (auxquelles je n'ai pas toujours les réponses d'ailleurs !) seraient :

  • Qui est derrière Wikiwix, avec quelle technologie, quelle est la teneur du lien avec Wikipédia ?
  • Les recherches sont-elles "live" (base de données à jour) ou pas ? Que signifie "articles désynchronisés" ?
  • Les images incluent-elles celles de Commons ?
  • Comment marche ce #*!& d'atlas ? (je râle, je râle, car pour sélectionner "France" et "Paris" j'ai dû jouer de la molette de souris et ne pas cliquer à côté, sous peine de me retrouver avec des résultats vides...). Et à quoi correspondent les chiffres de cet atlas ? Au passage, l'atlas pourrait renvoyer vers les excellents Atlas de Commons, par pays (exemple).
  • Quelles est cette boîte à cocher "un des mots" ? J'ai du réfléchir 2 minutes avant de savoir dans quel sens l'utiliser (un bouton radio à 2 options serait plus intuitif, ou alors un intitulé plus complet). De façon amusante, elle devient "all word" en anglais, ce qui est à la fois contraire au français et erroné ("all words").
  • Comment marchent ces flux RSS / Atom ? (valables seulement pour la recherche en cours, de quoi préviennent-ils exactement...)
  • Quand l'interface est en anglais, la recherche porte-t-elle sur Wikipédia en anglais ?

Bref, l'idée n'est pas tant d'obtenir des réponses ici qu'une petite page d'aide (qui pourrait être une page du wiki, d'ailleurs : ce serait plus simple !) utile pour tous.

Merci et bonne continuation, le Korrigan bla 20 mai 2007 à 00:10 (CEST)

J'ai pris note Pmartin 21 mai 2007 à 16:13 (CEST)
Nous sommes entrain de construire une faq accessible sur cette url http://www.wikiwix.com/faq/ Pmartin 22 mai 2007 à 13:48 (CEST)

Parmis->Parmi[modifier | modifier le code]

Bonjour,

je vous avait signalé suite à un message du bistro (auxquels vous aviez répondu ultérieurement également) l'existence d'une coquille orthographique dans la réponse à une requête : "Résultats 1-10 parmis 2608 pour xxxx". Meilleures salutations à vous Jef-Infojef 2 juin 2007 à 19:16 (CEST)

résumé des recherches[modifier | modifier le code]

Je vous suggère de filtrer les textes entre {{ }} lors de l'affichage de vos résumés rapides des résultats de recherche. En effet ce sont des modèles souvent présents pour indiquer une ébauche, homonymie, tableau synthétique, etc mais qui apportent de la confusion dans la visualisation des résultats. Meilleures salutations --Jef-Infojef 2 juin 2007 à 19:37 (CEST)

Aide:Recherche[modifier | modifier le code]

Bonjour. J'ai un peu déplacé l'info. Une question : le moteur indique toujours "482088 articles" et "830 désynchronisés", est-ce vraiment à jour ? Et est-il vraiment le plus rapide ? Ah, d'ailleurs, quelle base de données utilise wikiwix ? Le toolserver (réplication ?), un dump, ou autre chose ?

Si je peux me permettre (sachant que je n'ai rien contre wikiwix, au contraire), Google trouve des articles que j'ai créés il y a 2 jours, de même que la recherche interne qui vient tout juste d'être mise à jour. De plus, la recherche interne bénéficie d'un index "incrémental", construit progressivement et plus une fois toutes les quelques semaines comme auparavant.

Bref, il faut vérifier si Wikiwix est bien le plus "à jour", avec quelques comparaisons sur des articles récents. Cordialement, le Korrigan bla 12 juillet 2007 à 09:24 (CEST)

Merci pour la réponse. En fait, le moteur de recherche interne a enfin été mis à jour, et avec lui la façon dont l'index est créé. On y trouve des articles récemment créés, en ce moment la limite est de 12 heures environ. Mais Wikiwix n'a pas l'air d'être si à jour que ça : quand je cherche Servitude pour dettes (article créé il y a 3 jours). Mais j'avoue que les autres moteurs externes ne font pas mieux :-) le Korrigan bla 13 juillet 2007 à 18:23 (CEST)

Offline reader[modifier | modifier le code]

Hello ! Juste pour te dire que je t'ai répondu ici, et que je trouve l'outil purement génial. C'est très appréciable pour le lecteur, notamment pour celui qui a un faible débit internet, car le temps de chargement est réduit à néant (ou presque). J'ai halluciné quand j'ai vu que Wikibooks ne me demande que 17Mo, et de.Wikipedia seulement 1779Mo. Mes félicitation et bonne continuation ! Dodoïste [réveille-moi] 28 novembre 2008 à 00:43 (CET)

Merci Dodoiste j'avais vu ton message sur le bistro. Ps : le package wikipedia francophone est dispo. Cordialement Pmartin (d) 30 novembre 2008 à 13:50 (CET)

Deux disucssions qui concernent Wikiwix[modifier | modifier le code]

Ici et . J'espère que ces discussions seront constructives (enfin pour le Bistro j'ai pas trop d'espoir). Amicalement, Dodoïste [réveille-moi] 15 décembre 2008 à 00:52 (CET)

Ca me rappelle cette conversation pour infos nous sommes quasiment en temps réel sur Wikipedia puisque nous suivons via IRC les recent change. Nous attendons juste que 1000 chagements interviennent au sein de fr.Wikipedia avant de récupérer les pages. Nous avons travaillons également sur une nouvelle maquette voiloù. Pmartin (d) 15 décembre 2008 à 01:46 (CET)
Magnifique cette nouvelle recherche de documents. J'ai vu que tu en a parlé sur Wikisource, je n'ai pas grand-chose à ajouter aux propos de Zyephyrus.
Sinon il me semble que ce qui manque est la possibilité de rechercher dans la même quantité d'espaces de noms que propose le moteur Mediawiki. Une fois cela fait on peut sérieusement songer à adopter Wikiwix.
Google extrait des informations depuis les infobox des articles : voir ceci. Pense-tu pouvoir t'en inspirer ?
Bonne continuation ! Dodoïste [réveille-moi] 15 décembre 2008 à 02:35 (CET)

Une petite amélioration possible ?[modifier | modifier le code]

Dans le cas de cette note, le lien [archives] n'est pas opérationnel... et pour cause. Je me permet de vous signaler le résultat, mais je n'ai aucune idée si c'est un problème connu, ni quelle en serait la solution. Merci !--Maurilbert (discuter) 21 décembre 2008 à 19:25 (CET)

Certains sites comme celui du nouvel observateurs contiennent une balise de type noarchive ne permettant pas l'archivage de leur contenus. Donc voilà pourquoi il y a des fois marqué :

"This page uses a tag to prevent archiving of its content, thus we're not archiving it." Cordialement Pmartin (d) 22 décembre 2008 à 08:31 (CET)

Wikiwix en panne ?[modifier | modifier le code]

C'est en panne ? --MGuf (d) 1 mars 2010 à 16:53 (CET)

Oui et non nous sommes entrain de vérifier les disques. Pmartin (d) 1 mars 2010 à 17:37 (CET)
Tout est redevenu normal Pmartin (d) 1 mars 2010 à 20:20 (CET)

RE: pt:Wikipédia:Esplanada/geral/Wikiwix (12mar2011)[modifier | modifier le code]

Bonjour Pascal. Merci par ton offre d'aide. Et je te remercie par le travail si util! Salut, --pt:Stegop disc 16 mars 2011 à 19:57 (CET)

Wikiwix cassé[modifier | modifier le code]

Bonjour,

Tous les liens "archive" renvoient sur la même page en ce moment (page perso de "Mihai Iorga"), qui semble n'avoir rien à voir... --Gribeco 【ツ】 18 juin 2011 à 15:34 (CEST)

C'est corrigé [1] merci de nous avoir prévenu. Cordialement Pmartin (d) 20 juin 2011 à 09:38 (CEST)

Erreur 404 sur une page en archive citée dans le wiktionnaire[modifier | modifier le code]

Erreur 404 sur [2] :

Page perdue ? Temps de réponse trop long ?

Page perdue, je ne peux pas récupérer ce qui a été perdu, certaines pages étaient en 404 avant que le système soit en place et sans qu'aucun archiveur de type ( archives.org ) ,n'est stocké le contenu.

Cette page est en lien dans [3], ce lien étant généré par un Modèle:R:Littré

Page perdue ? Temps de réponse trop long ? Ou lien créé automatiquement sans avoir vraiment archivé la page ?

Le lien archive s'ajoute sur toutes les urls externes qui sont en note et références sans contrôle de l'existence ou non de l'archive, la communauté préfère avoir un système non intrusif, c'est à dire que l'affichage des pages ne soit pas dépendant d'un service externe.

La page originale [4] est apparemment inaccessible aussi, reste en recherche plusieurs mn et finit par donner le message :


Gateway Time-out

The gateway did not receive a timely response from the upstream server or application.

Apache/2.2.17 (Unix) mod_ssl/2.2.17 OpenSSL/0.9.7l PHP/5.2.15 Server at artflx.uchicago.edu Port 80


--SGlad (d) 2 juin 2013 à 15:24 (CEST)

Merci des réponses.
La page originale est maintenant accessible, mais celle en cache est toujours "Erreur 404".
Si j'ai bien compris, elle a enregistré le fait que l'originale était inaccessible au moment où le cache a été créé automatiquement.
Comment en ce cas mettre en place la bonne page dans le cache ?
Ce n'est probablement pas la seule page dans ce cas, mais ce que je ressens des discussions est que le faire automatiquement serait jugé trop intrusif.
Pourrait-on cependant en avoir une liste (restreinte par filtrage sur le nom ou la date ou autre) ?
Alors, comment être sûr lorsqu'on crée un lien externe que le cache va bien enregistrer la bonne page et pas une erreur 404 ou autre, et que faire si ça s'est mal passé ? (p.ex. avec des sites dont le temps de réponse est parfois long ou qui sont en maintenance temporaire)
D'autre part, il serait utile d'avoir dans le bandeau la date de mise en cache même lorsque c'est au moment de la création du lien. Sinon comment la connaître ? Un lien dans le bandeau vers les infos relatives à la mise en cache ?
--SGlad (d) 5 juin 2013 à 14:58 (CEST)

Bouton d'inscription[modifier | modifier le code]

Sur la page "http://archive.wikiwix.com/fr/get-it", il faudrait comme texte du bouton "Je m'inscris !" pour ne pas rebuter les latinologues (et peut-être une traduction pour les autres ?;)

De plus, la page semble inaccessible en "https:", de même que "https://archive.wikiwix.com/". --SGlad (d) 5 juin 2013 à 19:45 (CEST)

Le cache est actuellement en lecture seule[modifier | modifier le code]

Ca tombe bien, je voulais juste "lire" [5], mais j'obtiens seulement ce message.

Le bandeau dit : "Elle apparaît ci-dessous telle qu'elle était lorsqu'elle elle a été insérée comme lien externe dans Wikipedia.", donc elle devrait déjà être présente, à moins qu'on ait essayé de l'enregistrer à un moment où le cache était en lecture seule ? Auquel cas il faudrait repérer ces pages et les réparer tant que l'original n'a pas disparu.

Dans tous les cas, donner dans le bandeau la date de mise en cache serait utile. --SGlad (d) 17 juin 2013 à 11:32 (CEST)

http://redmine.linterweb.fr/projects/archive_wikiwix tu peux déposer tes demandes sur l'outil de gestion ticket que nous avons installé il y a un mois, ils seront pris en compte. --Pmartin (d) 17 juin 2013 à 11:38 (CEST)

Perte d'archives pour les communes françaises[modifier | modifier le code]

Bonjour. Il semble que wikiwix lache les archives de l'IGN ayant servi de source aux articles de communes françaises, puis depuis peu également des archives de l'Insee servant également de sources : voir Discussion Projet:Communes de France#Liens brisés malgré wikiwix. Y a-t-il espoir de retour ou faut-il se résigner ? Cordialement, ---- Ikmo-ned (discuter avec) 31 octobre 2013 à 00:46 (CET)