Wikipédia:Outils de recherche

Une page de Wikipédia, l'encyclopédie libre.

Cette page présente les principaux outils de recueil et de traitement de données que peuvent utiliser, pour étudier l'activité des projets Wikimédia ou simplement satisfaire une curiosité personnelle, les membres de la communauté et les développeurs ou les chercheurs souhaitant utiliser ces données à des fins de recherche ou d'expérimentation.

Si vous souhaitez communiquer des sources documentaires ou statistiques en lien avec les projets Wikimédia, n'hésitez pas à contacter le groupe DataHub.

Pour plus d'informations, vous pouvez également consulter la page originale de Meta-Wiki (en anglais).

Présentation synthétique[modifier le code]

Dumps

Page d'accueil | Téléchargement

Les dumps (ou copie brute de l'état d'une mémoire informatique) de tous les projets Wikimédia :

  • Contenu publié, historique, métadonnées, wikiliens et liens externes
  • Format XML et SQL
  • Actualisé une à deux fois par mois
  • Fichier de grande taille (de l'ordre d'une dizaine de Go pour un grand projet wikipédien)

API

Page d'accueil

L'API permet d'accéder très facilement au contenu des bases de données médiawiki via des requêtes HTTP.

  • Métadonnées sur le wiki et l'utilisateur connecté, propriétés des pages (historique, contenu, etc.) et listes bases ordonnées selon les critères de son choix.
  • Formats JSON, WDDX, XML, YAML et PHP

Toolserver

Page d'accueil

Le toolserver permet de demander une copie de la base de données (avec un certain temps d'attente) :

  • outils accessibles sur le web
  • compte wikimédia requis

Flux IRC

Les Modifications récentes référencées sur IRC

  • Apparition immédiate, dès que le changement apparaît
  • Chaque wiki possède son propre flux IRC
  • Il est possible de filtrer les flux selon ce que l'on cherche

Statistiques de consultation

Page d'accueil | Téléchargement

Statistiques de consultation brutes (non par visiteur unique).

  • Projet, titre de la page, nombre de requêtes, taille du contenu
  • Format JSON
  • Mis à jour toutes les heures

WikiStats

Page d'accueil | Téléchargement

Statistiques de consultations détaillées en plus de 25 langues :

  • Visiteurs uniques, éditeurs actifs, etc.
  • Format CSV disponible
  • Présentation graphique
  • Mis à jour tous les mois

DBpedia

Page d'accueil

DBpedia extrait des données structurées de Wikipédia. Il est possible de développer des requêtes complexes et d'agréger les données DBPedia avec d'autres jeux de données.

  • Données reliées

DataHub

Page d'accueil

Recueil de plusieurs jeux de données sur des projets Wikimédia

  • Études/Recueils de taille restreinte (généralement conçus une fois pour toutes)
  • Compatible avec DBPedia
  • Évaluation EPIC/Oxford