OutWit Hub

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche
OutWit Hub

Informations
Développé par OutWit Technologies
Dernière version 7.0
Système d'exploitation Microsoft Windows, macOS et LinuxVoir et modifier les données sur Wikidata
Type logiciel de web scraping, gestionnaire de téléchargement
Licence licence propriétaire
Site web www.outwit.com

OutWit Hub est un logiciel de scraping Web, conçu pour extraire et collecter automatiquement des informations à partir de ressources en ligne ou locales. Le programme reconnaît et récolte liens, images, documents, contacts, mots et groupes de mots récurrents, flux rss et convertit les données structurées ou non en tables formatées qui peuvent être exportées vers des feuilles de calcul ou des bases de données. La première version du logiciel est sortie à la fin de 2010. La version 7.0 est disponible depuis mars 2018.

Le programme comprend un navigateur Web et un panneau latéral qui donne accès à un certain nombre de vues contenant les données provenant d'extracteurs pré-définis. Les pages Web et les documents textuels sont décomposés en différents constituants et présentés sous forme de tables dans ces vues. L'application peut parcourir automatiquement des séries de liens ou des séquences de pages de résultats de moteurs de recherche pour extraire les éléments d'information recherchés, les organiser en tables et les exporter dans différents formats. Les extracteurs pré-définis permettent de récolter des tables structurées, des listes et des flux. Si ces extractions automatiques ne suffisent pas, l'utilisateur peut aussi créer des scrapers spécifiques pour extraire les éléments de pages moins structurées page[1]. Les expressions régulières peuvent être utilisées dans les scrapers ainsi que dans d'autres parties de l'application pour définir des marqueurs variables pour reconnaissance et l'extraction de données[2].

Si OutWit Hub est présenté comme un outil pour utilisateurs non-techniciens, le fait que l'application n'utilise pas la structure DOM pour certaines extractions, empêche un fonctionnement purement visuel et force l'utilisateur souhaitant créer des scrapers personnalisés à définir des marqueurs dans le code source de la page. L'avantage de cette approche est néanmoins qu'elle permet une définition plus précise des masques d'extraction que les nœuds HTML ainsi qu'une plus grande vitesse d'exécution car la hiérarchie DOM n'a pas besoin d'être rendue par le navigateur au moment de l'extraction.

Versions[modifier | modifier le code]

Le programme existe en deux versions: une application exécutable et un add-on Mozilla Firefox, avec des fonctionnalités identiques. Une version gratuite et limitée peut être téléchargée sur le site de l'éditeur et sur des sites de téléchargement download websites[3].

Fonctionnalités[modifier | modifier le code]

  • Reconnaissance et extraction de liens, d'adresses email et de contacts, de données structurées et non-structurées, de flux RSS
  • Extraction & téléchargement d'images et de documents
  • Extraction de texte, de dictionnaires de mots & de groupes de mots par fréquence
  • Navigation automatique selon des règles d'exploration du Web définies par l'utilisateur
  • Génération automatique d'URLs et de requêtes
  • Dossiers de liens et de requêtes
  • Scrapers personnalisés
  • Macros automatiques
  • Exécution périodiques de jobs

Fonctionnalités avancées[modifier | modifier le code]

Les éditions Expert & Enterprise de l'application offrent des fonctions avancées d'extraction et d'automation pour les cas spécifiques ou les extractions de volumes importants de données, effectuant des séries de requêtes HTTP GET ou POST générées automatiquement et envoyant les résultats sur un serveur FTP.

Notes et références[modifier | modifier le code]

  1. (en) « Using "separators and labels" in Outwit Hub pro », datacrumble,‎ (lire en ligne)
  2. (en) « How-to: Scraping ugly HTML using ‘regular expressions’ in an OutWit Hub scraper », online journalism,‎ (lire en ligne)
  3. (en) « How to use OutWit Hub to scrape data for free », interhacktives,‎ (lire en ligne)

Annexes[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Outils Similaires[modifier | modifier le code]

Liens externes[modifier | modifier le code]