Web scraping
Le Web scraping (parfois appelé Harvesting) décrit généralement en informatique un moyen d'extraire du contenu d'un site Web, via un script ou un programme, dans le but de le transformer ou de changer son format pour permettre son utilisation dans un autre contexte sans respecter les droits de ses auteurs.
Sommaire |
[modifier] Arguments contre
Cela permet de récupérer le contenu d’une page web en vue d'en réutiliser le contenu. Cette opération se pratique le plus souvent de façon automatique, qui permet de constituer des pages à bon compte. Cette pratique n'a pas très bonne presse chez les contributeurs authentiques car elle peut être assimilée à un pillage. Pour inciter les webmasters à ne pas utiliser de méthode de scraping, Google, sanctionne les sites qui les utilisent en les supprimant de ses pages de résultats.
Google News, en agrégeant sans autorisation préalable les manchettes d'autres sites, est considéré par certains comme du Web scraping
[modifier] Arguments pour
Dans un cadre entreprise, qui est elle bien sur propriétaire de ses données, au contraire cette technologie révolutionne les mécanismes d'intégration des applications. Récupérer des données qui ont été traitées par une logique métier complexe au sein des écrans web des applications d'entreprise, permet de réduire le temps et le coût des intégrations de manière spectaculaire. Bien que ce type d'intégration ait été dans le passé dénigré pour son manque de fiabilité et de performance, il existe aujourd'hui sur le marché des outils professionnels qui permettent ces intégration dans le respect des contraintes de sécurité et de gouvernance imposées par les grandes entreprises.
[modifier] Utilisation dans la gestion de données multimédia
Le Web scraping peut être utilisé pour récupérer des Métadonnées. C'est ainsi que la bibliothèque multimédia XBMC récupère les informations sur les médias qu'elle gère (affiches et résumés des films et séries TV, jaquette des albums, etc) sur différents sites tels que IMDb ou AlloCiné au moyen de scrapers dédiés[1].