Web scraping

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

Le web scraping (parfois appelé harvesting) est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte, par exemple le référencement[1].

Arguments contre[modifier | modifier le code]

Cela permet de récupérer le contenu d’une page web en vue d'en réutiliser le contenu. Cette opération se pratique le plus souvent de façon automatique, qui permet de constituer des pages à bon compte. Cette pratique n'a pas très bonne presse chez les contributeurs authentiques car elle peut être assimilée à un pillage.

Google Actualités, en agrégeant sans autorisation préalable les manchettes d'autres sites, est considéré par certains comme du Web scraping.

Arguments pour[modifier | modifier le code]

Dans un cadre entreprise, qui est elle bien sûr propriétaire de ses données, cette technologie permet de réduire significativement le temps et le coût des intégrations d'applications d'entreprise. Bien que ce type d'intégration ait été dans le passé dénigré pour son manque de fiabilité et de performance, il existe aujourd'hui sur le marché des outils professionnels qui permettent ces intégrations dans le respect des contraintes de sécurité et de gouvernance imposées par les grandes entreprises.

Légalité[modifier | modifier le code]

Aux États-Unis[modifier | modifier le code]

Aux États-Unis, la société hiQ Labs utilise le web scraping sur les données de LinkedIn à des fins de recrutement. À la suite d'un procès, la Cour d'appel des États-Unis pour le neuvième circuit donne raison à hiQ en  : la cour considère notamment que les utilisateurs conservent la propriété de leurs profils, et que les données étant librement diffusées sur Internet, elles peuvent être collectées[2]. L'affaire est ensuite portée devant la Cour suprême[3].

En Europe[modifier | modifier le code]

Dans un jugement de 2013, la cour de justice de l'Union européenne a condamné le métamoteur de recherche Innoweb, qui réutilisait les données de l'entreprise de vente d'automobiles Wegener sans aucune modification de celles-ci[4].

Applications utilisant le Web scraping[modifier | modifier le code]

Utilisation dans la gestion de données multimédia[modifier | modifier le code]

Le web scraping peut être utilisé pour récupérer des métadonnées. C'est ainsi que la bibliothèque multimédia XBMC récupère les informations sur les médias qu'elle gère (affiches et résumés des films et séries télévisées, jaquette des albums…) sur différents sites tels que IMDb ou AlloCiné au moyen de scrapers dédiés[5].

Notes et références[modifier | modifier le code]

  1. Régis Micheli, Jean-Noël Anderruthy, Le Référencement Publicitaire avec Google AdWords : Astuces, conseils : toutes les techniques d'experts certifiés., (lire en ligne)
  2. Clément Bohic, « LinkedIn échoue à faire restreindre la collecte de données en ligne », sur silicon.fr, (consulté le 5 juin 2020).
  3. (en) Wendy Davis, « Supreme Court Asks hiQ To Respond In Battle Over Data Scraping », (consulté le 5 juin 2020).
  4. Arnaud Touati et Christina Salassidis, « Le web scraping, une technique d’extraction légale ? », sur actualité du droit, (consulté le 5 juin 2020).
  5. « Scrapers - Official Kodi Wiki », sur kodi.wiki (consulté le 26 avril 2020)

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]