Web scraping

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources (avril 2020).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

Le web scraping (parfois appelé harvesting) est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte, par exemple le référencement^[1].

Légalité

Aux États-Unis

Aux États-Unis, la société hiQ Labs utilise le web scraping sur les données de LinkedIn à des fins de recrutement. À la suite d'un procès, la Cour d'appel des États-Unis pour le neuvième circuit donne raison à hiQ en septembre 2019 : la cour considère notamment que les utilisateurs conservent la propriété de leurs profils, et que les données étant librement diffusées sur Internet, elles peuvent être collectées^[2]. L'affaire est ensuite portée devant la Cour suprême^[3].

En Europe

Dans un jugement de 2013, la cour de justice de l'Union européenne a condamné le métamoteur de recherche Innoweb, qui réutilisait les données de l'entreprise de vente d'automobiles Wegener sans aucune modification de celles-ci^[4].

En France

Le 30 avril 2020, la CNIL a publié de nouvelles directives sur le web scraping^[5]. Les lignes directrices de la CNIL précisent que les données accessibles au public sont toujours des données personnelles et qu'elles ne peuvent pas être réutilisées à l'insu de la personne à laquelle ces données appartiennent^[6].

En décembre 2021, une start-up de la Station F est condamnée pour piratage informatique. À l'aide d'une technique de web scraping, elle a récolté des données de l'annuaire d'une école de commerce parisienne, afin de solliciter les anciens élèves de l'établissement en vue d'alimenter un financement participatif^[7] La condamnation porte sur la méthode d'accès à la donnée, c'est-à-dire une usurpation d'identité permettant un « accès frauduleux à un système de traitement automatisé de données », et non le web scraping lui-même.

Applications utilisant le Web scraping

Mozilla Firefox en mode headless avec Selenium
Google Chrome avec puppeteer (Node.js)
OutWit Hub
PhantomJS (développement à l'arrêt) et CasperJS, un framework permettant le scraping
weboob
QuickCode (en) (ScraperWiki)
Beautiful Soup avec Python

Notes et références

↑ Régis Micheli et Jean-Noël Anderruthy, Le Référencement Publicitaire avec Google AdWords : Astuces, conseils : toutes les techniques d'experts certifiés., 29 octobre 2012 (lire en ligne)
↑ Clément Bohic, « LinkedIn échoue à faire restreindre la collecte de données en ligne », sur silicon.fr, 10 septembre 2019 (consulté le 5 juin 2020).
↑ (en) Wendy Davis, « Supreme Court Asks hiQ To Respond In Battle Over Data Scraping », 27 avril 2020 (consulté le 5 juin 2020).
↑ Arnaud Touati et Christina Salassidis, « Le web scraping, une technique d’extraction légale ? », sur actualité du droit, 11 octobre 2017 (consulté le 5 juin 2020).
↑ « La réutilisation des données publiquement accessibles en ligne à des fins de démarchage commercial », sur Commission nationale de l'informatique et des libertés, 30 avril 2020.
↑ (en) « Legal Web Scraping for Legal Purposes », sur finddatalab.com, 5 juillet 2020.
↑ Gabriel Thierry, « Une start-up de la Station F condamnée après un scraping sauvage », sur ZDNet, 16 décembre 2021.

Voir aussi

Articles connexes

[1] Régis Micheli et Jean-Noël Anderruthy, Le Référencement Publicitaire avec Google AdWords : Astuces, conseils : toutes les techniques d'experts certifiés., 29 octobre 2012 (lire en ligne)

[2] Clément Bohic, « LinkedIn échoue à faire restreindre la collecte de données en ligne », sur silicon.fr, 10 septembre 2019 (consulté le 5 juin 2020).

[3] (en) Wendy Davis, « Supreme Court Asks hiQ To Respond In Battle Over Data Scraping », 27 avril 2020 (consulté le 5 juin 2020).

[4] Arnaud Touati et Christina Salassidis, « Le web scraping, une technique d’extraction légale ? », sur actualité du droit, 11 octobre 2017 (consulté le 5 juin 2020).

[5] « La réutilisation des données publiquement accessibles en ligne à des fins de démarchage commercial », sur Commission nationale de l'informatique et des libertés, 30 avril 2020.

[6] (en) « Legal Web Scraping for Legal Purposes », sur finddatalab.com, 5 juillet 2020.

[7] Gabriel Thierry, « Une start-up de la Station F condamnée après un scraping sauvage », sur ZDNet, 16 décembre 2021.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

v · m Optimisation pour les moteurs de recherche
Exclusion standards	Protocole d'exclusion des robots Élément meta nofollow
Search marketing	Search engine marketing Social media optimization Answer Engine Optimization Online identity management (en) Paid inclusion (en) Coût par clic Bombardement Google
Spam	Spamdexing Web scraping Scraper site Ferme de liens Netlinking
Linking	Lien retour Netlinking Échange de liens Organic linking (en)
Gens	Danny Sullivan (en) Matt Cutts Vanessa Fox (en) Barry Schwartz (en) Olivier Andrieu
Autre	Ciblage géographique PageRank Mot vide Poison words (en) Ferme de contenus