reCAPTCHA

Un article de Wikipédia, l'encyclopédie libre.
Un exemple de reCAPTCHA utilisé jusqu'en 2012 : les mots à reconnaître sont « following » et « finding ».

reCAPTCHA est un système de détection automatisée d'utilisateurs appartenant à Google et mettant à profit les capacités de reconnaissance de ces derniers, mobilisées par les tests CAPTCHA, pour améliorer par la même occasion le processus de reconnaissance des formes par les robots. Jusqu'en 2014, il était présenté sous forme de CAPTCHA de reconnaissance de texte, et servait à la numérisation de livres, là où échouaient les systèmes de reconnaissance optique de caractères (OCR). Aujourd'hui il s'agit d'une case à cocher, suivie, si jugé nécessaire par le robot, par un CAPTCHA de reconnaissance d'images.

Mis au point par des chercheurs de la Carnegie Mellon School of Computer Science (en) de l'université Carnegie-Mellon à Pittsburgh, dont était également issu le projet CAPTCHA[1], le système appartient à Google depuis fin 2009[2],[3].

Description[modifier | modifier le code]

L'idée est de rendre utile une tâche qui peut sembler rébarbative. La technique tient du crowdsourcing.

Concrètement, par rapport à un processus habituel d'authentification par CAPTCHA, ce ne sont pas un mais deux mots qui sont présentés à l'utilisateur. L'un d'eux est un CAPTCHA habituel, dont la solution est par conséquent connue de manière certaine ; seul l'autre est issu de la numérisation d'un livre : c'est celui dont la solution est incertaine voire inconnue et que l'utilisateur va aider à résoudre.

Le système part du principe que si les utilisateurs résolvent correctement le CAPTCHA habituel, alors ils ont aussi déchiffré correctement le mot inconnu. Néanmoins, un mot n'est considéré comme vraiment reconnu que si plusieurs utilisateurs l'ont vérifié en obtenant le même résultat.

Les mots à reconnaître sont issus de numérisations opérées par Internet Archive sur des ouvrages anciens appartenant au domaine public. Ils sont fournis lors des requêtes par le site web du projet reCAPTCHA. Ceci est réalisé au moyen d'une API écrite en JavaScript, dans laquelle le serveur rappelle reCAPTCHA après que la requête a été soumise. Le projet reCAPTCHA propose des bibliothèques pour différents langages de programmation afin de faciliter le processus. Le service est gratuit, à l'exception des utilisateurs qui auraient besoin d'une bande passante trop élevée.

Le but de reCAPTCHA est le même que celui poursuivi par Distributed Proofreaders, un autre projet visant également à valider l'OCR par des opérateurs humains, mais de manière conventionnelle, sans avoir recours à un système de CAPTCHA.

En 2012, les algorithmes de reconnaissance de caractères de Google étant devenus suffisamment performants pour ne plus avoir besoin d'utilisateurs, Google réoriente le service vers la reconnaissance d'objets dans des images.

Le système reCAPTCHA demandant de cliquer sur des photographies ne peut pas fonctionner si la connexion à gstatic.com est interdite (par un pare-feu, par exemple).

Histoire[modifier | modifier le code]

En 2009, le projet reCAPTCHA est à même de numériser les archives du New York Times : en , environ 20 ans d'archives avaient été numérisés, et les responsables du projet espéraient avoir complètement numérisé les 110 autres années avant la fin de 2010[4].

Le , Google annonce l'acquisition de la société reCAPTCHA[2]. Celle-ci est alors utilisée principalement dans le processus de numérisation d'ouvrages Google Books.

Depuis , reCAPTCHA se présente sous forme d'une reconnaissance d'images issues de Google Street View et est utilisé par Google pour l'améliorer[5].

En , une nouvelle version de reCAPTCHA évite à l'internaute d'avoir à taper des caractères ou des chiffres : il n'a plus qu'à cliquer sur une case. Un système à base d'intelligence artificielle détecte s'il s'agit bien d'un clic fait par un humain et si c'est bien le cas, le CAPTCHA est validé[6]. Toutefois, le processus a toujours une utilité pour Google, car les clics des utilisateurs servent à entrainer des intelligences artificielles, dans les voitures autonomes notamment[2].

Trois contrôles ont été menés par la CNIL en juin 2020 auprès du ministère des Solidarités et de la Santé afin de s’assurer que le fonctionnement de l’application « StopCovid France » répond aux exigences de protection de la vie privée et des données personnelles de ses utilisateurs. Parmi les irrégularités relevées par la CNIL (mis en demeure, le ministère y a remédié) figurait le recours au  reCAPTCHA de Google. Dans la Décision n° MED-2020-015 du 15 juillet 2020 mettant en demeure le ministère des solidarités et de la santé, on relève le passage suivant : « ...la version initiale de l’application StopCovid France contient la technologie reCATPCHA, dans sa version invisible, développée par la société Google... la délégation a constaté que les utilisateurs de l’application StopCovid France dans sa version v1.0. ne sont à aucun moment informés, notamment par une fenêtre de consentement au moment de l’activation de l’application, de la collecte d’informations stockées sur leurs équipements mobiles ni des moyens de refuser cette collecte. Il en résulte également que le consentement de l’utilisateur portant sur l’accès aux informations stockées sur son équipement mobile ou sur l’inscription d’informations sur son équipement mobile n’est recueilli à aucun moment du parcours d’activation de l’application StopCovid France. Ces faits constituent un manquement à l’article 82 de la loi Informatique et Libertés.».

Notes et références[modifier | modifier le code]

  1. (en) Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham et Manuel Blum, « reCAPTCHA: Human-Based Character Recognition via Web Security Measures », Science, vol. 321, no 5895,‎ , p. 1465-1468 (DOI 10.1126/science.1160379, lire en ligne [PDF]).
  2. a b et c Cédric Ingrand, « Comment, sans le savoir, vos clics améliorent les voitures autonomes de Google », sur lci.fr, (consulté le 30 mai 2020)
  3. (en) Luis von Ahn et Will Cathcart, « Teaching computers to read: Google acquires reCAPTCHA », sur Official Google Blog,
  4. (en) « Diamond Factory, Anthrax Investigation, Auto-Tune and Profile: Luis von Ahn », NOVA ScienceNow, PBS,  : « Luis von Ahn: The New York Times has this huge archive of 130 years of newspaper archived there. And we've done, maybe, about 20 years so far of The New York Times in the last few months. And I believe we're going to be done next year, by just having people do a word at a time. » (46:58).
  5. Guillaume Champeau, « Comment Google exploite le spam pour améliorer Google Maps », sur Numerama,
  6. (en-US) Vinay Shet, « Are you a robot? Introducing “No CAPTCHA reCAPTCHA” », Google Online Security Blog, (consulté le 29 avril 2017)

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Lien externe[modifier | modifier le code]