Aller au contenu

Protocole d'exclusion des robots

Un article de Wikipédia, l'encyclopédie libre.
Le protocole d'exclusion des robots.
Fichier robots.txt disant qu'un agent utilisateur ,« Mallorybot », n'a le droit de visiter aucune page d'un site, et que les autres bots ne peuvent visiter plus d'une page toutes les vingt secondes. Enfin, aucun bot ne peut accéder au dossier « secret ».

Le protocole d'exclusion des robots, souvent nommé robots.txt, est une ressource de format texte qui peut être placée à la racine d'un site web, et qui contient une liste des ressources du site qui sont censées ou non être indexées par les robots d'indexation des moteurs de recherche. Par convention, les robots consultent le fichier texte nommé robots.txt avant d'indexer un site Web.

Ce protocole a été proposé par Martijn Koster en 1994 et il a été rapidement adopté comme un standard de facto du web avant d’être normalisé en 2022 dans la RFC 9309[1].

L'usage de robots.txt permet d'éviter que des ressources sans intérêt public se retrouvent dans la page de résultats d'un moteur de recherche. En outre, le fait que les robots n'accèdent pas à ces ressources allège le travail du serveur HTTP et le trafic sur le réseau informatique.

Il est important de comprendre qu’il ne s’agit là que d’une indication sur ce que doivent faire les robots bienveillants, ce n’est en aucun cas un élément de sécurité. En effet, certains robots ignorent ce fichier, soit délibérément parce qu’ils cherchent des informations privées (des adresses électroniques par exemple, pour y envoyer du courrier indésirable), soit parce que le robot est trop simple pour gérer ce standard.

De manière facultative, ce fichier peut contenir l'adresse d'un plan du site consacré aux moteurs de recherche appelé « sitemap » dont le format est le XML.

Le , Google a indiqué vouloir standardiser l’interprétation du fichier robots.txt tout en précisant que sa proposition respecte le brouillon initial de son créateur Martijn Koster (en) et est donc rétrocompatible. En , la RFC 9309[1] est publiée. Elle s’applique à tous les protocoles qui permettent d’accéder à des ressources à partir d’URI, c’est-à-dire plus uniquement à HTTP mais également à FTP, CoAP, etc.

Robots pour l'IA générative

[modifier | modifier le code]

À partir de 2023, le protocole d'exclusion des robots est utilisé par les entreprises développant des modèles de langage pour permettre aux propriétaires de sites web de contrôler l'utilisation de leur contenu. OpenAI introduit le crawler GPTBot en août 2023[2], suivi par Anthropic avec ClaudeBot[3] et Google avec Google-Extended en septembre 2023[4]. Ces crawlers respectent les directives du fichier robots.txt, ce qui permet aux éditeurs de site d'autoriser ou de bloquer l'accès à leur contenu, soit pour l'entraînement des modèles de langage, soit pour des recherches en temps réel utilisées par des moteurs comme ChatGPT, Claude ou Perplexity.

Autoriser tous les robots à accéder au site :

User-agent: *
Allow:

Interdire l'accès au site à tous les robots :

User-agent: *
Disallow: /

Pour interdire à tous les robots, sauf Googlebot, l'accès à un dossier en particulier, par exemple http://example.org/forum/.

User-agent: *
Disallow: /forum

User-agent: googlebot
Disallow:

Notes et références

[modifier | modifier le code]
  1. a et b (en) Martijn Koster et al., « Robots Exclusion Protocol », Request for comments no 9309,
  2. « GPTBot », sur OpenAI Platform (consulté le )
  3. « Does Anthropic crawl data from the web », sur Anthropic (consulté le )
  4. « An update on web publisher controls », sur Google Blog, (consulté le )

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]
  • (fr) Robots.txt (robots-txt.com) : ressources en français sur le protocole d'exclusion des robots.