Où trouver le fichier robots txt ?

27 octobre 2022

Pour référencer correctement un site internet, les moteurs envoient fréquemment des robots pour indexer les contenus récents. Les robots sont donc des programmes qui mettent en relation les moteurs et les plateformes web. Ils détectent les nouvelles pages et peuvent savoir si un contenu existant a été modifié. Le fichier robots.txt n’est pas, à proprement parler, un programme du même type. Il s’agit plutôt d’un simple fichier présent sur les sites et qui permet de communiquer des instructions aux algorithmes d’indexation. Où peut-on le trouver ?

Au programme de cet article

Rôle du fichier robots txt
Où peut-on trouver le fichier robots txt ?
1. Comment créer votre fichier ?
2. Quelques règles de bases pour remplir le fichier
Importance d’un fichier robots txt pour le SEO d’un site
1. Google reconnaît plus facilement les pages importantes
2. Contrôler le temps de crawl

Rôle du fichier robots txt

Le fichier robots txt a pour objectif d’indiquer aux moteurs de recherche, Google notamment, les zones à indexer sur un site web. Il s’agit tout simplement d’un fichier texte qui interdit aux robots des moteurs d’indexer certaines zones de votre plateforme web. C’est l’un des premiers éléments que les programmes espions analysent sur un site internet. En effet, il peut contenir des informations importantes, mais aussi des instructions compréhensibles par les robots de Google et des autres moteurs. Ainsi, grâce à un fichier robot.txt, vous avez la possibilité d’interdire l’exploration, voire l’indexation de :

votre plateforme à certains agents,
certaines pages spécifiques de votre site internet à des spiders en particulier,
certaines pages à quelques robots biens précis.

Prenons l’exemple d’un site disposant d’une zone publique consacrée à la communication avec les clients et d’un backoffice intranet destiné uniquement à l’usage des salariés. C’est un cas de figure ordinaire pour les boutiques en ligne et pour les plateformes web traditionnelles de presse. Dans le fichier robots.txt, on peut demander aux spiders de ne pas indexer les pages de l’intranet. Ils ont ainsi une interdiction d’accès formelle. En revanche, si on le juge nécessaire, on peut indiquer aux moteurs de recherche d’explorer et d’indexer la page publique consacrée à la communication.

En outre, le fichier robots txt indique aussi aux moteurs l’adresse où l’on peut trouver le fichier sitemap de la plateforme.

Où peut-on trouver le fichier robots txt ?

En principe, tous les sites internet devraient avoir ce fichier. Pourtant, certaines plateformes n’en possèdent pas, sans doute parce que les propriétaires n’en connaissent pas l’utilité. Heureusement, la plupart des CMS l’intègrent automatiquement pour que le concepteur site web n’ait pas à le créer lui-même. Dans tous les cas, normalement, le fichier robots.txt se trouve à la racine du site. Ainsi, si vous avez un site accessible à l’adresse https://votresite.com, vous trouverez le fichier à l’adresse https://votresite.com/robots.txt. Le contenu du fichier s’affichera s’il est présent à la racine du site comme prévu. Par contre, si vous constatez qu’une page d’erreur 404 s’affiche, c’est qu’il est probablement absent de la racine. Dans ce cas, vous devez penser à le créer.

Comment créer votre fichier ?

Vous n’avez pas besoin d’un programme spécifique pour le créer. Un éditeur de texte basique comme Bloc-notes (sur Windows) ou encore TextEdit (sur macOS) peut suffire. Veillez à bien nommer votre fichier en n’omettant aucune lettre. À ce propos, le « s » à la fin a une grande importance. Si vous l’oubliez, il ne fonctionnera pas. Une fois créé, il faut que vous le placiez au niveau de la racine de votre site. Pour ce faire, vous aurez le choix entre deux possibilités. La première option consiste à vous connecter à l’hébergeur de votre plateforme et d’accéder au gestionnaire de fichiers. La deuxième méthode, celle que préfèrent les développeurs web, consiste à utiliser un client FTP (FileZilla par exemple) pour communiquer directement avec le serveur de votre site.

Quelques règles de bases pour remplir le fichier

Une fois que vous le placez à la racine de votre site, il ne reste qu’à le remplir dans les règles de l’art. Tout d’abord, il faut savoir que ce fichier est régi par deux directives.

La directive « User-agent » : C’est une règle qui désigne nommément les différents robots des moteurs de recherche qui ont le droit de suivre les instructions énoncées dans le fichier. Lorsqu’on attribue le symbole « * » à cette directive, c’est que l’on autorise l’accès à tous les bots. Si vous le voulez, vous pouvez indiquer les attributs Googlebot et Bingbot. Seuls ces deux bots seront pris en compte.
La directive « Disallow » : On l’utilise principalement pour indiquer au « user-agent » qu’une ressource ne doit pas faire l’objet d’une exploration.

Si la directive « Disallow » n’existait pas, les robots exploreraient normalement l’ensemble du site.

Importance d’un fichier robots txt pour le SEO d’un site

De façon générale, en ce qui concerne votre référencement naturel, deux principales raisons peuvent expliquer l’importance du fichier robots.txt.

Google reconnaît plus facilement les pages importantes

Pour que Google et les autres moteurs de recherche indexent facilement votre site, il faut qu’ils reconnaissent d’abord les pages qui ont un intérêt. Le fichier robots.txt permet de sélectionner les différentes ressources du site que l’on souhaite que les moteurs explorent. Ainsi, Google par exemple se concentrera sur les ressources essentielles. Tout ce que vous jugez inintéressant, Google s’en écartera et priorisera vos contenus les plus pertinents. Toutefois, il faut savoir que parfois, les moteurs (Google surtout), décident d’explorer, voire d’indexer quand-même certaines pages que vous jugez non pertinentes.

Contrôler le temps de crawl

Grâce au fichier, il est plus facile de contrôler la quantité de contenus que les moteurs de recherche doivent explorer. Certains sites possèdent une très grande quantité de pages. Si les robots d’indexation de Google doivent toutes les explorer, le temps de crawl peut en revanche être faible. Puisque le temps de crawl est faible, Google peut passer tout son temps à explorer les pages peu importantes. C’est d’ailleurs l’une des raisons pour lesquelles certaines plateformes sont mal positionnées dans la SERP. Les agence de création de site web ont donc intérêt à renseigner convenablement les fichiers robots.txt des sites de leurs clients. En définitive, il s’agit rigoureusement d’exclure les URLs qui ont une faible valeur ajoutée pour faciliter l’exploration de votre site. Votre crawl budget sera ainsi optimisé.

À propos de l'auteur

Cyril

Cyril COHEN est le dynamo derrière Bew Web Agency, une force incontournable dans le monde du SEO à Paris. Avec plus de 16 ans d'expérience en marketing digital, il a propulsé l'agence au sommet grâce à son expertise en création de sites Web et en référencement naturel. Consultant, formateur, et leader, Cyril a transformé Bew Web Agency en un pilier pour les TPE et PME, leur offrant une visibilité sans précédent. Sa vision ? Un site web n'est pas seulement une vitrine, mais un levier de croissance puissant pour l'entreprise.

Où trouver le fichier robots txt ?

Rôle du fichier robots txt