C’est quoi un fichier Robots txt ?
Bien connu par les référenceurs, le fichier robots txt aide à optimiser le budget crawl. Plus concrètement, c’est un fichier qui a vocation à diriger les robots des moteurs vers les plus importantes pages d’un site internet afin de les indexer. L’importance de ce type de fichier n’est donc plus à démontrer. Néanmoins, afin d’aider celles et ceux qui se lancent nouvellement dans le référencement seo, nous avons décidé de vous parler du robots.txt dans cet article.
Les fichiers robots.txt : de quoi s’agit-il ?
En référencement naturel, robots.txt désigne tout simplement une donnée informatique. C’est un fichier important utilisé au niveau des plateformes web afin d’indiquer aux robots explorateurs la manière dont ils devraient explorer les pages. Il permet aussi de définir ou d’évaluer son budget crawl. Les robots txt font techniquement partie d’un protocole d’exclusion. Ils dressent les normes régissant la façon dont les robots d’exploration parcourent la toile afin d’accéder aux contenus des sites et de les indexer. Par ailleurs, le fichier est accessible et facilement lisible par un humain. Il décrit comment une plateforme web est structurée.
Les professionnels du SEO s’accordent sur le fait que ce fichier a une grande incidence sur le référencement naturel. Il indique par exemple aux robots explorateurs de Google, où se trouvent les fichiers de Sitemap XML. Grâce à ces derniers, les bots du moteur de recherche comprennent aisément comment est structuré un site. Le fichier indique aussi la rapidité avec laquelle la plateforme peut être examinée ainsi que les répertoires analysables et ceux à ne pas examiner. Tous les bons bots d’exploration vérifient toujours si un fichier robots.txt existe dans l’arborescence d’un site avant d’explorer une page.
Comment créer un fichier robots txt ?
Si vous ne savez pas où trouver le fichier, sachez qu’il se trouve en principe à la racine de votre site. Vous pouvez vérifier s’il est effectivement présent à cet emplacement. Pour ce faire, tapez dans la barre d’adresse de votre navigateur favori le lien suivant : http://www.votresite.com/robots.txt.
Si le fichier n’est pas présent à la racine comme prévu, alors une page d’erreur 404 apparaîtra. Si par contre le fichier s’y trouve, alors vous verrez une suite d’informations qui représentent le contenu du fichier.
Vu l’importance de ce fichier pour le référencement site internet, il faudrait absolument penser à le créer en cas d’absence. Sa création n’est pas bien compliquée. Tout d’abord, retenez qu’une plateforme web ne possède qu’un seul fichier de ce type. En plus, son nom doit impérativement respecter la classe réglementaire (minuscule). Ainsi, on utilisera toujours le nom « robots.txt » et pas « Robots.txt ».
Pour créer le fichier, vous devez avoir la possibilité d’accéder à la racine du domaine de votre site. Généré par défaut par la plupart des gestionnaires de contenus (CMS), il peut être créé manuellement en cas d’absence. Si la méthode manuelle vous paraît difficile à mettre en œuvre, vous pouvez toujours utiliser un outil spécifique pour le générer.
Concrètement, pour la création de ce fichier, on a tout simplement besoin d’un éditeur de texte. Vous pouvez utiliser VSCode, Sublime Text ou encore Notepad. Par ligne, vous devez insérer une seule instruction et aucune ligne ne doit rester vide.
La syntaxe à respecter
Dans les fichiers robots txt, vous verrez toujours les commandes ou les instructions suivantes :
- User-agent : Cet élément représente l’ensemble des robots d’exploration de Google et plus généralement des moteurs de recherche (Bingbot pour Bing et Googlebot pour Google par exemple).
- Disallow : Cette composante du fichier représente l’instruction qui indique que certains user-agents ont l’interdiction d’accéder à une URL ou même à un dossier.
- Allow : Dernière commande importante, Allow a pour rôle d’autoriser l’accès à une URL qui se trouve dans un dossier normalement interdit.
Voici un modèle de robots.txt qui peut vous servir de base pour la création manuelle de votre propre fichier à la racine de votre site.
Considérons le site http://www.votresite.com/
User-Agent:* (tous les robots disposent d’une autorisation d’accès)
Disallow: /intracom/ (les robots n’ont pas l’autorisation d’explorer le dossier intracom)
Disallow: /login.php (les robots n’ont pas l’autorisation d’explorer l’url http://www.votresite.com/login.php)
Allow: /*.css ?* (les robots ont l’autorisation d’accéder à toutes les ressources css).
Dans cet exemple, l’astérisque (*) assigné à User-agent signifie que la commande s’applique à tous les robots explorateurs sans distinction. Il y a également d’autres signes qu’il faut connaître avant de créer manuellement son fichier robots.txt. Vous trouverez tous les signes et toutes les ressources spécifiques à certains CMS et à certains moteurs de recherche sur le site officiel du fichier.
Y a-t-il des risques de sécurité avec le fichier robots.txt ?
Il faut savoir que tous les robots ne respectent malheureusement pas à la lettre les instructions contenues dans robots.txt. Certains choisissent de suivre leurs propres instructions s’ils les jugent plus pertinentes. En d’autres termes, le fichier n’est pas une stricte directive. Il s’agit tout simplement d’une suggestion. Mais en général, les bons bots (Googlebot par exemple) respectent toujours les consignes de robots.txt. Les mauvais bots en revanche, peuvent complètement ignorer ces instructions. Pire, ils peuvent rechercher de façon particulière les fichiers robots.txt dans le but d’accéder aux sections interdites de votre site.
Un acteur vicieux (logiciel, humain ou robot) qui essaie de trouver des informations confidentielles ou privées sur une plateforme web peut se servir de robots.txt. C’est d’ailleurs l’endroit le plus évident où il regardera en premier. Alors, pour sécuriser efficacement un site web, l’administrateur ne devrait pas utiliser spécifiquement le fichier robots.txt. Il est préférable d’utiliser d’autres solutions pour renforcer la protection des données de son site sur la toile. Pour vous prémunir des intrusions pirates, évitez de mentionner les zones sensibles de votre plateforme internet dans un document accessible tel que robots.txt.