Le blog qui vous aide à maîtriser le digital et développer votre visibilité en ligne !
401, rue des Pyrénées 75020 Paris

Comment savoir si un site a un robot TXT ?

robot TXT

Si vous avez un site web, vous devez utiliser plusieurs leviers différents pour le faire connaître. L’un des leviers les plus intéressants est certainement le référencement naturel. Si vous vous intéressez un tant soit peu au SEO, vous avez sans doute déjà entendu parler du fichier robot TXT. Indispensable pour faciliter le parcours des robots des moteurs de recherche, ce fichier a surtout vocation à leur indiquer les contenus importants exploitables.

Importance de robot TXT

Le fichier robot TXT joue un rôle prépondérant dans le référencement SEO de tous les sites internet. Les boutiques en ligne en particulier en ont besoin, car elles contiennent généralement un grand nombre d’URLs dynamiques avec des filtres de tris. C’est un fichier qui s’avère également important pour les Marketplaces et les plateformes de contenus informationnels. Mais concrètement, en quoi est-il indispensable ?

Comme son nom l’indique, le fichier robots.txt est destiné principalement aux bots des moteurs de recherches (Bingbot, Googlebot, etc.) On l’utilise souvent pour indiquer à ces programmes, les URLs à exclure de leurs explorations. C’est un fichier qui n’est normalement pas destiné aux utilisateurs. D’ailleurs, en principe, aucun internaute ne devrait y avoir accès.

Le fait qu’un robot n’accède pas à une partie de votre site ne signifie pas que les visiteurs ne sont pas autorisés à voir ces pages. En réalité, les instructions contenues dans robot TXT concernent exclusivement les robots des moteurs de recherche. Elles ne concernent pas les internautes. Par ailleurs, le fichier indique à Google et aux autres moteurs de recherche l’endroit où on peut trouver le sitemap du site. Or, le fichier sitemap joue également un grand rôle dans le référencement naturel du site.

Où trouver ce fichier ?

Toutes les plateformes web de qualité disposent forcément de ce fichier. Les agences de création site internet font le nécessaire pour que tous les fichiers requis se retrouvent dans le dossier du site de leurs clients. On remarque parfois que sur certains sites, le fichier robot TXT est absent. Dans ce cas, pour faciliter le référencement naturel, il faut penser à le créer et à bien le configurer. Si le fichier est effectivement présent sur votre site, alors vous le trouverez toujours au niveau de la racine. C’est à cet endroit qu’il doit être pour que les robots des moteurs puissent le trouver facilement. Vous pouvez vérifier sa présence effective à la racine en tapant l’adresse suivante dans votre navigateur : http://www.nomdevotresite.com/robots.txt.

Le fichier est présent si une page s’affiche avec certaines instructions. Si ce n’est pas le cas et que vous voyez une page d’erreur 404, alors c’est qu’il n’est pas présent à la racine. En outre, si vous voyez une erreur 404, les robots considèreront sans aucun doute qu’aucun contenu n’est interdit. Ils exploreront et indexeront ces contenus s’ils les jugent pertinents.

Mode de fonctionnement du fichier robot TXT

On peut résumer la mission principale des moteurs de recherche en deux points. Premièrement, ils parcourent l’intégralité du web dans le but de découvrir les contenus créés en permanence. Le deuxième point, c’est l’indexation correct de ces contenus pour que les internautes trouvent des informations pertinentes et facilement. Pour atteindre ces différents objectifs, les robots des différents moteurs doivent explorer, non pas quelques-unes, mais des milliards d’URLs sur des millions de sites web. Ces programmes analysent donc le fichier robot TXT et identifient les consignes d’exploration qu’ils devront respecter. Le fichier robots.txt est donc un élément que Googlebot et Bingbot consultent régulièrement.

Les instructions sont de différentes natures. Mais globalement, elles permettent de s’assurer que certaines pages, celles voulues, ne soient pas explorées. Elles autorisent l’indexation des pages. Il ne faut toutefois pas se tromper sur le rôle de robots.txt. Ce fichier n’a pas pour objectif de gérer l’indexation des pages d’un site. Si vous avez des pages que vous ne souhaitez pas faire indexer, il vaut mieux utiliser la balise noindex.

Comment tester le fichier robot TXT ?

Connaître l’intérêt du fichier robots.txt et son emplacement sur un site web, cela ne suffit pas. Il faut aussi pouvoir le tester pour savoir si les robots pourront l’exploiter convenablement. Certaines entreprises proposent des outils de test. La société Google aussi dispose d’un puissant outil qui fonctionne de la même façon de son robot Googlebot. N’hésitez pas à l’utiliser pour explorer votre fichier robots.txt.

Premièrement, ouvrez l’outil de test pour votre nom de domaine et faites défiler le code de votre fichier pour atteindre les erreurs de logique trouvées. Vous trouverez aussi, selon le cas, plusieurs avertissements en lien avec la syntaxe. Deuxièmement, vous devez saisir l’URL d’une page de votre site dans la zone d’édition en bas de la page. Dans la liste déroulante située du côté droit de la zone de texte, sélectionnez ensuite les user-agent que vous voulez tester ou simuler. Cliquez sur « TESTER » pour constater l’accès. A cette étape, vérifiez aussi si le bouton « TESTER » indique la mention « Bloquée » ou « Acceptée ». Si vous voyez la mention « Bloquée », c’est que les robots d’exploration ne peuvent probablement pas explorer cette URL. Si en revanche vous voyez « Acceptée », cela veut dire que les robots peuvent explorer l’URL.

Vous pouvez modifier le fichier robot TXT sur la page de test et tester à nouveau l’accès. Cependant, ces modifications ne sont pas enregistrées sur votre site. Seul l’outil de test les prend en compte. Toutefois, après avoir effectué le test, vous pouvez copier les modifications et les coller dans le fichier robots.txt de votre site.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *