Robots.txt : Google clarifie sa position

Ecrit par

Cette année sont célébrés les 25 ans du fichier robots.txt. A cette occasion, Google propose une standardisation des normes du protocole d’exclusion des robots (REP) et clarifie sa position quant à certaines règles non-documentées et mal supportées.

Robots.txt Google

 

Le fichier robots.txt : quelle est son utilité ?

Utilisé par un grand nombre de sites internet, le fichier robots.txt est un document se trouvant à la racine d’un site web. Aussi, lorsqu’un robot est en charge de crawler un site, il vérifie en premier lieu l’existence de ce fichier et le cas échéant, essaye de l’interpréter. Le fichier robots.txt est donc destiné à définir quelles règles doivent suivre ces crawlers lors de l’analyse des pages d’un site et les aider à comprendre ce qu’ils peuvent faire ou non.

Le robots.txt est utile pour les webmasters car il leur permet de bloquer le crawl de certaines pages ou dossiers qui ne sont pas censés être vus et accessibles à tous les utilisateurs à travers l’indexation.

Il s’agit donc d’un outil indispensable à maîtriser dans une stratégie SEO car il permet notamment d’indiquer aux robots de Google les pages à visiter. Il économise ainsi du budget de crawl, en envoyant le Googlebot vers les pages pertinentes uniquement.

 

L’annonce de Google : standardisation et clarification

Existant depuis 1994, le robots.txt n’a pourtant jamais fait l’objet d’une standardisation et a donc été interprété de différentes manières par les moteurs et les webmasters. Ce mois de juillet, Google a annoncé sur son blog vouloir faire évoluer la situation par le biais de diverses annonces :

  • Une proposition de standardisation auprès de l’IETF (Internet Engineering Task Force) qui doit être débattue
  • L’arrêt de la prise en compte de certaines règles par le Googlebot

En effet, après analyse des usages du robots.txt, Google a annoncé le retrait dès le 1er septembre 2019, de codes non supportés et jamais documentés, à savoir :

  • Crawl-delay : indiquer le temps entre deux requêtes successives d’un bot
  • Noindex : interdire l’indexation d’un contenu
  • Nofollow : ne pas prendre en compte les liens

Ces règles dans le robots.txt pouvaient entrer en contradiction avec d’autres. Des erreurs qui pouvaient impacter négativement la présence des sites dans l’index Google.

 

Suppression du Noindex dans le robots.txt : quels impacts en SEO ? Comment éviter l’indexation des pages sur Google ?

L’annonce qui a fait le plus de remous dans la communauté SEO est certainement celle de l’arrêt du Noindex. Google propose donc plusieurs alternatives pour contrôler le crawl et l’indexation :

  • Intégrer le Noindex dans les métas tags de la page concernée : Insérer une directive noindex dans les en-têtes de réponses http et HTML. Cela reste l’alternative la plus efficace pour supprimer des URL de l’index quand le crawl est autorisé
  • Utiliser l’outil de suppression d’URL de la Google Search Console pour supprimer temporairement une URL des résultats de recherche
  • Utiliser les codes de statuts 404 et 410 : ces codes impliquent que la page n’existe pas et permettent donc de supprimer les URLs concernées de l’index Google
  • Utiliser le système de mot de passe : les pages nécessitant un identifiant pour être consultées seront généralement supprimées de l’index de Google (excepté pour les pages soumises à un paywall ou accessibles par abonnement, indiquées via des données structurées spécifiques)
  • Utiliser la fonction disallow directement dans le fichier robots.txt: les moteurs de recherche n’indexent que les pages dont ils ont la connaissance. Donc bloquer des pages à l’indexation signifie qu’elles ne seront normalement pas indexées. Néanmoins Google concède qu’il indexe parfois des URLs en fonction des liens reçues par d’autres pages, sans pouvoir en voir le contenu : le moteur de recherche indique vouloir diminuer ce type de résultats.

Metadescription non disponible à cause du fichier robots.txt (disallow)

Source : Search Engine Land

 

Conclusion

Ces annonces ont un certain impact et si vous utilisez l’une de ces règles dans le robots.txt, il sera nécessaire de trouver une alternative. Les experts SEO d’Activis sauront vous conseiller pour optimiser au mieux votre indexation sur Google.

 

Ecrit par
Nadia YAHYABEY
Consultante Marketing Digital
Consulter d'autres articles