Vous connaissez le terme robots.txt et vous vous demandez comment il s’applique à votre site Web ? La plupart des sites Web ont un fichier robots.txt, mais cela ne signifie pas que la plupart des webmasters le comprennent. Dans cet article, nous espérons changer cela en offrant une plongée en profondeur dans le fichier robots.txt de WordPress, ainsi que la façon dont il peut contrôler et limiter l’accès à votre site. À la fin, vous serez en mesure de répondre à des questions comme :

Il y a beaucoup à couvrir, alors commençons !

Qu’est-ce qu’un Robots.txt WordPress ?

Avant de parler du fichier robots.txt de WordPress, il est important de définir ce qu’est un « robot » dans ce cas. Les robots sont tous les types de « bot » qui visitent des sites Web sur Internet. L’exemple le plus courant est celui des robots des moteurs de recherche. Ces robots « parcourent » le Web pour aider les moteurs de recherche comme Google à indexer et à classer les milliards de pages sur Internet.

Ainsi, les robots sont, en général, une bonne chose pour l’Internet… ou du moins une chose nécessaire. Mais cela ne signifie pas nécessairement que vous, ou d’autres webmasters, voulez que les bots circulent sans entraves. Le désir de contrôler la façon dont les robots Web interagissent avec les sites Web a mené à la création de la norme d’exclusion des robots au milieu des années 1990. Robots.txt est l’implémentation pratique de ce standard – il vous permet de contrôler comment les robots participants interagissent avec votre site. Vous pouvez bloquer entièrement les robots, restreindre leur accès à certaines zones de votre site, et plus encore.

Cette partie  » participante  » est importante. Cependant, le robots.txt ne peut pas forcer un bot à suivre ses directives. Et les robots malveillants peuvent ignorer le fichier robots.txt et le feront. De plus, même les organisations les plus réputées ignorent certaines commandes que vous pouvez mettre dans Robots.txt. Par exemple, Google ignorera toutes les règles que vous ajoutez à votre fichier robots.txt concernant la fréquence de visite de ses robots. Si vous avez beaucoup de problèmes avec les robots, une solution de sécurité comme Cloudflare ou Sucuri peut vous être utile.

Pourquoi devriez-vous vous soucier de votre fichier Robots.txt ?

Pour la plupart des webmasters, les avantages d’un fichier robots.txt bien structuré se résument à deux catégories :

  • Optimiser les ressources des moteurs de recherche en leur disant de ne pas perdre de temps sur les pages que vous ne voulez pas indexées. Cela permet de s’assurer que les moteurs de recherche se concentrent sur l’exploration des pages qui vous tiennent le plus à cœur.
  • Optimiser l’utilisation de votre recherche en bloquant les robots qui gaspillent les ressources de votre serveur.

Le robots.txt n’est pas utile que pour le contrôle des pages qui sont indexées dans les moteurs de recherche

Le robots.txt n’est pas un moyen infaillible de contrôler l’indexation des pages dans les moteurs de recherche. Si votre but premier est d’empêcher certaines pages d’être incluses dans les résultats des moteurs de recherche, la bonne approche consiste à utiliser une balise meta noindex ou une autre méthode directe similaire.

C’est parce que votre Robots.txt ne dit pas directement aux moteurs de recherche de ne pas indexer le contenu – il leur dit simplement de ne pas le parcourir. Même si Google ne parcourt pas les zones marquées à l’intérieur de votre site, Google lui-même déclare que si un site externe renvoie vers une page que vous excluez avec votre fichier Robots.txt, Google peut quand même indexer cette page.

John Mueller, un analyste de Google Webmaster, a également confirmé que si une page a des liens pointés vers elle, même si elle est bloquée par robots.txt, peut quand même être indexée. Voici ce qu’il avait à dire dans une rencontre Webmaster Central :

Une chose qu’il faut peut-être garder à l’esprit ici est que si ces pages sont bloquées par le robots.txt, alors il pourrait théoriquement arriver que quelqu’un fasse un lien aléatoire vers l’une de ces pages. Et s’ils le font, il peut arriver que nous indexions cette URL sans aucun contenu car elle est bloquée par le robots.txt. Nous ne saurions donc pas que vous ne voulez pas que ces pages soient indexées.

Alors que s’ils ne sont pas bloqués par le robots.txt, vous pouvez mettre une balise meta noindex sur ces pages. Et si quelqu’un fait un lien vers eux, et que nous parcourons ce lien et pensons qu’il y a peut-être quelque chose d’utile ici, nous saurions que ces pages n’ont pas besoin d’être indexées et que nous pouvons simplement les ignorer complètement.

Donc, à cet égard, si vous avez quelque chose sur ces pages que vous ne voulez pas faire indexer, alors ne les interdisez pas, utilisez plutôt noindex.

Comment créer et modifier votre fichier Robots.txt WordPress

Par défaut, WordPress crée automatiquement un fichier robots.txt virtuel pour votre site. Donc, même si vous ne levez pas le petit doigt, votre site devrait déjà avoir le fichier robots.txt par défaut. Vous pouvez tester si c’est le cas en ajoutant « /robots.txt » à la fin de votre nom de domaine. Par exemple, « https://kinsta.com/robots.txt » fait apparaître le fichier robots.txt que nous utilisons ici chez Kinsta :

Exemple d'un fichier Robots.txt

Exemple d’un fichier Robots.txt

Comme ce fichier est virtuel, vous ne pouvez pas le modifier. Si vous voulez éditer votre fichier robots.txt, vous devrez créer un fichier physique sur votre serveur que vous pourrez manipuler si nécessaire. Voici trois façons simples de le faire…

Comment créer et modifier un fichier Robots.txt avec Yoast SEO

Si vous utilisez le populaire plugin de SEO Yoast, vous pouvez créer (et modifier plus tard) votre fichier robots.txt directement depuis l’interface de Yoast. Avant de pouvoir y accéder, cependant, vous devez activer les fonctions avancées de Yoast SEO en allant sur SEO → Tableau de bord → Fonctionnalités et en activant sur les “pages de paramètres avancés” :

Comment activer les fonctions avancées de Yoast

Comment activer les fonctions avancées de Yoast

Une fois que c’est activé, vous pouvez aller sur SEO → Outils et cliquer sur Éditeur de fichier :

Comment accéder à l'éditeur de fichier de Yoast

Comment accéder à l’éditeur de fichier de Yoast

En supposant que vous n’avez pas déjà un fichier robots.txt physique, Yoast vous donnera une option pour Créer un fichier robots.txt :

Comment créer un Robots.txt dans Yoast

Comment créer un Robots.txt dans Yoast

Et une fois que vous aurez cliqué sur ce bouton, vous pourrez éditer le contenu de votre fichier Robots.txt directement depuis la même interface :

Comment éditer le fichier Robots.txt dans Yoast

Comment éditer le fichier Robots.txt dans Yoast

Au fur et à mesure de votre lecture, nous approfondirons les types de directives à mettre dans votre fichier robots.txt WordPress.

Comment créer et modifier un fichier Robots.txt avec All In One SEO

Si vous utilisez le plugin All In One SEO Pack, presque aussi populaire que Yoast, vous pouvez également créer et modifier votre fichier robots.txt WordPress directement depuis l’interface du plugin. Tout ce que vous avez à faire est d’aller sur All in One SEO → Feature Manager et d’activer la fonction Robots.txt :

Comment créer un Robots.txt dans All In One SEO

Comment créer un Robots.txt dans All In One SEO

Ensuite, vous pourrez gérer votre fichier Robots.txt en allant sur All in One SEO → Robots.txt :

Comment éditer le Robots.txt dans All In One SEO

Comment éditer le Robots.txt dans All In One SEO

Comment créer et modifier un fichier Robots.txt via FTP

Si vous n’utilisez pas un plugin SEO qui offre la fonctionnalité de robots.txt, vous pouvez toujours créer et gérer votre fichier robots.txt via SFTP. Tout d’abord, utilisez n’importe quel éditeur de texte pour créer un fichier vide nommé « robots.txt » :

Comment créer votre propre fichier Robots.txt

Comment créer votre propre fichier Robots.txt

Ensuite, connectez-vous à votre site via SFTP et téléchargez ce fichier dans le dossier racine de votre site. Vous pouvez apporter d’autres modifications à votre fichier robots.txt en le modifiant via SFTP ou en envoyant de nouvelles versions du fichier.

Que mettre dans votre fichier Robots.txt

Ok, maintenant vous avez un fichier robots.txt physique sur votre serveur que vous pouvez modifier selon vos besoins. Mais que faites-vous réellement de ce fichier ? Eh bien, comme vous l’avez appris dans la première section, le robots.txt vous permet de contrôler comment les robots interagissent avec votre site. Vous le faites avec deux commandes principales :

  • User-agent – ceci vous permet de cibler des robots spécifiques. Les agents utilisateurs sont ce que les robots utilisent pour s’identifier. Avec eux, vous pourriez, par exemple, créer une règle qui s’applique à Bing, mais pas à Google.
  • Disallow – ceci vous permet de dire aux robots de ne pas accéder à certaines zones de votre site.

Il y a aussi une commande Allow que vous utiliserez dans les situations de niche. Par défaut, tout ce qui se trouve sur votre site est marqué par Allow, il n’est donc pas nécessaire d’utiliser la commande Allow dans 99% des cas. Mais cela peut s’avérer utile lorsque vous souhaitez interdire l’accès à un dossier et à ses dossiers enfants, mais autoriser l’accès à un dossier enfant spécifique.

Vous ajoutez des règles en spécifiant d’abord à quel User-agent la règle doit s’appliquer, puis en énumérant les règles à appliquer à l’aide de Disallow et Allow. Il y a aussi d’autres commandes comme Crawl-delay et Sitemap, mais elles sont soit :

  • Ignorées par la plupart des crawlers, ou interprétées de manières très différentes (dans le cas d’un retard de crawl)
  • Rendues redondantes par des outils comme Google Search Console (pour les sitemaps)

Passons en revue quelques cas d’utilisation spécifiques pour vous montrer comment tout cela s’articule.

Comment utiliser le Robots.txt pour bloquer l’accès à votre site entier

Supposons que vous vouliez bloquer l’accès de tous les robots d’exploration à votre site. Il est peu probable que cela se produise sur un site en ligne, mais cela peut s’avérer utile pour un site de développement. Pour ce faire, vous devez ajouter ce code à votre fichier robots.txt WordPress :

User-agent: *
Disallow: /

Que se passe-t-il dans ce code ?

L’astérisque * à côté de User-agent signifie « tous les agents utilisateurs ». L’astérisque est un caractère de remplacement, ce qui signifie qu’il s’applique à chaque agent utilisateur. Le / (slash) à côté de Disallow indique que vous voulez interdire l’accès à toutes les pages qui contiennent « votredomaine.com/ ». (ce qui correspond à chaque page de votre site).

Comment utiliser le Robots.txt pour empêcher un seul robot d’accéder à votre site

Changeons les choses. Dans cet exemple, nous allons prétendre que vous n’aimez pas le fait que Bing parcourt vos pages. Vous êtes un Pro Google dans tous les cas et vous ne voulez même pas que Bing regarde votre site. Pour empêcher seulement Bing de crawler votre site, vous devez remplacer le caractère générique *astérisque par Bingbot :

User-agent: Bingbot
Disallow: /

Le code ci-dessus dit d’appliquer seulement la règle Disallow aux bots avec l’ User-agent « Bingbot ». Maintenant, il est peu probable que vous souhaitiez bloquer l’accès à Bing – mais ce scénario s’avère utile s’il y a un bot spécifique que vous ne voulez pas autoriser sur votre site. Ce site contient une bonne liste de la plupart des noms d’User-agent connus du service.

Comment utiliser Robots.txt pour bloquer l’accès à un dossier ou un fichier spécifique

Pour cet exemple, disons que vous voulez seulement bloquer l’accès à un fichier ou dossier spécifique (et à tous les sous-dossiers de ce dossier). Pour que cela s’applique à WordPress, disons que vous voulez bloquer :

  • Tout le dossier wp-admin
  • wp-login.php

Vous pouvez utiliser les commandes suivantes :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Comment utiliser le Robots.txt pour autoriser l’accès à un fichier spécifique dans un dossier non autorisé

Ok, disons maintenant que vous voulez bloquer un dossier entier, mais que vous voulez quand même autoriser l’accès à un fichier spécifique dans ce dossier. C’est là que la commande Allow est utile. Et c’est en fait très applicable à WordPress. En fait, le fichier robots.txt virtuel de WordPress illustre parfaitement cet exemple :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Cet extrait bloque l’accès à tout le répertoire /wp-admin/ à l’exception du fichier /wp-admin/admin-ajax.php.

Comment utiliser le Robots.txt pour empêcher les bots de crawler vos résultats de recherche WordPress

Une modification spécifique à WordPress que vous pourriez vouloir faire est d’empêcher les robots de recherche d’explorer vos pages de résultats de recherche. Par défaut, WordPress utilise le paramètre de requête « ?s= ». Pour bloquer l’accès, il vous suffit donc d’ajouter la règle suivante :

Vous avez des problèmes de temps d'indisponibilité et de WordPress ? Kinsta est la solution d'hébergement conçue pour vous faire gagner du temps ! Découvrez nos fonctionnalités
User-agent: *
Disallow: /?s=
Disallow: /search/

Ceci peut être un moyen efficace d’arrêter également les erreurs 404 si vous les obtenez.

Comment créer des règles différentes pour différents Bots dans le Robots.txt

Jusqu’à présent, tous les exemples ont traité une règle à la fois. Mais que faire si vous voulez appliquer des règles différentes à des robots différents ? Vous n’avez qu’à ajouter chaque ensemble de règles sous la déclaration User-agent pour chaque bot. Par exemple, si vous voulez faire une règle qui s’applique à tous les robots et une autre qui s’applique uniquement à Bingbot, vous pouvez le faire comme ceci :

User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /

Dans cet exemple, tous les robots seront bloqués pour accéder à /wp-admin/, mais Bingbot sera bloqué pour accéder à votre site entier.

Test de votre fichier Robots.txt

Vous pouvez tester votre fichier robots.txt WordPress dans la Google Search Console pour vous assurer qu’il est correctement configuré. Cliquez simplement sur votre site, et sous « Crawl » cliquez sur « robots.txt Tester ». Vous pouvez ensuite soumettre n’importe quelle URL, y compris votre page d’accueil. Vous devriez voir un vert Autorisé si tout est indexable (ou crawlable). Vous pouvez également tester les URLs que vous avez bloquées pour vous assurer qu’elles sont effectivement bloquées et/ou interdites.

Tester le fichier robots.txt

Tester le fichier robots.txt

Méfiez-vous de la nomenclature UTF-8

BOM est l’abréviation de “byte order mark” et est un caractère invisible qui est parfois ajouté aux fichiers par d’anciens éditeurs de texte, etc. Si cela arrive à votre fichier robots.txt, Google pourrait ne pas le lire correctement. C’est pourquoi il est important de vérifier si votre fichier contient des erreurs. Par exemple, comme on le voit ci-dessous, notre fichier avait un caractère invisible et Google se plaint que la syntaxe ne soit pas comprise. Ceci invalide essentiellement la première ligne de notre fichier robots.txt, ce qui n’est pas bon ! Glenn Gabe a un excellent article sur la façon dont un Bom UTF-8 pourrait tuer votre SEO.

Nomenclature UTF-8 dans votre fichier robots.txt

Nomenclature UTF-8 dans votre fichier robots.txt

Googlebot est principalement basé aux États-Unis

Il est également important de ne pas bloquer le Googlebot des États-Unis, même si vous visez une région locale en dehors des États-Unis. Ils font parfois des recherches locales, mais Googlebot est surtout basé aux États-Unis.

Ce que les sites WordPress populaires mettent dans leur fichier Robots.txt

Afin de fournir un certain contexte pour les points énumérés ci-dessus, voici comment certains des sites WordPress les plus populaires utilisent leurs fichiers robots.txt.

TechCrunch

Fichier Robots.txt de TechCrunch

Fichier Robots.txt de TechCrunch

En plus de restreindre l’accès à un certain nombre de pages uniques, TechCrunch interdit notamment ceci aux robots d’exploration :

  • /wp-admin/
  • /wp-login.php

Ils ont également imposé des restrictions spéciales pour deux robots :

  • Swiftbot
  • IRLbot

Au cas où vous seriez intéressé, IRLbot est un crawler de Texas A&M University research project. C’est étrange !

La Fondation Obama

Fichier Robots.txt de la Fondation Obama

Fichier Robots.txt de la Fondation Obama

La Fondation Obama n’a pas fait d’ajouts spéciaux, choisissant exclusivement de restreindre l’accès à /wp-admin/.

Angry Birds

Fichier Robots.txt de Angry Birds

Fichier Robots.txt de Angry Birds

Angry Birds a la même configuration par défaut que The Obama Foundation. Rien de spécial n’est ajouté.

Drift

Fichier Robots.txt de Drift

Fichier Robots.txt de Drift

Enfin, Drift choisit de définir ses sitemaps dans le fichier Robots.txt, mais sinon, laisse les mêmes restrictions par défaut que La Fondation Obama et Angry Birds.

Utilisez le Robots.txt de la bonne façon

Alors que nous terminons notre guide du robots.txt, nous voulons vous rappeler une fois de plus que l’utilisation d’une commande Disallow dans votre fichier robots.txt n’est pas la même chose qu’une balise noindex. Le Robots.txt bloque le crawl, mais pas forcément l’indexation. Vous pouvez l’utiliser pour ajouter des règles spécifiques pour déterminer comment les moteurs de recherche et autres robots interagissent avec votre site, mais il ne contrôlera pas explicitement si votre contenu est indexé ou non.

Pour la plupart des utilisateurs occasionnels de WordPress, il n’est pas urgent de modifier le fichier robots.txt virtuel par défaut. Mais si vous avez des problèmes avec un bot spécifique, ou si vous voulez changer la façon dont les moteurs de recherche interagissent avec un certain plugin ou thème que vous utilisez, vous voudrez peut-être ajouter vos propres règles.

Nous espérons que ce guide vous a plu et n’hésitez pas à nous laisser un commentaire si vous avez d’autres questions sur l’utilisation de votre fichier robots.txt WordPress.