Si vous vous êtes aventuré dans l’administration de WordPress, vous avez peut-être remarqué un réglage indiquant « Demander aux moteurs de recherche de ne pas indexer ce site » et vous vous êtes demandé ce que cela signifiait.

Ou peut-être cherchez-vous un moyen de cacher votre site aux visiteurs indésirables et vous demandez-vous si cette petite case à cocher est suffisante pour préserver la confidentialité de votre contenu.

Que signifie cette option ? Que fait-elle exactement à votre site ? Et pourquoi devriez-vous éviter de vous y fier – même si vous essayez de cacher votre contenu ?

Voici les réponses et quelques autres méthodes pour désindexer votre site et bloquer l’accès à certaines pages.

Consultez notre guide vidéo sur l’utilisation de l’option « Demander aux moteurs de recherche de ne pas indexer ce site » dans WordPress.

Que signifie « Demander aux moteurs de recherche de ne pas indexer ce site » ?

Vous êtes-vous déjà demandé comment les moteurs de recherche indexent votre site et évaluent votre référencement ? Ils le font à l’aide d’un programme automatisé appelé « spider », également connu sous le nom de « robot » ou « crawler ». Les robots « crawlent » sur le web, visitent les sites et enregistrent tout leur contenu.

Google les utilise pour décider du classement et de l’emplacement de votre site web dans les résultats de recherche, pour récupérer des extraits de vos articles pour la page de résultats de recherche et pour intégrer vos images dans Google Images.

Lorsque vous cochez la case « Demander aux moteurs de recherche de ne pas indexer ce site », WordPress modifie votre fichier robots.txt (un fichier qui donne des instructions aux robots sur la façon d’explorer votre site). Il peut également ajouter une balise méta à l’en-tête de votre site qui indique à Google et aux autres moteurs de recherche de n’indexer aucun contenu sur l’ensemble de votre site.

Le mot clé ici est « décourager » : Les moteurs de recherche n’ont aucune obligation d’honorer cette demande, en particulier les moteurs de recherche qui n’utilisent pas la syntaxe standard robots.txt que Google utilise.

Les robots d’exploration pourront toujours trouver votre site, mais les robots correctement configurés liront votre fichier robots.txt et partiront sans indexer le contenu ni l’afficher dans leurs résultats de recherche.

Dans le passé, cette option de WordPress n’empêchait pas Google d’afficher votre site web dans les résultats de recherche, mais seulement d’indexer son contenu. Vous pouviez encore voir vos pages apparaître dans les résultats de recherche avec une erreur du type « Aucune information n’est disponible pour cette page » ou « Une description pour ce résultat n’est pas disponible en raison du fichier robots.txt du site. »

Bien que Google n’ait pas indexé la page, il ne l’a pas non plus entièrement masquée. Cette anomalie a permis à des personnes de visiter des pages qu’elles n’étaient pas censées voir. Grâce à WordPress 5.3, le système fonctionne désormais correctement, bloquant à la fois l’indexation et le référencement du site.

Vous pouvez imaginer comment cela détruirait votre SEO si vous l’activiez par accident. Il est essentiel de n’utiliser cette option que si vous voulez vraiment que personne ne voie votre contenu – et même dans ce cas, ce n’est peut-être pas la seule mesure que vous souhaitez prendre.

Pourquoi ne pas indexer votre site ?

Les sites web sont faits pour être vus par des gens. Vous voulez que les utilisateurs lisent vos articles, achètent vos produits, consomment votre contenu – pourquoi essayeriez-vous intentionnellement de bloquer les moteurs de recherche ?

Il existe plusieurs raisons pour lesquelles vous pouvez vouloir masquer une partie ou la totalité de votre site.

  • Votre site est en cours de développement et n’est pas prêt à être vu par le public.
  • Vous utilisez WordPress comme système de gestion de contenu, mais vous souhaitez que ce contenu reste privé.
  • Vous essayez de cacher des informations sensibles.
  • Vous voulez que votre site ne soit accessible qu’à un petit nombre de personnes grâce à un lien ou par le biais d’invitations uniquement, et non par les pages de recherche publiques.
  • Vous souhaitez placer certains contenus derrière un mur payant ou une autre barrière, comme les articles exclusifs à la newsletter.
  • Vous voulez couper le trafic vers les articles anciens et périmés.
  • Vous voulez éviter d’obtenir des pénalités de référencement sur des pages de test ou du contenu dupliqué.

Il existe de meilleures solutions pour certaines d’entre elles – utiliser un serveur de développement hors ligne approprié, définir vos articles comme privés ou les placer derrière un mot de passe – mais il existe des raisons légitimes pour lesquelles vous pouvez vouloir désindexer une partie ou la totalité de votre site.

Comment vérifier si votre site refuse les moteurs de recherche ?

Bien que vous puissiez avoir des raisons légitimes de désindexer votre site, ce peut être un choc horrible d’apprendre que vous avez activé ce réglage sans le vouloir ou que vous l’avez laissé activé par accident. Si vous ne recevez aucun trafic et que vous pensez que votre site n’est pas indexé, voici comment le confirmer.

Un moyen simple consiste à cocher la case D’un coup d’œil située sur l’écran d’accueil de votre tableau de bord d’administration. Il suffit de se connecter à votre administration et de cocher la case. Si vous voyez « Moteurs de recherche refusés », vous savez que vous avez activé ce réglage.

« D’un coup d’œil » dans le tableau de bord de WordPress.
« D’un coup d’œil » dans le tableau de bord de WordPress.

Un moyen encore plus fiable consiste à vérifier votre fichier robots.txt. Vous pouvez facilement le vérifier dans le navigateur sans même vous connecter à votre site.

Pour vérifier le fichier robots.txt, il suffit d’ajouter /robots.txt à la fin de l’URL de votre site. Par exemple : https://kinsta.com/robots.txt

Si vous voyez Disallow : /, l’indexation de l’ensemble de votre site est bloquée.

« Disallow » dans robots.txt.
« Disallow » dans robots.txt.

Si vous voyez Disallow: suivi d’un chemin URL, comme Disallow: /wp-admin/, cela signifie que toute URL contenant le chemin /wp-admin/ est bloquée. Cette structure est normale pour certaines pages, mais si, par exemple, elle bloque /blog/ qui contient des pages que vous souhaitez indexer, cela peut poser des problèmes !

Maintenant que WordPress utilise les balises méta plutôt que le fichier robots.txt pour désindexer votre site, vous devez également vérifier si votre en-tête a été modifié.

Connectez-vous à votre administration et allez dans Apparence > Éditeur de thème. Trouvez l’en-tête du thème (header.php) et recherchez le code suivant :

<meta name='robots' content='noindex,nofollow' />
noindex, nofollow dans header.php.
noindex, nofollow dans header.php.

Vous pouvez également rechercher la balise noindex dans functions.php, car il est possible d’insérer du code à distance dans l’en-tête par le biais de ce fichier.

Si vous trouvez ce code dans les fichiers de votre thème, c’est que votre site n’est pas indexé par Google. Mais plutôt que de le supprimer manuellement, essayons d’abord de désactiver le réglage d’origine.

Comment décourager l’indexation par les moteurs de recherche dans WordPress

Si vous voulez sauter les étapes supplémentaires et aller directement au réglage original, voici comment activer ou désactiver l’option « Demander aux moteurs de recherche de ne pas indexer ce site » dans WordPress.

Connectez-vous à votre tableau de bord WordPress et accédez à Réglages > Lecture. Recherchez l’option Visibilité par les moteurs de recherche avec une case à cocher intitulée « Demander aux moteurs de recherche de ne pas indexer ce site ».

Case à cocher pour la visibilité dans les moteurs de recherche.
Case à cocher pour la visibilité dans les moteurs de recherche.

Si vous constatez que cette option est déjà activée et que vous souhaitez que votre site soit indexé, décochez-la. Si vous voulez empêcher l’indexation de votre site, cochez-la (et notez quelque part de la désactiver plus tard !)

Cliquez ensuite sur Enregistrer les modifications, et c’est parti. Il peut s’écouler un certain temps avant que votre site soit ré-indexé ou qu’il soit retiré des résultats de recherche.

Si votre site est toujours désindexé, vous pouvez également supprimer le code noindex de votre fichier d’en-tête, ou modifier manuellement le fichier robots.txt pour supprimer « Disallow ».

C’est assez simple, mais quelles sont les raisons pour lesquelles vous devriez éviter cette option, ou du moins ne pas vous y fier entièrement ?

Inconvénients de l’utilisation de l’option Décourager les moteurs de recherche

Cela semble simple – cochez une case et personne ne pourra voir votre site. N’est-ce pas suffisant ? Pourquoi devriez-vous éviter d’utiliser cette option seule ?

Lorsque vous activez ce réglage ou toute autre option similaire, tout ce que cela fait est d’ajouter une balise à votre en-tête ou à votre fichier robots.txt. Comme le montre le fait que les anciennes versions de WordPress permettent encore à votre site d’apparaître dans les résultats de recherche, un petit problème ou une autre erreur peut faire en sorte que des personnes voient vos pages censées être cachées.

En outre, il appartient entièrement aux moteurs de recherche d’honorer la demande de ne pas explorer votre site. Les principaux moteurs de recherche comme Google et Bing le font généralement, mais tous les moteurs de recherche n’utilisent pas la même syntaxe robots.txt et tous les robots qui explorent le web ne sont pas envoyés par les moteurs de recherche.

Par exemple, un service qui utilise des robots d’indexation est la Wayback Machine. Et si votre contenu est indexé par un tel service, il est sur le web pour toujours.

Wayback Machine.
Wayback Machine.

Vous pensez peut-être que le fait que votre tout nouveau site ne comporte aucun lien le met à l’abri des robots, mais ce n’est pas vrai. L’existence d’un serveur partagé, l’envoi d’un e-mail contenant un lien vers votre site web, ou même la visite de votre site dans un navigateur (en particulier Chrome) peuvent exposer votre site à l’exploration.

Si vous souhaitez masquer du contenu, il n’est pas judicieux d’ajouter un paramètre et d’espérer qu’il fera l’affaire.

Et soyons clairs, si le contenu que vous désindexez est de nature sensible ou personnelle, vous ne devez absolument pas compter sur robots.txt ou une balise méta pour le cacher.

Enfin, cette option permet de masquer entièrement votre site aux moteurs de recherche, alors que bien souvent, vous ne souhaitez désindexer que certaines pages.

Que devriez-vous donc faire à la place ou en parallèle de cette méthode ?

Autres moyens d’éviter l’indexation par les moteurs de recherche

Bien que l’option fournie par WordPress fasse généralement l’affaire, dans certaines situations, il est souvent préférable d’employer d’autres méthodes pour masquer le contenu. Google lui-même recommande de ne pas utiliser le fichier robots.txt pour cacher des pages.

Tant que votre site a un nom de domaine et se trouve sur un serveur public, il n’y a aucun moyen de garantir que votre contenu ne sera pas vu ou indexé par les robots d’exploration, à moins de le supprimer ou de le cacher derrière un mot de passe ou une exigence de connexion.

Cela dit, quels sont les meilleurs moyens de masquer votre site ou certaines de ses pages ?

Bloquer les moteurs de recherche avec .htaccess

Bien que sa mise en œuvre soit fonctionnellement la même que celle de l’option « Décourager les moteurs de recherche », vous pouvez utiliser manuellement le fichier .htaccess pour bloquer l’indexation de votre site.

Vous devez utiliser un programme FTP/SFTP pour accéder à votre site et ouvrir le fichier .htaccess, généralement situé dans le répertoire racine (le premier répertoire que vous voyez lorsque vous ouvrez votre site) ou dans public_html. Ajoutez ce code au fichier et enregistrez :

Header set X-Robots-Tag "noindex, nofollow"

Note : Cette méthode ne fonctionne que pour les serveurs Apache. Les serveurs NGINX, tels que ceux fonctionnant sur Kinsta, devront ajouter ce code au fichier .conf, qui se trouve dans /etc/nginx/ (vous trouverez ci-dessous un exemple de mise en œuvre des balises méta) :

add_header X-Robots-Tag "noindex, nofollow";

Protection par mot de passe des pages sensibles

Si vous ne souhaitez pas que les moteurs de recherche indexent certains articles ou certaines pages, la meilleure façon de les cacher est de protéger votre site par un mot de passe. De cette façon, seuls vous et les utilisateurs que vous souhaitez pourront voir ce contenu.

Heureusement, cette fonctionnalité est intégrée à WordPress, il n’est donc pas nécessaire d’installer d’extension. Il suffit d’aller dans la section Pages ou Articles et de cliquer sur ce que vous voulez masquer. Modifiez votre page et recherchez le menu État et visibilité > Visibilité sur le côté droit.

Si vous n’utilisez pas Gutenberg, le processus est similaire. Vous trouverez le même menu dans la boîte de publication.

Changez la Visibilité en Protégé par mot de passe et saisissez un mot de passe, puis enregistrez – et votre contenu est maintenant caché du grand public.

Définir un article comme étant protégé par un mot de passe.
Définir un article comme étant protégé par un mot de passe.

Que faire si vous souhaitez protéger l’ensemble de votre site par un mot de passe ? Il n’est pas pratique d’exiger un mot de passe pour chaque page.

Les utilisateurs de Kinsta ont de la chance : vous pouvez activer la protection par mot de passe dans Sites > Outils, ce qui nécessite un identifiant et un mot de passe.

Sinon, vous pouvez utiliser une extension de restriction de contenu (par exemple, Password Protected). Veuillez l’installer et l’activer, puis allez dans Réglages > Protection par mot de passe et activez le Statut de protection par mot de passe. Cela vous donne un contrôle plus fin, vous permettant même de mettre certaines adresses IP sur une liste autorisée.

Définir un article comme étant protégé par un mot de passe.
Définir un article comme étant protégé par un mot de passe.

Installer un plugin WordPress

Lorsque les fonctionnalités par défaut de WordPress ne suffisent pas, une bonne extension peut souvent résoudre vos problèmes.

Par exemple, si vous souhaitez désindexer des pages spécifiques plutôt que l’ensemble de votre site, Yoast propose cette option.

Dans Yoast SEO, vous pouvez ouvrir la page que vous souhaitez masquer et rechercher l’option sous l’onglet Avancé : Autoriser les moteurs de recherche à afficher cet article dans les résultats de recherche ? Changez-la en Non et la publication sera masquée.

Réglages de Yoast SEO
Réglages de Yoast SEO

Vous devez noter que ces deux méthodes reposent sur les mêmes méthodes que l’option par défaut de WordPress pour décourager l’indexation par les moteurs de recherche, et sont sujettes aux mêmes défauts. Certains moteurs de recherche peuvent ne pas honorer votre demande. Vous devrez employer d’autres méthodes si vous voulez vraiment cacher complètement ce contenu.

Une autre solution consiste à mettre un mur payant sur votre contenu ou à le cacher derrière une connexion obligatoire. Les extensions Simple Membership ou Ultimate Member peuvent vous aider à mettre en place un contenu d’adhésion gratuit ou payant.

Extension Simple Membership.
Extension Simple Membership.

Utiliser un site de staging pour les tests

Lorsque vous travaillez sur des projets de test ou des sites web en cours de réalisation, votre meilleure chance de les garder cachés est d’utiliser un site de développement ou de staging. Ces sites sont privés, souvent hébergés sur une machine locale à laquelle personne d’autre que vous et les personnes que vous avez autorisées ne peut accéder.

De nombreux hébergeurs vous fourniront des sites de staging faciles à déployer et vous permettront de les pousser vers votre serveur public lorsque vous serez prêt. Kinsta offre un site de staging en un clic pour tous les plans.

Vous pouvez accéder à vos sites de staging dans MyKinsta en allant sur Sites > Info et en cliquant sur le menu déroulant Changer d’environnement. Cliquez sur Environnement de staging, puis sur le bouton Créer un environnement de staging. Dans quelques minutes, votre serveur de développement sera en place et prêt à être testé.

Si vous n’avez pas accès à un moyen facile de créer un site de staging, l’extension WP STAGING peut vous aider à dupliquer votre installation et à la déplacer dans un répertoire pour un accès facile.

Utilisez la console de recherche Google pour masquer temporairement des sites web

Google Search Console est un service qui vous permet de revendiquer la propriété de vos sites web. Cela vous donne la possibilité de bloquer temporairement l’indexation de certaines pages par Google.

Cette méthode présente quelques problèmes : Elle est exclusive à Google (les sites comme Bing ne sont donc pas concernés) et ne dure que six mois.

Mais si vous voulez un moyen rapide et facile de faire disparaître temporairement votre contenu des résultats de recherche de Google, c’est la solution.

Si vous ne l’avez pas encore fait, vous devez ajouter votre site à la Google Search Console. Une fois cela fait, ouvrez Suppression et sélectionnez Suppression temporaire > Nouvelle demande. Cliquez ensuite sur Supprimer cette URL uniquement et mettez un lien vers la page que vous souhaitez masquer.

Il s’agit d’un moyen encore plus fiable de bloquer du contenu, mais là encore, il ne fonctionne que pour Google et ne dure que 6 mois.

Résumé

De nombreuses raisons peuvent vous inciter à masquer du contenu sur votre site, mais l’option « Demander aux moteurs de recherche de ne pas indexer ce site » n’est pas le meilleur moyen de s’assurer que ce contenu ne sera pas vu.

À moins que vous ne souhaitiez masquer l’intégralité de votre site, vous ne devriez jamais cliquer sur cette option, car elle peut causer d’énormes dommages à votre SEO si elle est activée accidentellement.

Et même si vous voulez cacher votre site, cette option par défaut est une méthode peu fiable. Elle doit être associée à une protection par mot de passe ou à un autre type de blocage, surtout si vous traitez des contenus sensibles.

Vous utilisez d’autres méthodes pour cacher votre site ou certaines parties de celui-ci ? Faites-le nous savoir dans la section des commentaires.

Salman Ravoof

Salman Ravoof is a self-taught web developer, writer, creator, and a huge admirer of Free and Open Source Software (FOSS). Besides tech, he's excited by science, philosophy, photography, arts, cats, and food. Learn more about him on his website, and connect with Salman on Twitter.