Que vous le vouliez ou non, le spam est une grande partie de l’internet.

Certains types de spam sont plus intéressés par l’utilisation de votre espace serveur pour envoyer des requêtes, tandis que d’autres profitent des utilisateurs pour envoyer des logiciels malveillants et des virus.

Un type de spam est appelé Spam de Référencement (referrer spam) et il affecte les sites WordPress qui ne sont pas préparés. En outre, il peut s’introduire dans votre système Google Analytics, s’attaquant à vos classements et retournant les moteurs de recherche contre vous.

Cela ne disparaîtra jamais complètement. Mais cela ne veut pas dire que vous ne pouvez pas lutter contre le spam de référencement.

Votre meilleure chance est de bloquer le spam de référencement dans Google Analytics et WordPress. Comment s’y prendre ?

Vous allez le découvrir dans une minute, mais d’abord, comprenons un peu mieux le spam de référencement et comment il peut affecter votre site web.

Qu’est-ce que le spam de référencement (referrer ou referral ?

Le spam de référencement, ou refferal spam, est la technique qui consiste à faire des demandes répétées de sites web en utilisant une fausse URL de référence, souvent vers un site que les spammeurs souhaitent promouvoir.

Dans Google Analytics, cela ressemble à ça :

À quoi ressemble le spam de référencement dans Google Analytics
À quoi ressemble le spam de référencement dans Google Analytics

Le spam de référencement a un seul but : cibler les moteurs de recherche.

En surface, voici comment cela fonctionne :

  • Un spammeur a un site web dont il veut améliorer le classement dans les moteurs de recherche.
  • Le spammeur envoie de multiples demandes avec des fausses URLs qui renvoient au site web dont il veut faire la publicité.

En bref, ils veulent améliorer la façon dont les moteurs de recherche voient leur site sans fournir de contenu de valeur aux utilisateurs. Par conséquent, votre site peut accidentellement publier certains des journaux et statistiques d’accès, renvoyant involontairement à ce site que le spammeur essaie de promouvoir.

Cela signifie que votre site renvoie maintenant vers un site de mauvaise qualité, ce qui peut améliorer le classement de sites de spam comme ceux-ci :

Encore plus de sites de spam dans Google Analytics
Encore plus de sites de spam dans Google Analytics

Mais malheureusement, si Google voit que vous êtes lié à un site web indésirable, votre classement dans les moteurs de recherche pourrait diminuer à l’avenir.

Ces robots ne visitent jamais vraiment votre site. Au lieu de cela, ils perturbent votre code de suivi javascript et faussent vos données analytiques comme le taux de rebond et d’autres mesures d’engagement utiles.

Un diagramme montrant comment fonctionnent les spams fantômes et les referral spams
Un diagramme montrant comment fonctionnent les spams fantômes et les referral spams (Source de l’image : magistrateinc.com)

Bien que Google, et d’autres moteurs de recherche, aient fait beaucoup pour écarter les sites de spam comme ceux-ci, il est bon de les empêcher complètement, afin de ne pas rencontrer de problèmes.

Après tout, si vous mettez des liens vers des dizaines de mauvais sites, les moteurs de recherche peuvent penser que vous l’avez fait intentionnellement.

Pourquoi l’appelle-t-on spam de référencement ?

Il convient également de noter que ce type de spam tire son nom de la façon dont il interagit avec Google Analytics. Ces spammeurs profitent du fait que tous les propriétaires de sites web aiment voir que d’autres sites renvoient du trafic vers leur plateforme.

Vous disposez même d’un rapport de référencement dans Google Analytics pour voir d’où provient la majeure partie de votre trafic.

Malheureusement, certains de vos utilisateurs pourraient vouloir consulter ces rapports de référencement dans vos journaux d’accès, et vous pourriez finir par cliquer sur l’un des liens nuisibles lors de la vérification de vos référents dans Google Analytics.

Peu importe qui les clique, car ce ne sont que des mauvaises nouvelles.

Quels sont les avantages de bloquer le trafic des robots ?

Certaines personnes pensent que le trafic des robots et le spam de référencement ne sont pas si importants. C’est un problème assez important si l’on considère l’importance du trafic des robots :

Bons et mauvais robots contre les humains (Source de l'image : voluum.com)
Bons et mauvais robots contre les humains (Source de l’image : voluum.com)

Près de 56 % du trafic des robots est utilisé à des fins malveillantes. Non seulement il fausse vos données d’analyse, mais il peut aussi

Bien que cela ne vous affecte pas tant que cela, vous avez toujours la possibilité de vous connecter accidentellement à ces sites de spam et de diminuer votre classement dans les moteurs de recherche.

En outre, les propriétaires de sites web légitimes ont pour mission de produire un contenu de qualité. Il est donc de votre devoir, en tant que webmaster responsable, d’empêcher les spammeurs d’encombrer l’internet avec des liens de mauvaise qualité.

En tant qu’utilisateur d’Internet, ils ne font que vous compliquer la tâche lors de vos recherches. Enfin, il est possible que vous, ou l’un des visiteurs de votre site, cliquiez sur l’un des liens de spam de référencement, vous conduisant à un site web qui pourrait contenir du matériel nuisible.

Comment bloquer le trafic de spam de référencement dans Google Analytics

Voici quelques options que vous pourriez utiliser pour bloquer le spam de Google Analytics :

Examinons chacune de ces méthodes :

1. Exclure les robots connus et Spider dans les réglages de Google Analytics

Avant de recourir à des moyens plus avancés pour bloquer le spam Google Analytics, assurez-vous de profiter d’une fonction intégrée que vous trouverez sous Admin > Voir les réglages > Filtrage des robots :

Le filtrage des robots dans Google Analytics
Le filtrage des robots dans Google Analytics

Il suffit de cocher la case et de cliquer sur Enregistrer en bas de la page.

2. Filtrez les spams de vos résultats Google Analytics

Lorsque vous apportez des modifications techniques, vous souhaitez toujours disposer d’une sauvegarde à laquelle vous pouvez vous référer en cas de problème.

Il en va de même pour Google Analytics. Vous voudrez garder une vue non filtrée afin d’avoir des données à comparer avec les résultats filtrés pour vous assurer qu’ils fonctionnent. Cela vous donne également une vue à laquelle vous pouvez revenir si l’un de vos filtres ne fonctionne pas tout à fait correctement.

Mettre en place une vue non filtrée dans Google Analytics

Allez dans la section Admin et cliquez sur Voir les réglages dans la troisième colonne.

Mise en place d'une vue non filtrée dans Google Analytics
Mise en place d’une vue non filtrée dans Google Analytics

Ensuite, cliquez sur Copier la vue, puis donnez un nom à votre vue non filtrée.

Copier et nommer votre nouvelle vue dans GA
Copier et nommer votre nouvelle vue dans GA

Maintenant, retournez à la page d’administration principale de Google Analytics et cliquez sur Filtres dans la section Vue.

Note : ceci est différent de Tous les filtres de la section Compte.

Créer un filtre dans Google Analytics
Créer un filtre dans Google Analytics

Cliquez sur le bouton rouge +Ajouter un filtre :

Ajouter un nouveau filtre dans GA (et lui donner un nom descriptif)
Ajouter un nouveau filtre dans GA (et lui donner un nom descriptif)

À partir de là, il existe plusieurs filtres anti-spam que vous pouvez configurer pour bloquer le spam Google Analytics.

Pour chaque filtre que vous créez, prenez quelques minutes pour le tester et vous assurer qu’il fonctionne correctement. Une fois que vous êtes satisfait de son exactitude, cliquez sur Enregistrer.

Voyons rapidement les types de filtres antispam que vous pouvez mettre en place dans Google Analytics :

Types de spam à surveiller (et comment les supprimer)

Il existe trois types de spam courants. Voici un bref aperçu de ce qu’ils sont et comment vous pouvez les bloquer :

Spam fantôme

Le spam fantôme (parfois appelé trafic fantôme) est un faux trafic et de fausses données insérés par des pirates dans votre compte Google Analytics, dans le but de vous faire visiter leurs sites web.

Pour trouver des spams fantômes dans votre compte Google Analytics, allez dans

Audience > Technologie > Réseau > Nom d’hôte

Vous obtiendrez ainsi une liste de tous les noms d’hôtes ayant un rapport avec votre site web. Cela ne doit montrer que votre domaine, vos sous-domaines et tout autre service que vous avez lié avec votre compte Google Analytics.

Si vous voyez quelque chose que vous ne reconnaissez pas, il peut s’agir d’un spam fantôme.

Pour supprimer les spams fantômes, créez un filtre personnalisé qui indique à Google Analytics quels noms d’hôtes appartiennent à votre compte et lesquels n’y appartiennent pas.

Voici comment supprimer le spam fantôme dans Google Analytics :
  1. Rédigez une liste de noms d’hôtes valides dans une expression régulière.
  2. Séparez chaque nom d’hôte par un caractère pipe | et ajoutez un slash inversé \ avant tous les points et traits d’union. (Exemple : kinsta\.com|youtube\.com)
  3. Ouvrez maintenant votre compte Google Analytics, allez dans « Admin » et sélectionnez la bonne vue.
  4. Allez dans « Filtres » et cliquez sur « Ajouter un filtre ».
  5. Nommez votre filtre, choisissez « Personnalisé » pour le type de filtre, et sélectionnez que vous voulez « Inclure » « Nom d’hôte ».
  6. Saisissez votre expression, et utilisez le « bouton de vérification » pour vérifier le fonctionnement de votre nouveau filtre.
  7. Appuyez sur « Enregistrer » pour terminer votre filtre antispam fantôme.

Pour le rendre encore plus fort, voici une autre chose que vous pourriez faire pour lutter contre le spam fantôme.

Ouvrez Google Analytics, et allez sur Audience > Technologie > Réseau.

Faites défiler la page vers le bas pour sélectionner Nom d’hôte comme dimension principale et faites en sorte que les résultats soient affichés par mois.

Sélectionnez le nom d'hôte comme votre dimension principale dans GA
Sélectionnez le nom d’hôte comme votre dimension principale dans GA

Consultez la liste complète des noms d’hôtes. Identifiez les noms légitimes et notez-les.

L’essentiel est de dresser une liste des noms d’hôtes valables. Ensuite, allez dans l’onglet Admin en haut, et cliquez sur Filtres.

Créer une liste de noms d'hôtes valides dans Google Analytics
Créer une liste de noms d’hôtes valides dans Google Analytics

Cliquez sur Ajouter un filtre > Type de filtre personnalisé > Inclure. Ce champ vous demandera de saisir une liste des noms d’hôtes acceptables. Le format pour cela exige que vous mettiez un signe ^ avant chaque nom d’hôte, ainsi qu’un signe $ après chacun d’entre eux.

Pour séparer les noms d’hôtes, utilisez un signe |.

Ajout d'un filtre personnalisé dans Google Analytics
Ajout d’un filtre personnalisé dans Google Analytics

Sélectionnez le bouton Enregistrer pour terminer le processus. Il faut compter environ 24 heures pour voir les changements dans le tableau de bord de Google Analytics. Vous pouvez également jeter un coup d’œil à cette grande liste de sites de spam de référencements ou fantômes.

Vous devriez les exclure tous dans votre Google Analytics.

Spam d’indexation

Le spam d’indexation (ou crawler spam) est un type de spam généré par des robots qui parcourent les sites web et enregistrent des informations en effectuant des tâches automatisées sur les sites web. Ces robots parcourent vos pages en ignorant les règles comme celles qui se trouvent dans robots.txt.

Voici comment supprimer le spam d’indexation dans Google Analytics :

Vous devrez créer des filtres personnalisés dans Google Analytics en utilisant les expressions suivantes, qui sont créées pour exclure le spam d’indexation détecté au cours des deux dernières années.

Expression n°1 :

(best|dollar|success|top1)\-seo|anticrawler|^scripted\.|semalt|forum69|7makemon|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|profit\.xyz|rankings\-|dbutton|uptime(bot|check|\.com)

Expression n°2 :

Datract|hacĸer|ɢoogl|responsive\-test|dogsrun|tkpass|free\-video|keywords\-monitoring|pr\-cy\.ru|fix\-website|checkpagerank|seo\-2\-0\.|platezhka|timer4web|share\-buttons|99seo|3\-letter|top10\-way

Pour créer votre filtre personnalisé, vous devrez

  1. Ouvrir votre compte Google Analytics
  2. Allez dans l’admin, choisissez les filtres, puis cliquez sur « Ajouter un filtre ».
  3. Donnez un nom à votre filtre, sélectionnez « Personnalisé » pour le type de filtre, puis sélectionnez « exclure ».
  4. Définissez un champ égal à « source de la campagne » puis collez une expression dans la case.
  5. Vérifiez le filtre, puis « Enregistrer ».
  6. Répétez le processus pour l’expression n°2.
Faux spam linguistique

Le spam linguistique est généralement utilisé par les spammeurs pour un certain agenda ou pour promouvoir leurs propres sites ou produits. Ils manipulent le langage utilisé par de vrais sites comme thenextweb.com, lifehacker.com, reddit.com.

Voici comment supprimer le faux spam linguistique dans Google Analytics :
  1. Ouvrez votre compte Google Analytics
  2. Allez dans l’admin, choisissez Filtres, puis cliquez sur « Ajouter un filtre ».
  3. Donnez un nom à votre filtre, sélectionnez « Personnalisé » pour le type de filtre, puis sélectionnez « exclure ».
  4. Définissez le champ « réglages de langue » puis collez ce qui suit dans la boîte de filtre : \s[^\s]*\s|.{15,}|\.|
  5. Vérifiez le filtre, puis « Enregistrer ».

3. Modifier le fichier .htaccess de votre domaine ou ajouter une règle dans Nginx

Si votre hébergement utilise cPanel, l’un des moyens les plus efficaces de bloquer le trafic de spam de référencement consiste à modifier votre fichier .htaccess. Ce fichier est utilisé pour contrôler votre serveur et peut être chargé de bloquer toute visite de spam provenant d’un domaine ou d’une adresse IP.

Le blocage du trafic de spam dans votre .htaccess est efficace
Le blocage du trafic de spam dans votre .htaccess est efficace (tant que vous êtes prudent et que vous ne cassez pas votre site)

Cette méthode permet non seulement de bloquer les domaines de spam de référencement de votre site web, mais aussi de les supprimer de votre serveur. Ce qui est pratique pour maintenir la vitesse de votre serveur à un niveau agréable et rapide.

Voici comment bloquer le spam grâce à votre fichier .htaccess :

Supposons que vous vouliez exclure Semalt, free-traffic.xyz et buttons-for-website.com. Il suffit d’ajouter la commande suivante au fichier .htaccess de votre site web :

## SITE REFERRAL BLOCK
RewriteCond %{HTTP_REFERER} semalt\.xyz [NC,OR]
RewriteCond %{HTTP_REFERER} free-traffic\.xyz [NC,OR]
RewriteCond %{HTTP_REFERER} buttons-for-website\.com [NC,OR]
RewriteRule .* – [F]

Vous ne savez pas ce que tout cela signifie ? Voici un rapide aperçu de ce qui se passe dans cette commande :

  • « NC » rend la commande insensible à la casse, de sorte que même SeMalT.com ou Free-Traffic seront pris en compte par le filtre.
  • « OR » indique que plusieurs référents doivent être bloqués.
  • La dernière ligne est celle de ce qui arrive à un domaine qui essaie d’accéder à votre site web et qui se voit refuser l’accès.
  • « F » est égale à « fail » et signifie que le référent obtiendra une erreur 403.

Maintenant, quand il s’agit de tout ce qui concerne les .htaccess : soyez très prudents.

Mettez un seul caractère au mauvais endroit ou saisissez accidentellement un double espace et cela pourrait mettre tout votre site web hors ligne.

Voici comment bloquer le spam grâce à Nginx :

Si votre hébergeur utilise Nginx comme serveur web au lieu d’Apache, vous ne pourrez pas modifier votre fichier .htaccess et vous devrez définir une règle dans Nginx pour bloquer les requêtes par référent :

if ($http_referer ~* "bad-site-to-block\.com") {
    return 403;
}

Si vous êtes un client de Kinsta, vous devrez contacter le service d’assistance et demander l’ajout de cette règle.

4. Utiliser un outil tiers pour bloquer le spam de référencement

Si vous êtes un utilisateur de WordPress, vous pouvez utiliser une extension de spam de référencement pour vous débarrasser du trafic des robots.

Votre meilleure option est Sucuri, qui surveille les spams de référencements et les supprime de votre site web. En outre, cette extension peut également protéger votre site contre les attaques par déni de service (DDoS), car il s’agit d’une solution de sécurité de site web tout-en-un.

Si vous trouvez que Sucuri vous semble excessif, vous pouvez également essayer l’extension Stop Referrer Spam, qui utilise une liste publique de spammeurs de référencement fournie par Matomo, la société à l’origine de l’alternative Piwik de Google Analytics.

Il existe quelques options supplémentaires, mais elles n’ont pas été mises à jour depuis un certain temps et pourraient donc ne pas être compatibles avec votre installation de WordPress. De plus, l’utilisation de logiciels obsolètes peut poser des problèmes de sécurité, mais si vous souhaitez les tester, les voici :

Veuillez toujours faire une sauvegarde avant d’installer une nouvelle extension afin de pouvoir revenir facilement à un site fonctionnel en cas de problème.

FAQ sur le spam de Google Analytics

Voici les réponses à certaines des questions les plus fréquemment posées sur le spam Google Analytics :

Puis-je visiter les sites de spam trouvés dans Google Analytics ?

La première chose à retenir (et la plus importante) est la suivante : ne cliquez pas sur le lien !

Si vous visitez le site web lui-même, les spammeurs obtiennent ce qu’ils veulent. Au lieu de cela, cherchez le site entre guillemets sur Google :

Recherchez les sites de spam de référencement dans Google pour voir si d'autres sites les ont déjà signalés
Recherchez les sites de spam de référencement dans Google pour voir si d’autres sites les ont déjà signalés

En procédant ainsi, vous éviterez de visiter le site, mais vous verrez les résultats d’autres sites à ce sujet. Si le site est une source de spam Google Analytics, quelqu’un d’autre a probablement écrit à ce sujet.

Pourquoi est-il important de filtrer le spam de mon Google Analytics ?

Les données de Google Analytics (et l’analyse de sites web en général) sont l’un des meilleurs moyens de suivre les performances de votre site et de voir ce qui fonctionne avec votre public en ligne. Elles peuvent non seulement montrer ce qui fonctionne, mais aussi ce qui ne fonctionne pas (c’est-à-dire les domaines à améliorer).

Mais si vous y ajoutez le spam de référencement, c’est l’exactitude de ces données qui est en jeu.

Vous pourriez obtenir un nombre décent de sessions qui sont essentiellement des visites indésirables :

Les visites indésirables depuis Semalt dans Google Analytics
Les visites indésirables depuis Semalt dans Google Analytics

Si vous ne disposez pas des meilleures données disponibles dans Google Analytics, vous risquez de prendre de mauvaises décisions. En fait, comme les données ne sont pas exactes, vous pouvez mal interpréter les choses.

Par exemple, vous pourriez consacrer plus de temps et d’argent à l’amélioration d’une page particulière de votre site parce qu’elle semble populaire auprès de votre public. Mais si tout ce trafic provient de robots, il ne sert à rien d’investir dans des améliorations.

En résumé : en nettoyant vos données, les filtres antispam des robots veillent à ce que vos analyses fournissent des informations plus précises et plus utiles.

Puis-je nettoyer les données historiques de Google Analytics ?

Les filtres antispam vous permettront d’obtenir des données plus propres à l’avenir, mais ils ne seront pas appliqués aux données passées.

Une fois que vous aurez mis en place vos filtres, le spam sera filtré à partir de cette date, mais pas en amont. Vos données historiques incluront toujours des données inexactes causées par les robots.

Cependant, tout n’est pas mauvais. Vous pourrez comparer vos données avec et sans spam dans Google Analytics :

Comparaison avec et sans le trafic de spam dans Google Analytics
Comparaison avec et sans le trafic de spam dans Google Analytics

La comparaison entre vos analyses avant et après l’application des filtres anti-spam peut vous aider à comprendre l’importance du trafic provenant des robots, ce qui vous donne une vue plus précise de votre site.

Résumé

Malheureusement, il est impossible d’éviter complètement le spam. Mais vous pouvez contrôler l’impact qu’il a sur vos données Google Analytics.

Utiliser les bons filtres, les bonnes extensions et un certain savoir-faire technique est le meilleur moyen d’arrêter les spammeurs et de vous rendre les données précises dans Google Analytics dont vous avez besoin pour construire un bon site web.

C’est maintenant à votre tour : quel est votre moyen préféré pour vous débarrasser du spam dans Google Analytics ?

Matteo Duò Kinsta

Rédacteur en chef chez Kinsta et consultant en marketing de contenu pour les développeurs de plugins WordPress. Connectez-vous avec Matteo sur Twitter.