Scraping de contenu : Combattre ou ignorer ?

Le scraping de contenu, ou ce que nous aimons appeler la « récupération de contenu », est un problème depuis le début d’Internet. Pour n’importe qui publiant sur une base régulière ou travaillant avec l’optimisation de moteur de recherche (SEO), cela peut réellement être carrément exaspérant. 😠 Plus vous grossissez, plus vous remarquez le nombre de fermes de récupération de contenu qui existent. Nous publions beaucoup de contenu ici chez Kinsta et la récupération de contenu est un problème que nous traitons régulièrement. La question est de savoir si vous devez essayer de riposter ou simplement l’ignorer et passer à autre chose. Aujourd’hui, nous allons nous pencher sur les avantages et les inconvénients des deux côtés.

Qu’est-ce que le scraping de contenu ?

La récupération de contenu est essentiellement lorsque quelqu’un prend votre contenu et l’utilise sur son propre site (manuellement ou automatiquement avec une extension ou un bot) sans vous donner d’attribution ou de crédit. Ceci est généralement fait dans l’espoir de gagner du trafic, du référencement ou de nouveaux utilisateurs. C’est en fait contraire aux lois sur le droit d’auteur aux États-Unis et dans d’autres pays. Google ne tolère pas non plus cela et vous recommande de créer votre propre contenu unique.

Voici quelques exemples de contenu récupéré que Google mentionne :

Sites qui copient et republient le contenu d’autres sites sans ajouter de contenu original ou de valeur.
Les sites qui copient le contenu d’autres sites, le modifient légèrement (par exemple, en substituant des synonymes ou en utilisant des techniques automatisées), et le publient à nouveau.
Les sites qui reproduisent des flux de contenu provenant d’autres sites sans fournir un certain type d’organisation unique ou de bénéfice à l’utilisateur.
Sites dédiés à l’intégration de contenus tels que des vidéos, des images ou d’autres médias provenant d’autres sites sans valeur ajoutée substantielle pour l’utilisateur.

Il ne faut pas confondre cela avec la syndication de contenu, qui se produit généralement lorsque vous rééditez votre propre contenu pour en élargir la portée. Le contenu syndiqué pourrait également être réalisé par un tiers, mais il y a une ligne fine entre cela et le vol de contenu. Si quelqu’un syndique du contenu, des balises spéciales telles que rel=canonical ou noindex devraient toujours être utilisées.

Il existe maintenant de nombreuses extensions WordPress tierces qui vous permettent de récupérer automatiquement les flux RSS tiers. Et bien que les développeurs aient de bonnes intentions, malheureusement, celles-ci sont parfois abusées et utilisées pour voler le contenu. L’une des raisons pour lesquelles WordPress est si populaire est la facilité d’utilisation, mais parfois cela peut aussi se retourner contre lui.

Exemple en direct d’une ferme de scraping de contenu

Nous les appelons « fermes » lorsque le même propriétaire récupère du contenu sur des dizaines de sites. Celles-ci sont généralement faciles à repérer car le propriétaire du site utilise généralement le même thème sur tous les sites et même une légère variation entre les noms de domaine.

Nous utilisons un exemple en direct dans l’article d’aujourd’hui ! ? Nous n’avons pas honte d’évoquer ces types de sites car ils n’ont aucune valeur et ne font que nier le dur labeur des éditeurs de contenu. Voici un exemple d’une ferme de récupération de contenu. Nous avons archivé chaque lien au cas où les sites n’existeraient plus dans le futur. Vous pouvez cliquer sur chacun d’entre eux et voir qu’ils utilisent tous le même thème et le même contenu volé. Typiquement, un scrappeur récupère le contenu de nombreuses sources différentes, notre blog en étant l’une d’entre elles.

thetechworld.xyz (archivé)
mytechnewstoday.org (archivé)
mytechcrunch.com (archivé)
technewssites.xyz (archivé)
technewssites.info (archivé)
www.thetechworld.info (archivé)
www.mytechnewstoday.xyz (archivé)
www.futuretechnologynews.info (archivé)
futuretechnologynews.xyz (archivé)

Vous pouvez voir ci-dessous, ils ne font que récupérer mot pour mot nos articles de blog, ainsi que tous nos articles dans tous les domaines ci-dessus.

Exemple (cliquez pour agrandir) – Article sur le blog du récupérateur de contenu : lien archivé / article original du blog de Kinsta

Comment les trouver ?

Une des façons les plus faciles de les trouver est d’utiliser un outil comme Copyscape ou Ahrefs (s’ils copient aussi vos liens internes). Copyscape vous permet même de soumettre votre fichier sitemap et de vous avertir automatiquement lorsqu’il scanne le Web et trouve du contenu.

Vous pouvez également effectuer une recherche manuelle dans Google à l’aide de la balise « allintitle ». Il vous suffit de saisir la balise avec le titre de votre article. Exemple : allintitle : Kinsta gère la mise en cache WordPress pour que vous n’ayez pas à le faire

Le mot-clé allintitle invite Google à rechercher ces mots dans les titres des articles uniquement. La deuxième façon, et la plus efficace, est de rechercher du texte dans votre article, avec le terme de recherche entre guillemets doubles. Mettre les guillemets doubles indique à Google de rechercher exactement le même texte. Vous pouvez obtenir de faux positifs avec votre recherche de titre, car quelqu’un peut utiliser le même titre, mais la deuxième méthode est beaucoup plus efficace car il est très peu probable que quelqu’un ait exactement les mêmes phrases ou paragraphes.

La récupération de contenu affecte-t’elle le référencement ?

La prochaine question que vous vous posez probablement est, comment cela affecte-t-il SEO ? Parce que dans l’exemple ci-dessus, la ferme de récupération de contenu n’utilise pas les balises rel=canonical, donnant le crédit, ou les balises noindex. Cela signifie que lorsque le robot Google le parcourt, il va penser qu’il s’agit de son contenu original. Vous pourriez pensez que ça n’est pas juste. Vous avez raison, ça ne l’est pas. Nous avons publié le contenu, puis ils l’ont récupéré. Cependant, avant de commencer à paniquer, il est important de comprendre ce qui se passe vraiment dans les coulisses.

Tout d’abord, même si le crawler de Google pourrait le voir comme leur contenu, il est fort probable que l’algorithme de Google ne le voit pas. Google n’est pas stupide et a mis en place de nombreuses règles et vérifications pour s’assurer que les propriétaires du contenu original obtiennent toujours le crédit. Comment le savons-nous ? Eh bien, jetons un coup d’œil à chacun de ces articles d’un point de vue SEO.

Cette personne a récupéré notre article de blog en novembre 2017, donc elle a eu tout le temps de le classer. Ainsi, nous tirons vers le haut de notre outil pratique Ahrefs et vérifions pour voir quels sont les mots-clés actuels de leur article est son classement. Et nous pouvons voir qu’il ne s’agit pas d’un classement par mots-clés. Donc, en ce qui concerne le trafic organique, ils ne bénéficient pas du tout de cet article.

Si nous sortons notre article de blog original dans Ahrefs, nous pouvons voir que nous nous classons pour 96 mots-clés.

Lorsque Google voit ce que vous pensez être du contenu dupliqué, il utilise beaucoup de signaux et de points de données différents pour déterminer qui a écrit le contenu à l’origine et ce qui doit être classé. En voici quelques exemples :

Dates de publication (bien que, dans ce cas, le contenu ait été récupéré le même jour)
Autorité de domaine et page rank. Oui, Google utilise probablement toujours le page rank en interne
Médias sociaux
Trafic
Backlinks

Encore une fois, il s’agit d’hypothèses, car personne ne sait vraiment ce que Google utilise. Mais le fait est que vous n’avez probablement pas besoin de perdre le sommeil à cause de quelqu’un qui récupère votre contenu. Cependant, vous pourriez quand même vouloir faire quelque chose à ce sujet. Il n’est pas non plus impossible pour quelqu’un d’autre de vous surclasser avec votre propre contenu. Nous y reviendrons plus loin.

Ce que nous faisons au sujet de la récupération de contenu

Créer un contenu utile, unique et partageable n’est pas facile, cela prend beaucoup de votre temps précieux (et coûte souvent beaucoup d’argent) donc vous devriez certainement le protéger. Mais voici d’autres raisons pour lesquelles vous ne voudrez peut-être pas ignorer les récupérateurs.

Si un site avec une quantité importante de trafic récupère votre contenu et l’utilise pour compléter son autre contenu, il se peut fort bien qu’il en profite. Ce n’est certainement pas juste car vous êtes le propriétaire original du contenu.
De telles choses peuvent sérieusement fausser les données de vos outils de rapports et vous rendre la vie plus difficile. Par exemple, ceux-ci apparaîtront dans les rapports de backlink dans des outils tels que Ahrefs ou Majestic. Plus vous êtes grand, plus ça devient désordonné.
Souhaitez-vous faire confiance uniquement à Google pour savoir si le contenu original est le leur ou le vôtre ? Même s’ils sont assez intelligents à ce sujet, nous ne le sommes certainement pas. De plus, même si leur article n’est classé dans aucun moteur de recherche pour aucun mot clé, il est en fait indexé par Google (comme indiqué ci-dessous).

Contacter le propriétaire du site et déposer une plainte auprès du MRAC

Pour nous assurer d’obtenir le crédit là où il est dû, nous communiquons d’abord avec le propriétaire du site et demandons le retrait. Nous vous recommandons de créer quelques modèles d’e-mail que vous pouvez réutiliser pour accélérer ce processus et ne pas perdre votre temps. Si nous n’avons pas de nouvelles d’eux après quelques essais, nous allons un peu plus loin et déposons une plainte auprès du DMCA.

Les plaintes DMCA peuvent être un peu délicates car vous devrez chercher l’adresse IP du site, trouver l’hôte, etc. Mais ne vous inquiétez pas, nous avons toutes les étapes documentées sur la façon de déposer facilement une plainte DMCA, ainsi que de traquer le propriétaire. Vous pouvez également déposer une demande de suppression légale directement auprès de Google.

En ce qui concerne l’exemple de l’étude de cas en direct ci-dessus, il semble qu’il soit temps de passer à l’étape suivante car nous n’avons pas réussi à joindre le propriétaire du site. 😩

Mettre à jour le fichier de désaveu

Pour s’assurer que ceux-ci n’ont aucun impact sur notre site (quoi qu’il arrive avec la plainte DMCA), nous ajoutons également ces domaines entiers dans notre fichier de désaveu. Cela dit à Google que nous ne voulons rien avoir à faire avec eux, et que nous n’essayons en aucune façon de manipuler les SERPs.

Si vous faites cela pour un site de meilleure qualité, vous pouvez aussi simplement soumettre l’URL pour désaveu, au lieu du domaine entier. Bien qu’en général, nous ne voyons pas de sites de haute qualité récupérer le contenu.

Étape 1

Dans Ahrefs nous sélectionnons le domaine en question et cliquons sur « Disavow Domains ». De cette façon, tout ce qui se trouve sur ce site récupéré n’a jamais d’impact sur nous.

La grande chose au sujet d’Ahrefs en traitant ce type de questions est leur option « Masquer les liens désavoués ». Il masque alors automatiquement les domaines et les URLs pour qu’ils n’apparaissent plus dans votre rapport principal à l’avenir. C’est super utile pour l’organisation et le maintien de votre santé mentale, surtout si vous utilisez exclusivement Ahrefs pour gérer vos backlinks. 👍

Étape 2

Comme vous pouvez le voir ci-dessous, nous avons ajouté tous les domaines de la ferme de récupération de contenu à notre section liens de désaveu dans Ahrefs. L’étape suivante consiste à cliquer sur « Exporter » et obtenir le fichier de désaveu (TXT) que nous devons soumettre dans Google Search Console.

Étape 3

Rendez-vous ensuite sur l’outil de désaveu de Google. Sélectionnez votre profil Google Search Console et cliquez sur « Désavouer les liens ».

Étape 4

Choisissez votre fichier de désaveu que vous avez exporté depuis Ahrefs et soumettez-le. Ceci écrasera votre fichier de désaveu précédent. Si vous n’avez jamais utilisé Ahrefs auparavant et qu’un fichier de désaveu existe déjà, il est recommandé de télécharger le fichier actuel, de le fusionner avec votre nouveau, puis de le téléverser. A partir de ce moment, si vous utilisez uniquement Ahrefs, vous pouvez simplement téléverser et écraser.

Bloquer les adresses IP des récupérateurs

Vous pouvez aussi aller plus loin et bloquer les adresses IP des récupérateurs. Une fois que vous avez déterminé un trafic inhabituel (ce qui peut parfois être difficile à faire), vous pouvez le bloquer sur votre serveur en utilisant des fichiers .htaccess ou des règles Nginx. Si vous êtes un client Kinsta, notre équipe de support peut également bloquer les adresses IP pour vous. Ou si vous utilisez un WAF tiers tel que Sucuri ou Cloudflare, ceux-ci ont également des options pour bloquer les IPs.

Résumé

Les fermes de récupération de contenu peuvent ne pas toujours affecter votre référencement, mais elles n’ajoutent certainement rien de valeur pour les utilisateurs. Nous vous recommandons fortement de prendre quelques instants pour les faire descendre. Nous disposons d’une carte Trello complète consacrée aux demandes de « désaveu ». Cela aide à faire du Web un meilleur endroit pour tout le monde et assure que votre contenu unique n’est vu et classé que sur votre site.

Que pensez-vous de la récupération de contenu ? Essayez-vous de les combattre ou bien vous les ignorez ? Nous aimerions entendre vos réactions dans les commentaires ci-dessous.

Brian Jackson

Brian a une grande passion pour WordPress, l'utilise depuis plus de dix ans et développe même quelques plugins de qualité. Brian aime les blogs, les films et les randonnées. Connectez avec Brian sur Twitter.

Gérer les fichiers WordPress dans le tableau de bord MyKinsta

Wholegrain Digital renforce sa mission B Corp avec des sites à haute performance et à faible émission de carbone chez Kinsta

Explorer

Outils et informations