Pour la plupart des spécialistes du marketing, des mises à jour constantes sont nécessaires pour garder leur site frais et améliorer leur classement SEO.
Cependant, certains sites comptent des centaines, voire des milliers de pages, ce qui constitue un défi pour les équipes qui transmettent manuellement les mises à jour aux moteurs de recherche. Si le contenu est mis à jour si fréquemment, comment les équipes peuvent-elles s’assurer que ces améliorations ont un impact sur leurs classements SEO ?
C’est là que les robots d’exploration entrent en jeu. Un robot d’exploration web va parcourir votre plan de site à la recherche de nouvelles mises à jour et indexer le contenu dans les moteurs de recherche.
Dans cet article, nous allons dresser une liste complète des robots d’indexation qui couvre tous les robots d’indexation que vous devez connaitre. Avant de nous plonger dans le vif du sujet, définissons les robots d’exploration du web et montrons comment ils fonctionnent.
Découvrez notre guide vidéo sur les robots d’indexation les plus courants sur le web
Qu’est-ce qu’un robot d’exploration du web ?
Un robot d’exploration du web est un programme informatique qui scanne automatiquement et lit systématiquement les pages web afin de les indexer pour les moteurs de recherche. Les web crawlers sont également connus sous le nom de spiders ou bots.
Pour que les moteurs de recherche présentent des pages web à jour et pertinentes aux utilisateurs qui lancent une recherche, une analyse d’un robot d’exploration web doit se produire. Ce processus peut parfois se dérouler automatiquement (en fonction des réglages du robot d’exploration et de votre site), ou être lancé directement.
De nombreux facteurs ont un impact sur le classement SEO de vos pages, notamment la pertinence, les backlinks, l’hébergement web, etc. Cependant, aucun de ces facteurs n’a d’importance si vos pages ne sont pas explorées et indexées par les moteurs de recherche. C’est pourquoi il est si important de s’assurer que votre site permet aux robots d’indexation de s’exécuter correctement et de supprimer tout obstacle sur leur chemin.
Les robots doivent continuellement scanner et scrapper le web pour s’assurer que les informations les plus précises sont présentées. Google est le site web le plus visité aux États-Unis, et environ 26,9 % des recherches proviennent d’utilisateurs américains :
Cependant, il n’existe pas un seul crawler pour tous les moteurs de recherche. Chaque moteur de recherche possède des atouts uniques, c’est pourquoi les développeurs et les spécialistes du marketing compilent parfois une liste de crawlers ». Cette liste de crawlers les aide à identifier dans le journal de leur site les différents crawlers à accepter ou à bloquer.
Les spécialistes du marketing doivent assembler une liste des différents crawlers et comprendre comment ils évaluent leur site (contrairement aux scrappers de contenu qui volent le contenu) afin de s’assurer qu’ils optimisent correctement leurs pages de destination pour les moteurs de recherche.
Comment fonctionne un crawler web ?
Un crawler web va automatiquement scanner votre page web après sa publication et indexer vos données.
Les crawlers web recherchent des mots-clés spécifiques associés à la page web et indexent ces informations pour les moteurs de recherche pertinents comme Google, Bing, etc.
Les algorithmes des moteurs de recherche vont chercher ces données lorsqu’un utilisateur soumet une requête pour le mot-clé pertinent qui y est lié.
Les recherches commencent par des URL connues. Il s’agit de pages web établies avec divers signaux qui dirigent les crawlers web vers ces pages. Ces signaux peuvent être :
- Backlinks : Le nombre de fois qu’un site renvoie vers lui
- Visiteurs : Combien de trafic se dirige vers cette page
- Autorité du domaine : La qualité globale du domaine
Ensuite, ils stockent les données dans l’index du moteur de recherche. Lorsque l’utilisateur lance une requête de recherche, l’algorithme va chercher les données dans l’index, et elles apparaissent sur la page de résultats du moteur de recherche. Ce processus peut se produire en quelques millisecondes, c’est pourquoi les résultats apparaissent souvent rapidement.
En tant que webmaster, vous pouvez contrôler les robots qui explorent votre site. C’est pourquoi il est important d’avoir une liste de robots d’exploration. C’est le protocole robots.txt qui vit dans les serveurs de chaque site et qui dirige les crawlers vers le nouveau contenu qui doit être indexé.
En fonction de ce que vous saisissez dans votre protocole robots.txt sur chaque page web, vous pouvez indiquer à un crawler de scanner ou d’éviter d’indexer cette page à l’avenir.
En comprenant ce que recherche un robot d’exploration dans son analyse, vous pouvez comprendre comment mieux positionner votre contenu pour les moteurs de recherche.
Compilation de votre liste de crawlers : Quels sont les différents types de crawlers web ?
Lorsque vous commencez à penser à compiler votre liste de crawlers, il y a trois principaux types de crawlers à rechercher. Il s’agit de :
- Crawlers internes : Il s’agit de crawlers conçus par l’équipe de développement d’une entreprise pour scanner son site. Ils sont généralement utilisés pour l’audit et l’optimisation du site.
- Crawlers commerciaux : Il s’agit de robots d’exploration personnalisés, comme Screaming Frog, que les entreprises peuvent utiliser pour explorer et évaluer efficacement leur contenu.
- Crawlers open source : Il s’agit de robots d’indexation gratuits construits par divers développeurs et hackers du monde entier.
Il est important de comprendre les différents types de crawlers qui existent afin de savoir quel type vous devez exploiter pour vos propres objectifs commerciaux.
Les 14 crawlers web les plus courants à ajouter à votre liste de crawlers
Il n’y a pas un seul crawler qui fait tout le travail pour chaque moteur de recherche.
Au lieu de cela, il existe une variété de crawlers web qui évaluent vos pages web et analysent le contenu pour tous les moteurs de recherche disponibles pour les utilisateurs du monde entier.
Examinons quelques-uns des crawlers web les plus courants aujourd’hui.
1. Googlebot
Googlebot est le robot d’exploration générique de Google, chargé d’explorer les sites qui s’afficheront sur le moteur de recherche de Google.
Bien qu’il existe techniquement deux versions de Googlebot – Googlebot Desktop et Googlebot Smartphone (Mobile) – la plupart des experts considèrent que Googlebot est un crawler unique.
En effet, les deux suivent le même jeton de produit unique (connu sous le nom de jeton d’agent utilisateur) écrit dans le robots.txt de chaque site. L’agent utilisateur de Googlebot est simplement « Googlebot »
Googlebot se met au travail et accède généralement à votre site toutes les quelques secondes (sauf si vous l’avez bloqué dans le fichier robots.txt de votre site). Une sauvegarde des pages scannées est enregistrée dans une base de données unifiée appelée Google Cache. Cela vous permet de consulter d’anciennes versions de votre site.
En outre, Google Search Console est un autre outil que les webmasters utilisent pour comprendre comment Googlebot parcourt leur site et pour optimiser leurs pages pour la recherche.
User Agent | Googlebot |
Full User Agent String | Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
2. Bingbot
Bingbot a été créé en 2010 par Microsoft pour scanner et indexer les URL afin de s’assurer que Bing offre des résultats de recherche pertinents et actualisés aux utilisateurs de la plateforme.
Tout comme Googlebot, les développeurs ou les spécialistes du marketing peuvent définir dans leur robots.txt sur leur site s’ils approuvent ou non l’identifiant de l’agent « bingbot » pour scanner leur site.
En outre, ils ont la possibilité de faire la distinction entre les crawlers de l’indexation mobile-first et les crawlers de bureau puisque Bingbot est récemment passé à un nouveau type d’agent. Ceci, avec les Bing Webmaster Tools, offre aux webmasters une plus grande flexibilité pour montrer comment leur site est découvert et mis en valeur dans les résultats de recherche.
User Agent | Bingbot |
Full User Agent String | Desktop – Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36
Mobile – Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm) “W.X.Y.Z” will be substituted with the latest Microsoft Edge version Bing is using, for eg. “100.0.4896.127″ |
3. Yandex Bot
Yandex Bot est un crawler spécifique pour le moteur de recherche russe, Yandex. Il s’agit de l’un des moteurs de recherche les plus importants et les plus populaires en Russie.
Les webmasters peuvent rendre les pages de leur site accessibles à Yandex Bot via leur fichier robots.txt.
En outre, ils peuvent également ajouter une balise Yandex.Metrica à des pages spécifiques, ré-indexer des pages dans le Yandex Webmaster ou émettre un protocole IndexNow, un rapport unique qui signale les pages nouvelles, modifiées ou désactivées.
User Agent | YandexBot |
Full User Agent String | Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) |
4. Apple Bot
Apple a chargé l’Apple Bot d’explorer et d’indexer les pages web pour les suggestions Siri et Spotlight d’Apple.
Apple Bot prend en compte plusieurs facteurs lorsqu’il décide du contenu à mettre en avant dans les Suggestions Siri et Spotlight. Ces facteurs comprennent l’engagement des utilisateurs, la pertinence des termes de recherche, le nombre/la qualité des liens, les signaux de localisation et même la conception des pages web.
User Agent | Applebot |
Full User Agent String | Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko) Version/Safari_version Safari/WebKit_version (Applebot/Applebot_version) |
5. DuckDuck Bot
DuckDuckBot est le robot d’exploration du web pour DuckDuckGo, qui offre « une protection transparente de la vie privée sur votre navigateur web ».
Les webmasters peuvent utiliser l’API de DuckDuckBot pour voir si le DuckDuck Bot a exploré leur site. Au fur et à mesure qu’il explore le site, il met à jour la base de données de l’API DuckDuckBot avec les adresses IP et les agents utilisateurs récents.
Cela aide les webmasters à identifier tout imposteur ou bots malveillants essayant d’être associés à DuckDuck Bot.
User Agent | DuckDuckBot |
Full User Agent String | DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html) |
6. Baidu Spider
Baidu est le principal moteur de recherche chinois, et le Baidu Spider est l’unique crawler du site.
Google étant interdit en Chine, il est important d’autoriser le Baidu Spider à explorer votre site si vous souhaitez atteindre le marché chinois.
Pour identifier le Baidu Spider qui explore votre site, recherchez les agents utilisateur suivants : baiduspider, baiduspider-image, baiduspider-video, etc.
Si vous ne faites pas d’affaires en Chine, il peut être judicieux de bloquer le Baidu Spider dans votre script robots.txt. Cela empêchera le Baidu Spider d’explorer votre site, supprimant ainsi toute chance que vos pages apparaissent dans les pages de résultats des moteurs de recherche (SERP) de Baidu.
User Agent | Baiduspider |
Full User Agent String | Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) |
7. Spider Sogou
Sogou est un moteur de recherche chinois qui serait le premier moteur de recherche avec 10 milliards pages ages chinoises indexées.
Si vous faites des affaires sur le marché chinois, voici un autre crawler de moteur de recherche populaire que vous devez connaître. Le Sogou Spider suit les paramètres du texte d’exclusion et du délai d’exploration du robot.
Comme pour l’araignée Baidu, si vous ne souhaitez pas faire des affaires sur le marché chinois, vous devriez désactiver cette araignée pour éviter des temps de chargement lents du site.
User Agent | Sogou Pic Spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) Sogou head spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) Sogou Orion spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) Sogou-Test-Spider/4.0 (compatible; MSIE 5.5; Windows 98) |
8. Facebook External Hit
Facebook External Hit, également connu sous le nom de Facebook Crawler, explore le code HTML d’une application ou d’un site web partagé sur Facebook.
Cela permet à la plateforme sociale de générer un aperçu partageable de chaque lien posté sur la plateforme. Le titre, la description et l’image miniature apparaissent grâce au crawler.
Si l’analyse n’est pas exécutée en quelques secondes, Facebook n’affichera pas le contenu dans le snippet personnalisé généré avant le partage.
User Agent | facebot facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php) facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php) |
9. Exabot
Exalead est une société de logiciels créée en 2000 et dont le siège social est à Paris, en France. La société fournit des plateformes de recherche pour les consommateurs et les entreprises.
Exabot est le crawler pour leur moteur de recherche principal construit sur leur produit CloudView.
Comme la plupart des moteurs de recherche, Exalead tient compte à la fois du backlinking et du contenu des pages web lors du classement. Exabot est l’agent utilisateur du robot d’Exalead. Le robot crée un « index principal » qui compile les résultats que les utilisateurs du moteur de recherche verront.
User Agent | Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails) Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot) |
10. Swiftbot
Swiftype est un moteur de recherche personnalisé pour votre site web. Il combine « les meilleures technologies de recherche, algorithmes, framework d’ingestion de contenu, clients et outils d’analyse ».
Si vous avez un site complexe avec de nombreuses pages, Swiftype offre une interface utile pour cataloguer et indexer toutes vos pages pour vous.
Swiftbot est le robot d’exploration du web de Swiftype. Cependant, contrairement à d’autres robots, Swiftbot n’explore que les sites que ses clients lui demandent.
User Agent | Swiftbot |
Full User Agent String | Mozilla/5.0 (compatible; Swiftbot/1.0; UID/54e1c2ebd3b687d3c8000018; +http://swiftype.com/swiftbot) |
11. Slurp Bot
Slurp Bot est le robot de recherche de Yahoo qui explore et indexe les pages pour Yahoo.
Ce crawl est essentiel tant pour Yahoo.com que pour ses sites partenaires, notamment Yahoo News, Yahoo Finance et Yahoo Sports. Sans lui, les listes de sites pertinents n’apparaitraient pas.
Le contenu indexé contribue à une expérience web plus personnalisée pour les utilisateurs avec des résultats plus pertinents.
User Agent | Slurp |
Full User Agent String | Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) |
12. CCBot
CCBot est un robot d’exploration du web basé sur Nutch et développé par Common Crawl, une organisation à but non lucratif dont l’objectif est de fournir (gratuitement) une copie d’Internet aux entreprises, aux particuliers et à toute personne intéressée par la recherche en ligne. Le bot utilise MapReduce, un framework de programmation qui lui permet de condenser de grands volumes de données en de précieux résultats agrégés.
Grâce à CCBot, les gens peuvent utiliser les données de Common Crawl pour améliorer les logiciels de traduction de langage et prédire les tendances. En fait, GPT-3 a été formé en grande partie sur les données de leur jeu de données.
User Agent | CCBot/2.0 (https://commoncrawl.org/faq/) CCBot/2.0 CCBot/2.0 (http://commoncrawl.org/faq/) |
13. GoogleOther
Celui-ci est tout récent. GoogleOther a été lancé par Google en avril 2023 et fonctionne comme Googlebot.
Ils partagent tous deux la même infrastructure et ont les mêmes fonctionnalités et limitations. La seule différence est que GoogleOther sera utilisé en interne par les équipes de Google pour crawler les contenus accessibles au public depuis les sites.
La raison de la création de ce nouveau crawler est de soulager la capacité d’analyse de Googlebot et d’optimiser ses processus de d’analyse du web.
GoogleOther sera utilisé, par exemple, pour les crawls de recherche et développement (R&D), ce qui permettra à Googlebot de se concentrer sur des tâches directement similaires à l’indexation des recherches.
User Agent | GoogleOther |
14. Google-InspectionTool
Les personnes qui examinent l’activité des robots d’exploration dans leurs fichiers journaux vont tomber sur quelque chose de nouveau.
Un mois après le lancement de GoogleOther, nous disposons d’un nouveau robot d’exploration qui imite également Googlebot : Google-InspectionTool.
Ce crawler est utilisé par les outils de test de recherche de la Search Console, comme l’inspection des URL, et par d’autres propriétés de Google, comme le Rich Result Test.
User Agent | Google-InspectionTool Googlebot |
Full User Agent String | Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0) Mozilla/5.0 (compatible; Google-InspectionTool/1.0) |
Les 8 crawlers commerciaux que les professionnels du SEO doivent connaitre
Maintenant que vous avez 14 des bots les plus populaires dans votre liste de crawlers, examinons quelques-uns des crawlers commerciaux et outils de référencement les plus courants pour les professionnels.
1. Ahrefs Bot
Le Ahrefs Bot est un crawler web qui compile et indexe la base de données de 12 trillions de liens que propose le logiciel de référencement populaire Ahrefs.
Ahrefs Bot visite 6 milliards de sites web chaque jour et est considéré comme « le deuxième crawler le plus actif » derrière Googlebot.
Tout comme les autres robots, le Ahrefs Bot suit les fonctions de robots.txt, ainsi que les règles d’autorisation/de refus dans le code de chaque site.
2. Semrush Bot
Semrush Bot permet à Semrush, un logiciel de SEO de premier plan, de collecter et d’indexer les données des sites pour que ses clients puissent les utiliser sur sa plateforme.
Les données sont utilisées dans le moteur de recherche public de backlinks de Semrush, l’outil d’audit de site, l’outil d’audit de liens retour, l’outil de création de liens et l’assistant de rédaction.
Il explore votre site en compilant une liste d’URL de pages web, en les visitant et en enregistrant certains hyperliens pour des visites ultérieures.
3. Moz’s Campaign Crawler Rogerbot
Rogerbot est le crawler du principal site de référencement, Moz. Ce crawler collecte spécifiquement du contenu pour les audits de site de la Moz Pro Campaign.
Rogerbot suit toutes les règles énoncées dans les fichiers robots.txt, vous pouvez donc décider si vous voulez bloquer/autoriser Rogerbot à scanner votre site.
Les webmasters ne seront pas en mesure de rechercher une adresse IP statique pour voir quelles pages Rogerbot a crawlé en raison de son approche multidimensionnelle.
4. Screaming Frog
Screaming Frog est un crawler que les professionnels du SEO utilisent pour auditer leur propre site et identifier les points à améliorer qui auront un impact sur leur classement dans les moteurs de recherche.
Une fois le crawl lancé, vous pouvez examiner les données en temps réel et identifier les liens brisés ou les améliorations à apporter aux titres de vos pages, aux métadonnées, aux robots, au contenu dupliqué, etc.
Pour configurer les paramètres de crawl, vous devez acheter une licence Screaming Frog.
5. Lumar (anciennement Deep Crawl)
Lumar est un « centre de commande centralisé pour maintenir la santé technique de votre site ». Avec cette plateforme, vous pouvez lancer un crawl de votre site pour vous aider à planifier l’architecture de votre site.
Lumar se targue d’être le « crawler de sites web le plus rapide du marché » et se vante de pouvoir crawler jusqu’à 450 URL par seconde.
6. Majestic
Majestic se concentre principalement sur le suivi et l’identification des backlinks sur les URL.
La société se targue d’avoir « l’une des sources de données de backlinks les plus complètes sur Internet », mettant en avant son index historique qui est passé de 5 à 15 ans de liens en 2021.
Le crawler du site met toutes ces données à la disposition des clients de l’entreprise.
7. cognitiveSEO
cognitiveSEO est un autre logiciel SEO important que de nombreux professionnels utilisent.
Le crawler de cognitiveSEO permet aux utilisateurs d’effectuer des audits de site complets qui éclaireront l’architecture de leur site et leur stratégie SEO.
Le robot explorera toutes les pages et fournira « un ensemble de données entièrement personnalisé » qui est unique pour l’utilisateur final. Cet ensemble de données contiendra également des recommandations pour l’utilisateur sur la façon dont il peut améliorer son site pour les autres crawlers – à la fois pour avoir un impact sur les classements et pour bloquer les crawlers qui ne sont pas nécessaires.
8. Oncrawl
Oncrawl est un « crawler SEO et un analyseur de logs à la pointe de l’industrie » pour les clients de niveau entreprise.
Les utilisateurs peuvent configurer des « profils d’exploration » afin de créer des paramètres spécifiques pour l’exploration. Vous pouvez enregistrer ces paramètres (y compris l’URL de départ, les limites d’exploration, la vitesse d’exploration maximale, etc.) pour pouvoir facilement relancer l’exploration avec les mêmes paramètres.
Dois-je protéger mon site contre les crawlers web malveillants ?
Tous les crawlers ne sont pas bons. Certains peuvent avoir un impact négatif sur la vitesse de vos pages, tandis que d’autres peuvent essayer de pirater votre site ou avoir des intentions malveillantes.
C’est pourquoi il est important de comprendre comment bloquer l’accès des crawlers à votre site.
En établissant une liste de crawlers, vous saurez quels sont les bons crawlers à surveiller. Vous pourrez ensuite éliminer ceux qui sont douteux et les ajouter à votre liste de blocage.
Comment bloquer les crawlers web malveillants
Avec votre liste de crawlers en main, vous serez en mesure d’identifier les bots que vous souhaitez approuver et ceux que vous devez bloquer.
La première étape consiste à parcourir votre liste de crawlers et à définir l’agent utilisateur et la chaine d’agent complète qui sont associés à chaque crawler ainsi que son adresse IP spécifique. Ce sont des facteurs d’identification clés qui sont associés à chaque robot.
Avec l’agent utilisateur et l’adresse IP, vous pouvez les faire correspondre dans les enregistrements de votre site par une recherche DNS ou une correspondance IP. S’ils ne correspondent pas exactement, il se peut qu’un robot malveillant tente de se faire passer pour le véritable robot.
Vous pouvez alors bloquer l’imposteur en ajustant les autorisations à l’aide de votre balise de site robots.txt.
Résumé
Les crawlers web sont utiles aux moteurs de recherche et importants à comprendre pour les spécialistes du marketing.
S’assurer que votre site est correctement exploré par les bons crawlers est important pour le succès de votre entreprise. En tenant une liste de crawlers, vous pouvez savoir lesquels surveiller lorsqu’ils apparaissent dans le journal de votre site.
En suivant les recommandations des crawlers commerciaux et en améliorant le contenu et la vitesse de votre site, vous faciliterez l’accès des crawlers à votre site et indexerez les bonnes informations pour les moteurs de recherche et les consommateurs qui les recherchent.
Laisser un commentaire