Für die meisten Vermarkter sind ständige Aktualisierungen erforderlich, um ihre Website aktuell zu halten und ihre SEO-Rankings zu verbessern.
Manche Websites haben jedoch Hunderte oder sogar Tausende von Seiten, was eine Herausforderung für die Teams darstellt, die die Aktualisierungen manuell an die Suchmaschinen übermitteln. Wenn die Inhalte so häufig aktualisiert werden, wie können die Teams dann sicherstellen, dass sich diese Verbesserungen auch auf ihre SEO-Rankings auswirken?
An dieser Stelle kommen Crawler-Bots ins Spiel. Ein Web-Crawler-Bot durchsucht deine Sitemap nach neuen Aktualisierungen und indexiert die Inhalte in Suchmaschinen.
In diesem Beitrag stellen wir dir eine umfassende Crawler-Liste vor, die alle Web-Crawler-Bots umfasst, die du kennen musst. Bevor wir einsteigen, wollen wir Web-Crawler-Bots definieren und zeigen, wie sie funktionieren.
Was ist ein Web Crawler?
Ein Web-Crawler ist ein Computerprogramm, das Webseiten automatisch scannt und systematisch liest, um die Seiten für Suchmaschinen zu indizieren. Webcrawler werden auch als Spider oder Bots bezeichnet.
Damit Suchmaschinen den Nutzern, die eine Suche starten, aktuelle, relevante Webseiten präsentieren können, muss ein Web-Crawler-Bot die Seiten crawlen. Dieser Prozess kann manchmal automatisch ablaufen (je nach den Einstellungen des Crawlers und deiner Website) oder er kann direkt initiiert werden.
Viele Faktoren beeinflussen das SEO-Ranking deiner Seiten, darunter Relevanz, Backlinks, Webhosting und vieles mehr. All diese Faktoren spielen jedoch keine Rolle, wenn deine Seiten nicht von den Suchmaschinen gecrawlt und indexiert werden. Deshalb ist es so wichtig, dass du sicherstellst, dass deine Website die richtigen Crawls zulässt und alle Hindernisse aus dem Weg räumst.
Bots müssen das Web ständig scannen und scrapen, um sicherzustellen, dass die genauesten Informationen präsentiert werden. Google ist die meistbesuchte Website in den USA, und etwa 26,9 % der Suchanfragen stammen von amerikanischen Nutzern:
Allerdings gibt es nicht den einen Webcrawler, der für jede Suchmaschine crawlt. Jede Suchmaschine hat ihre eigenen Stärken, deshalb stellen Entwickler und Vermarkter manchmal eine „Crawler-Liste“ zusammen Diese Crawler-Liste hilft ihnen, verschiedene Crawler in ihrem Website-Protokoll zu identifizieren und zu akzeptieren oder zu blockieren.
Vermarkter müssen eine Crawlerliste mit den verschiedenen Webcrawlern zusammenstellen und verstehen, wie sie ihre Website bewerten (im Gegensatz zu Content Scrapers, die die Inhalte stehlen), um sicherzustellen, dass sie ihre Landing Pages richtig für Suchmaschinen optimieren.
Wie funktioniert ein Web Crawler?
Ein Webcrawler scannt deine Webseite automatisch, nachdem sie veröffentlicht wurde, und indexiert deine Daten.
Webcrawler suchen nach bestimmten Schlüsselwörtern, die mit der Webseite verbunden sind, und indexieren diese Informationen für relevante Suchmaschinen wie Google, Bing und andere.
Die Algorithmen der Suchmaschinen holen diese Daten ab, wenn ein Nutzer eine Anfrage nach dem entsprechenden Schlüsselwort stellt.
Crawls beginnen mit bekannten URLs. Das sind etablierte Webseiten mit verschiedenen Signalen, die Webcrawler zu diesen Seiten leiten. Diese Signale können sein:
- Backlinks: Die Anzahl der Links auf eine Website
- Besucher: Wie viel Traffic auf die Seite kommt
- Domain-Autorität: Die allgemeine Qualität der Domain
Dann speichern sie die Daten im Index der Suchmaschine. Wenn der Nutzer eine Suchanfrage stellt, holt der Algorithmus die Daten aus dem Index, und sie erscheinen auf der Ergebnisseite der Suchmaschine. Dieser Vorgang kann innerhalb weniger Millisekunden ablaufen, weshalb die Ergebnisse oft schnell erscheinen.
Als Webmaster kannst du kontrollieren, welche Bots deine Website crawlen. Deshalb ist es wichtig, eine Crawler-Liste zu haben. Es ist die robots.txt-Protokoll die auf den Servern jeder Website liegt und die Crawler auf neue Inhalte hinweist, die indiziert werden müssen.
Je nachdem, was du in dein robots.txt-Protokoll auf jeder Webseite eingibst, kannst du einem Crawler sagen, dass er diese Seite in Zukunft scannen oder nicht indexieren soll.
Wenn du verstehst, wonach ein Webcrawler bei seinem Scan sucht, kannst du deine Inhalte besser für Suchmaschinen positionieren.
Erstelle deine Crawler-Liste: Was sind die verschiedenen Arten von Webcrawlern?
Wenn du über die Erstellung deiner Crawler-Liste nachdenkst, gibt es drei Haupttypen von Crawlern, nach denen du suchen solltest. Dazu gehören:
- Interne Crawler: Das sind Crawler, die vom Entwicklungsteam eines Unternehmens entwickelt wurden, um die Website zu scannen. In der Regel werden sie zur Überprüfung und Optimierung der Website eingesetzt.
- Kommerzielle Crawler: Dies sind maßgeschneiderte Crawler wie Screaming Frog, die Unternehmen zum Crawlen und zur effizienten Auswertung ihrer Inhalte einsetzen können.
- Open-Source Crawler: Das sind kostenlos nutzbare Crawler, die von einer Vielzahl von Entwicklern und Hackern auf der ganzen Welt entwickelt werden.
Es ist wichtig, die verschiedenen Arten von Crawlern zu kennen, damit du weißt, welchen Typ du für deine eigenen Geschäftsziele nutzen musst.
Die 11 gängigsten Webcrawler, die du in deine Crawler-Liste aufnehmen solltest
Es gibt nicht den einen Crawler, der die ganze Arbeit für jede Suchmaschine erledigt.
Stattdessen gibt es eine Vielzahl von Webcrawlern, die deine Webseiten auswerten und die Inhalte für alle Suchmaschinen scannen, die den Nutzern auf der ganzen Welt zur Verfügung stehen.
Schauen wir uns einige der gängigsten Webcrawler an.
1. Googlebot
Der Googlebot ist Googles allgemeiner Webcrawler, der dafür zuständig ist, Websites zu crawlen, die in der Google-Suchmaschine angezeigt werden sollen.
Obwohl es technisch gesehen zwei Versionen von Googlebot gibt – Googlebot Desktop und Googlebot Smartphone (Mobile) – betrachten die meisten Experten Googlebot als einen einzigen Crawler.
Das liegt daran, dass beide demselben eindeutigen Produkt-Token (bekannt als User-Agent-Token) folgen, der in der robots.txt jeder Website steht. Der Benutzeragent von Googlebot heißt einfach „Googlebot“
Googlebot macht sich an die Arbeit und greift normalerweise alle paar Sekunden auf deine Website zu (es sei denn, du hast ihn in der robots.txt deiner Website blockiert). Ein Backup der gescannten Seiten wird in einer einheitlichen Datenbank namens Google Cache gespeichert. So kannst du dir alte Versionen deiner Website ansehen.
Außerdem ist die Google Search Console ein weiteres Tool, mit dem Webmaster/innen verstehen können, wie der Googlebot ihre Website crawlt, und mit dem sie ihre Seiten für die Suche optimieren können.
User Agent | Googlebot |
Full User Agent String | Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
2. Bingbot
Bingbot wurde 2010 von Microsoft entwickelt, um URLs zu scannen und zu indizieren, damit Bing den Nutzern der Plattform relevante und aktuelle Suchmaschinenergebnisse bietet.
Ähnlich wie beim Googlebot können Entwickler/innen oder Vermarkter/innen in der robots.txt auf ihrer Website festlegen, ob sie dem Agentenkennzeichen „bingbot“ das Scannen ihrer Website erlauben oder verweigern.
Außerdem haben sie die Möglichkeit, zwischen Mobile-First-Indexing-Crawlern und Desktop-Crawlern zu unterscheiden, da Bingbot kürzlich zu einem neuen Agententyp gewechselt hat. Zusammen mit den Bing Webmaster Tools bietet dies Webmaster/innen eine größere Flexibilität, um zu zeigen, wie ihre Website entdeckt und in den Suchergebnissen angezeigt wird.
User Agent | Bingbot |
Full User Agent String | Desktop – Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36
Mobile – Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm) „W.X.Y.Z“ wird durch die neueste Microsoft Edge-Version ersetzt, die Bing verwendet, z.B. „100.0.4896.127″. |
3. Yandex Bot
Yandex Bot ist ein Crawler speziell für die russische Suchmaschine Yandex. Dies ist eine der größten und beliebtesten Suchmaschinen in Russland.
Webmaster können ihre Seiten über die robots.txt-Datei für den Yandex Bot zugänglich machen.
Außerdem können sie bestimmten Seiten ein Yandex.Metrica-Tag hinzufügen, Seiten im Yandex Webmaster neu indexieren oder ein IndexNow-Protokoll erstellen, einen einzigartigen Bericht, der auf neue, geänderte oder deaktivierte Seiten hinweist.
User Agent | YandexBot |
Full User Agent String | Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) |
4. Apple Bot
Apple hat den Apple Bot beauftragt, Webseiten für Apples Siri und Spotlight Suggestions zu crawlen und zu indexieren.
Apple Bot berücksichtigt mehrere Faktoren bei der Entscheidung, welche Inhalte in Siri und Spotlight Suggestions angezeigt werden sollen. Zu diesen Faktoren gehören das Engagement der Nutzer/innen, die Relevanz von Suchbegriffen, die Anzahl/Qualität von Links, standortbezogene Signale und sogar das Design einer Webseite.
User Agent | Applebot |
Full User Agent String | Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko) Version/Safari_version Safari/WebKit_version (Applebot/Applebot_version) |
5. DuckDuck Bot
Der DuckDuckBot ist der Web-Crawler für DuckDuckGo, der „nahtlosen Schutz der Privatsphäre in deinem Webbrowser“ bietet.
Webmaster können die DuckDuckBot API nutzen, um zu sehen, ob der DuckDuck Bot ihre Website gecrawlt hat. Während er crawlt, aktualisiert er die DuckDuckBot API-Datenbank mit den neuesten IP-Adressen und User-Agents.
Dies hilft Webmastern, Betrüger oder bösartige Bots zu identifizieren, die versuchen, sich mit dem DuckDuck Bot zu verbinden.
User Agent | DuckDuckBot |
Full User Agent String | DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html) |
6. Baidu Spider
Baidu ist die führende chinesische Suchmaschine, und der Baidu Spider ist der einzige Crawler der Seite.
Google ist in China verboten. Deshalb ist es wichtig, dass der Baidu Spider deine Website crawlen kann, wenn du den chinesischen Markt erreichen willst.
Um herauszufinden, ob der Baidu Spider deine Seite crawlt, suche nach den folgenden User Agents: baiduspider, baiduspider-image, baiduspider-video und mehr.
Wenn du nicht in China geschäftlich tätig bist, kann es sinnvoll sein, den Baidu Spider in deinem robots.txt-Skript zu blockieren. Damit verhinderst du, dass der Baidu Spider deine Website crawlt und deine Seiten auf den Baidu-Suchergebnisseiten (SERPs) auftauchen.
User Agent | Baiduspider |
Full User Agent String | Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) |
7. Sogou Spider
Sogou ist eine chinesische Suchmaschine, die angeblich die erste Suchmaschine ist, die 10 Milliarden chinesische Seiten indexiert hat.
Wenn du auf dem chinesischen Markt tätig bist, ist dies ein weiterer beliebter Suchmaschinen-Crawler, den du kennen solltest. Der Sogou Spider folgt den Ausschlusstext- und Crawl-Verzögerungsparametern des Roboters.
Wie beim Baidu Spider solltest du auch diesen Spider deaktivieren, wenn du keine Geschäfte auf dem chinesischen Markt machen willst, um langsame Ladezeiten zu vermeiden.
User Agent | Sogou Pic Spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) Sogou head spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) Sogou Orion spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) Sogou-Test-Spider/4.0 (compatible; MSIE 5.5; Windows 98) |
8. Facebook External Hit
Facebook External Hit, auch bekannt als Facebook Crawler, crawlt den HTML-Code einer auf Facebook geteilten App oder Website.
Auf diese Weise kann die soziale Plattform eine teilbare Vorschau für jeden auf der Plattform geposteten Link erstellen. Der Titel, die Beschreibung und das Vorschaubild werden dank des Crawlers angezeigt.
Wenn der Crawl nicht innerhalb von Sekunden ausgeführt wird, zeigt Facebook den Inhalt nicht in dem benutzerdefinierten Snippet an, das vor dem Teilen erstellt wird.
User Agent | facebot facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php) facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php) |
9. Exabot
Exalead ist ein Softwareunternehmen, das im Jahr 2000 gegründet wurde und seinen Hauptsitz in Paris, Frankreich hat. Das Unternehmen bietet Suchplattformen für Privat- und Unternehmenskunden an.
Exabot ist der Crawler für die Kernsuchmaschine, die auf dem Produkt CloudView basiert.
Wie die meisten Suchmaschinen berücksichtigt Exalead beim Ranking sowohl Backlinks als auch den Inhalt von Webseiten. Exabot ist der User Agent des Exalead Roboters. Der Roboter erstellt einen „Hauptindex“, der die Ergebnisse zusammenstellt, die die Nutzer der Suchmaschine sehen.
User Agent | Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails) Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot) |
10. Swiftbot
Swiftype ist eine maßgeschneiderte Suchmaschine für deine Website. Sie kombiniert „die besten Suchtechnologien, Algorithmen, Content Ingestion Framework, Clients und Analysetools“
Wenn du eine komplexe Website mit vielen Seiten hast, bietet Swiftype eine nützliche Schnittstelle, um alle deine Seiten für dich zu katalogisieren und zu indizieren.
Swiftbot ist der Web-Crawler von Swiftype. Im Gegensatz zu anderen Bots crawlt Swiftbot jedoch nur die Seiten, die seine Kunden anfordern.
User Agent | Swiftbot |
Full User Agent String | Mozilla/5.0 (compatible; Swiftbot/1.0; UID/54e1c2ebd3b687d3c8000018; +http://swiftype.com/swiftbot) |
11. Slurp Bot
Slurp Bot ist der Yahoo-Suchroboter, der Seiten für Yahoo crawlt und indiziert.
Dieser Crawl ist sowohl für Yahoo.com als auch für seine Partnerseiten wie Yahoo News, Yahoo Finance und Yahoo Sports unerlässlich. Ohne ihn würden relevante Seiten nicht angezeigt werden.
Die indexierten Inhalte tragen dazu bei, den Nutzern ein personalisiertes Web-Erlebnis mit relevanteren Ergebnissen zu bieten.
User Agent | Slurp |
Full User Agent String | Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) |
12. CCBot
CCBot ist ein auf Nutch basierender Web-Crawler, der von Common Crawl entwickelt wurde. Common Crawl ist eine gemeinnützige Organisation, die sich zum Ziel gesetzt hat, Unternehmen, Privatpersonen und allen, die an Online-Recherchen interessiert sind, kostenlos eine Kopie des Internets zur Verfügung zu stellen. Der Bot nutzt MapReduce, ein Programmierframework, das es ihm ermöglicht, große Datenmengen zu wertvollen Gesamtergebnissen zusammenzufassen.
Dank CCBot können Menschen die Daten von Common Crawl nutzen, um Sprachübersetzungssoftware zu verbessern und Trends vorherzusagen. Tatsächlich wurde GPT-3 größtenteils mit den Daten aus ihrem Datensatz trainiert.
User Agent | CCBot/2.0 (https://commoncrawl.org/faq/) CCBot/2.0 CCBot/2.0 (http://commoncrawl.org/faq/) |
Die 8 kommerziellen Crawler, die SEO-Profis kennen müssen
Nachdem du nun 12 der beliebtesten Bots auf deiner Crawler-Liste hast, wollen wir uns nun einige der gängigen kommerziellen Crawler und SEO-Tools für Profis ansehen.
1. Ahrefs Bot
Der Ahrefs Bot ist ein Webcrawler, der die 12 Billionen Linkdatenbank der beliebten SEO-Software Ahrefs zusammenstellt und indexiert.
Der Ahrefs Bot besucht jeden Tag 6 Milliarden Websites und gilt als „zweitaktivster Crawler“ nach dem Googlebot.
Ähnlich wie andere Bots befolgt der Ahrefs Bot die robots.txt-Funktionen sowie die Erlaubnis- und Verbotsregeln im Code der jeweiligen Website.
2. Semrush Bot
Der Semrush Bot ermöglicht es Semrush, einer führenden SEO-Software, Websitedaten zu sammeln und zu indexieren, damit seine Kunden sie auf ihrer Plattform nutzen können.
Die Daten werden in der öffentlichen Backlink-Suchmaschine von Semrush, dem Website-Audit-Tool, dem Backlink-Audit-Tool, dem Linkaufbau-Tool und dem Schreibassistenten verwendet.
Er crawlt deine Website, indem er eine Liste von Webseiten-URLs zusammenstellt, sie besucht und bestimmte Hyperlinks für zukünftige Besuche speichert.
3. Moz’s Kampagnen-Crawler Rogerbot
Rogerbot ist der Crawler für die führende SEO-Website Moz. Dieser Crawler sammelt speziell Inhalte für Moz Pro Campaign Site Audits.
Rogerbot befolgt alle Regeln, die in den robots.txt-Dateien festgelegt sind. Du kannst also selbst entscheiden, ob du Rogerbot das Scannen deiner Website verbieten/erlauben willst.
Webmaster können nicht nach einer statischen IP-Adresse suchen, um zu sehen, welche Seiten Rogerbot gecrawlt hat, da es einen vielseitigen Ansatz verfolgt.
4. Screaming Frog
Screaming Frog ist ein Crawler, den SEO-Profis nutzen, um ihre eigene Website zu überprüfen und Verbesserungsmöglichkeiten zu identifizieren, die sich auf ihr Suchmaschinenranking auswirken.
Sobald ein Crawl gestartet wurde, kannst du die Echtzeitdaten überprüfen und fehlerhafte Links oder notwendige Verbesserungen an Seitentiteln, Metadaten, Robots, doppeltem Inhalt und vielem mehr identifizieren.
Um die Crawl-Parameter zu konfigurieren, musst du eine Screaming Frog-Lizenz erwerben.
5. Lumar (ehemals Deep Crawl)
Lumar ist eine „zentrale Kommandozentrale zur Aufrechterhaltung des technischen Zustands deiner Website“ Mit dieser Plattform kannst du einen Crawl deiner Website initiieren, um deine Website-Architektur zu planen.
Lumar rühmt sich, der „schnellste Website-Crawler auf dem Markt“ zu sein, und rühmt sich, bis zu 450 URLs pro Sekunde zu crawlen.
6. Majestic
Majestic konzentriert sich in erster Linie auf das Aufspüren und Identifizieren von Backlinks auf URLs.
Das Unternehmen ist stolz darauf, „eine der umfangreichsten Quellen für Backlinkdaten im Internet“ zu haben, und hebt seinen historischen Index hervor, der im Jahr 2021 von 5 auf 15 Jahre an Links angewachsen ist.
Der Crawler der Website macht all diese Daten für die Kunden des Unternehmens zugänglich.
7. cognitiveSEO
cognitiveSEO ist eine weitere wichtige SEO-Software, die viele Profis nutzen.
Mit dem Crawler von cognitiveSEO können Nutzer/innen umfassende Site-Audits durchführen, die ihre Site-Architektur und die übergreifende SEO-Strategie beeinflussen.
Der Bot crawlt alle Seiten und liefert „einen vollständig angepassten Datensatz“, der für den Endnutzer einzigartig ist. Dieser Datensatz enthält auch Empfehlungen für den Nutzer, wie er seine Website für andere Crawler verbessern kann – sowohl um das Ranking zu beeinflussen als auch um Crawler zu blockieren, die unnötig sind.
8. Oncrawl
Oncrawl ist ein „branchenführender SEO-Crawler und Log-Analysator“ für Kunden auf Unternehmensebene.
Nutzer können „Crawl-Profile“ einrichten, um bestimmte Parameter für den Crawl festzulegen. Du kannst diese Einstellungen (einschließlich der Start-URL, der Crawl-Limits, der maximalen Crawl-Geschwindigkeit und mehr) speichern, um den Crawl mit denselben Parametern erneut durchzuführen.
Muss ich meine Website vor bösartigen Webcrawlern schützen?
Nicht alle Crawler sind gut. Einige können sich negativ auf deine Seitengeschwindigkeit auswirken, während andere versuchen, deine Website zu hacken oder bösartige Absichten haben.
Deshalb ist es wichtig, dass du weißt, wie du Crawler davon abhältst, auf deine Website zuzugreifen.
Wenn du eine Crawler-Liste erstellst, weißt du, welche Crawler gut sind und worauf du achten musst. Dann kannst du die fragwürdigen Crawler aussortieren und sie zu deiner Blockierliste hinzufügen.
Wie du bösartige Webcrawler blockierst
Mit deiner Crawler-Liste kannst du feststellen, welche Bots du zulassen und welche du blockieren musst.
Der erste Schritt besteht darin, deine Crawler-Liste durchzugehen und den User-Agent und den Full-Agent-String zu bestimmen, der mit jedem Crawler verbunden ist, sowie seine spezifische IP-Adresse. Dies sind die wichtigsten Identifikationsfaktoren, die mit jedem Bot verbunden sind.
Mit dem User Agent und der IP-Adresse kannst du sie in deinen Website-Einträgen durch einen DNS-Lookup oder einen IP-Abgleich abgleichen. Wenn sie nicht genau übereinstimmen, könnte es sein, dass ein bösartiger Bot versucht, sich als der echte auszugeben.
Dann kannst du den Betrüger blockieren, indem du die Berechtigungen in deiner robots.txt anpasst.
Zusammenfassung
Webcrawler sind nützlich für Suchmaschinen und wichtig für Vermarkter zu verstehen.
Für den Erfolg deines Unternehmens ist es wichtig, dass deine Website von den richtigen Crawlern gecrawlt wird. Wenn du eine Crawler-Liste führst, weißt du, auf welche Crawler du achten musst, wenn sie in deinem Website-Log erscheinen.
Wenn du die Empfehlungen kommerzieller Crawler befolgst und den Inhalt und die Geschwindigkeit deiner Website verbesserst, erleichterst du den Crawlern den Zugriff auf deine Website und indexierst die richtigen Informationen für Suchmaschinen und die Verbraucher, die danach suchen.
Schreibe einen Kommentar