Hast du schon einmal den Begriff robots.txt gehört und dich gefragt, wie er auf deine Webseite zutrifft? Die meisten Websites haben eine robots.txt-Datei, aber das bedeutet nicht, dass die meisten Webmaster sie verstehen. In diesem Beitrag hoffen wir, das zu ändern, indem wir einen tiefen Einblick in die WordPress robots.txt Datei bieten, so wie sie den Zugriff auf deine Seite kontrollieren und einschränken kann. Am Ende wirst du in der Lage sein, folgende Fragen zu beantworten:

Es gibt viel abzudecken, also lasst uns anfangen!

Was ist eine WordPress Robots.txt?

Bevor wir über die WordPress robots.txt sprechen können, ist es wichtig zu definieren, was ein „Roboter“ in diesem Fall ist. Roboter sind jede Art von „Bot“, der Websites im Internet besucht. Das häufigste Beispiel sind Suchmaschinen-Crawler. Diese Bots „krabbeln“ durch das Web, um Suchmaschinen wie Google zu helfen, die Milliarden von Seiten im Internet zu indexieren und zu platzieren.

Bots sind also im Allgemeinen eine gute Sache für das Internet…oder zumindest eine notwendige Sache. Aber das bedeutet nicht unbedingt, dass du oder andere Webmaster Bots ungehindert herumlaufen lassen wollen. Der Wunsch, zu kontrollieren, wie Webroboter mit Websites interagieren, führte Mitte der 90er Jahre zur Schaffung des Roboterschließungsstandards. Robots.txt ist die praktische Umsetzung dieses Standards – es ermöglicht es dir zu kontrollieren, wie teilnehmende Bots mit deiner Webseite interagieren. Du kannst Bots komplett blockieren, ihren Zugriff auf bestimmte Bereiche deiner Webseite einschränken und vieles mehr.

Dieser „teilnehmende“ Teil ist jedoch wichtig. Robots.txt kann einen Bot nicht zwingen, seinen Anweisungen zu folgen. Und bösartige Bots können und werden die Datei robots.txt ignorieren. Darüber hinaus ignorieren selbst seriöse Unternehmen einige Befehle, die man in Robots.txt eingeben kann. Google ignoriert beispielsweise alle Regeln, die du zu deiner robots.txt hinzufügst, um festzustellen, wie oft die Crawler die Webseite besuchen. Wenn du viele Probleme mit Bots hast, kann sich eine Sicherheitslösung wie Cloudflare oder Sucuri als nützlich erweisen.

Warum solltest du dich um deine Robots.txt-Datei kümmern?

Für die meisten Webmaster lassen sich die Vorteile einer gut strukturierten robots.txt-Datei auf zwei Kategorien reduzieren:

Robots.txt ist nicht spezifisch für die Kontrolle, welche Seiten in Suchmaschinen indiziert werden.

Robots.txt ist kein narrensicherer Weg, um zu kontrollieren, welche Seiten von Suchmaschinen indiziert werden. Wenn dein Hauptziel darin besteht, zu verhindern, dass bestimmte Seiten in die Suchmaschinenergebnisse aufgenommen werden, ist der richtige Ansatz die Verwendung eines Meta Noindex-Tags oder einer anderen ähnlich direkten Methode.

Dies liegt daran, dass Robots.txt Suchmaschinen nicht direkt sagt, dass sie Inhalte nicht indizieren sollen – es sagt ihnen nur, dass sie sie nicht crawlen sollen. Während Google die markierten Bereiche nicht über deine Webseite durchsucht, erklärt Google selbst, dass, wenn eine externe Webseite auf eine Seite verweist, die du mit deiner Datei Robots.txt ausschließen wolltest, Google diese Seite trotzdem indizieren könnte.

John Mueller, ein Google Webmaster Analyst, hat auch bestätigt, dass, wenn eine Seite Links hat, die auf sie verweisen, auch wenn sie von robots.txt blockiert wird, trotzdem indiziert werden kann. Unten ist, was er in einem Webmaster Central Treffpunkt zu sagen hatte:

Eine Sache, die man hier vielleicht beachten sollte, ist, dass, wenn diese Seiten durch robots.txt blockiert werden, es theoretisch passieren kann, dass jemand zufällig auf eine dieser Seiten verweist. Und wenn sie das tun, dann könnte es passieren, dass wir diese URL ohne Inhalt indizieren, weil sie von robots.txt blockiert wird. Wir wissen also nicht, dass Sie diese Seiten nicht tatsächlich indiziert haben wollen.

Wenn sie jedoch nicht von robots.txt blockiert werden, können Sie auf diesen Seiten ein Noindex-Meta-Tag einfügen. Und wenn jemand zufällig mit ihnen verlinkt, und wir zufällig diesen Link durchsuchen und denken, dass es hier vielleicht etwas Nützliches gibt, dann würden wir wissen, dass diese Seiten nicht indiziert werden müssen, und wir können sie einfach von der vollständigen Indizierung ausschließen.

Also, in dieser Hinsicht, wenn Sie etwas auf diesen Seiten haben, dass Sie nicht indiziert haben wollen, dann verbieten Sie es nicht, verwenden Sie stattdessen noindex.

So erstellst und bearbeitest du deine WordPress Robots.txt Datei

Standardmäßig erstellt WordPress automatisch eine virtuelle robots.txt-Datei für deine Webseite. Selbst wenn du also keinen Finger rührst, sollte deine Webseite bereits die Standarddatei robots.txt haben. Du kannst testen, ob dies der Fall ist, indem du „/robots.txt“ an das Ende deines Domainnamens anhängst. Beispielsweise wird unter „https://kinsta.com/robots.txt“ die Datei robots.txt angezeigt, die wir hier bei Kinsta verwenden:

Beispiel einer Robots.txt-Datei

Beispiel einer Robots.txt-Datei

Da diese Datei jedoch virtuell ist, kann man sie nicht bearbeiten. Wenn du deine robots.txt-Datei bearbeiten möchtest, musst du tatsächlich eine physische Datei auf deinem Server erstellen, die du bei Bedarf bearbeiten kannst. Hier sind drei einfache Möglichkeiten, dies zu tun…

Wie man eine Robots.txt Datei mit der neuesten SEO erstellt und bearbeitet

Wenn Du das beliebte Yoast SEO-Plugin verwendest, kannst du deine robots.txt-Datei direkt von der Yoast-Schnittstelle aus erstellen (und später bearbeiten). Bevor du jedoch darauf zugreifen kannst, musst du die erweiterten Funktionen von Yoast SEO aktivieren, indem du auf SEO → Dashboard → Features gehst und auf Advanced settings pages umschaltest:

so aktivierst du erweiterte Yoast-Funktionen

so aktivierst du erweiterte Yoast-Funktionen

Sobald das aktiviert ist, kannst du zu SEO → Tools gehen und auf File editor klicken:

So greifst du auf den Yoast-Datei-Editor zu

So greifst du auf den Yoast-Datei-Editor zu

Angenommen, man hat noch keine physische Robots.txt-Datei, gibt Yoast dir die Möglichkeit, die Datei robots.txt zu erstellen:

wie man in Yoast Robots.txt erstellt

wie man in Yoast Robots.txt erstellt

Und wenn man auf diese Schaltfläche klickt, kann man den Inhalt der Datei Robots.txt direkt von derselben Oberfläche aus bearbeiten:

wie man in Yoast Robots.txt bearbeitet

wie man in Yoast Robots.txt bearbeitet

Während du weiterliest, werden wir mehr darüber erfahren, welche Arten von Anweisungen in deine WordPress robots.txt-Datei eingefügt werden sollen.

Wie man eine Robots.txt-Datei mit All-in-One-SEO erstellt und bearbeitet

Wenn du das fast so populäre All-in-One SEO Pack-Plugin verwendest, kannst du auch deine WordPress robots.txt-Datei direkt über die Benutzeroberfläche des Plugins erstellen und bearbeiten. Alles, was du tun musst, ist, zu All in One SEO → Feature Manager zu gehen und die Robots.txt Funktion zu aktivieren:

wie man Robots.txt in All In One Seo erstellt

wie man Robots.txt in All In One Seo erstellt

Dann kannst du deine Robots.txt-Datei verwalten, indem du zu All in One SEO → Robots.txt gehst:

wie man Robots.txt in All in One Seo bearbeitet

wie man Robots.txt in All in One Seo bearbeitet

So erstellst und bearbeitest du eine Robots.txt-Datei per FTP

Wenn man kein SEO-Plugin verwendet, das die Funktionalität robots.txt bietet, kann man seine robots.txt-Datei trotzdem über SFTP erstellen und verwalten. Verwende zunächst einen beliebigen Texteditor, um eine leere Datei namens „robots.txt“ zu erstellen:

wie man eine eigene Robots.txt-Datei erstellt

wie man eine eigene Robots.txt-Datei erstellt

Verbinde dich dann per SFTP mit deiner Website und lade diese Datei in den Stammordner deiner Webseite hoch. Du kannst weitere Änderungen an deiner Datei robots.txt vornehmen, indem du sie per SFTP bearbeitest oder neue Versionen der Datei hochlädst.

Was du in deine Robots.txt-Datei einfügen solltest

Ok, jetzt hast du eine physische robots.txt-Datei auf deinem Server, die du bei Bedarf bearbeiten kannst. Aber was machst du eigentlich mit dieser Datei? Nun, wie du im ersten Abschnitt gelernt hast, kannst du mit robots.txt steuern, wie Roboter mit deiner Webseite interagieren. Das machst du mit zwei Kernbefehlen:

Es gibt auch den Befehl Zulassen, den du in Nischensituationen verwenden kannst. Standardmäßig ist alles auf deiner Webseite mit Zulassen markiert, so dass es nicht notwendig ist, den Befehl Zulassen in 99% der Fälle zu verwenden. Aber es ist nützlich, wenn du den Zugriff auf einen Ordner und seine Unterordner Verbieten möchtest, aber den Zugriff auf einen bestimmten Unterordner jedoch Zulassen möchtest.

Du fügst Regeln hinzu, indem du zuerst angibst, auf welchen User-Agent sich die Regel beziehen soll, und dann mit Verbieten und Zulassen aufführst, welche Regeln gelten sollen. Es gibt auch einige andere Befehle wie Crawl-Delay und Sitemap, aber diese sind:

Lass uns einige konkrete Anwendungsfälle durchgehen, um dir zu zeigen, wie das alles zusammenkommt.

So verwendest du Robots.txt, um den Zugriff auf deine gesamte Webseite zu blockieren

Nehmen wir an, du möchtest den gesamten Crawler-Zugang zu deiner Webseite blockieren. Dies ist auf einer Live-Site unwahrscheinlich, aber für eine Entwicklungs-Site ist es sehr nützlich. Um das zu tun, würdest du diesen Code zu deiner WordPress robots.txt-Datei hinzufügen:

User-agent: *
Disallow: /

Was ist in diesem Code los?

Der *Stern neben dem User-Agenten bedeutet „alle User-Agenten“. Das Sternchen ist ein Platzhalter, d.h. es gilt für jeden einzelnen User-Agenten. Der /slash neben Disallow sagt, dass du den Zugriff auf alle Seiten, die „yourdomain.com/“ enthalten, verbieten möchtest (was jede einzelne Seite auf deiner Webseite ist).

So verwendest du Robots.txt, um einen einzelnen Bot am Zugriff auf deine Webseite zu hindern

Lasst uns die Dinge ändern. In diesem Beispiel werden wir so tun, als ob dir die Tatsache nicht gefällt, dass Bing deine Seiten durchsucht. Du bist das ganze Team Google und willst nicht einmal, dass Bing sich deine Seite ansieht. Um allein Bing davon abzuhalten deine Seite zu durchsuchen, würdest du den Platzhalter *asterisk durch Bingbot ersetzen:

User-agent: Bingbot
Disallow: /

Im Wesentlichen besagt der obige Code, dass die Disallow-Regel nur auf Bots mit dem User-Agenten „Bingbot“ angewendet werden soll. Nun, es ist unwahrscheinlich, dass man den Zugriff auf Bing blockieren möchte – aber dieses Szenario ist nützlich, wenn es einen bestimmten Bot gibt, den man nicht auf seine Webseite zugreifen lassen möchte. Diese Seite hat eine gute Auflistung der meisten bekannten Benutzer-Agentennamen der Dienste.

So verwendest du Robots.txt, um den Zugriff auf einen bestimmten Ordner oder eine bestimmte Datei zu blockieren

Für dieses Beispiel nehmen wir an, dass du nur den Zugriff auf eine bestimmte Datei oder einen bestimmten Ordner (und alle Unterordner dieses Ordners) blockieren möchtest. Um dies auf WordPress anzuwenden, nehmen wir an, dass du folgendes blockieren möchtest:

Du kannst die folgenden Befehle verwenden:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

So verwendest du Robots.txt, um den Zugriff auf eine bestimmte Datei in einem nicht zugelassenen Ordner zu erlauben

Ok, sagen wir jetzt, dass du einen ganzen Ordner blockieren willst, aber du willst trotzdem den Zugriff auf eine bestimmte Datei in diesem Ordner erlauben. An dieser Stelle kommt der Befehl Allow zum Einsatz. Und es ist eigentlich sehr hilfreich für WordPress. Tatsächlich veranschaulicht die Datei WordPress virtual robots.txt dieses Beispiel perfekt:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Dieses Snippet blockiert den Zugriff auf den gesamten Ordner /wp-admin/ mit Ausnahme der Datei /wp-admin/admin-ajax.php.

Wie man Robots.txt verwendet, um Bots vom Crawling von WordPress Suchergebnissen zu stoppen

Ein WordPress-spezifischer Optimierungsvorschlag, den du vielleicht vornehmen möchtest, ist es, Suchmaschinen-Crawler davon abzuhalten, deine Suchergebnisseiten zu durchsuchen. Standardmäßig verwendet WordPress den Abfrageparameter „?s=“. Um den Zugriff zu blockieren, musst du also nur die folgende Regel hinzufügen:

User-agent: *
Disallow: /?s=
Disallow: /search/

Dies kann eine effektive Möglichkeit sein, auch Soft-404-Fehler zu stoppen, wenn man welche erhält. Stellen Sie sicher, dass Sie unsere ausführliche Anleitung zur Beschleunigung der WordPress-Suche lesen.

So erstellst du unterschiedliche Regeln für verschiedene Bots in Robots.txt

Bislang haben sich alle Beispiele mit einer Regel nach der anderen beschäftigt. Aber was ist, wenn du unterschiedliche Regeln auf verschiedene Bots anwenden willst? Man muss lediglich jedes Regelwerk unter der User-agent Deklaration für jeden Bot hinzufügen. Wenn du zum Beispiel eine Regel erstellen möchtest, die für alle Bots gilt und eine andere Regel, die nur für Bingbot gilt, kannst du es so machen:

Haben Sie mit Ausfallzeiten und WordPress-Problemen zu kämpfen? Kinsta ist die Hosting-Lösung, die Ihnen Zeit spart! Sieh dir unsere Features an
User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /

In diesem Beispiel werden alle Bots für den Zugriff auf /wp-admin/ gesperrt, während Bingbot für den Zugriff auf deine gesamte Webseite gesperrt wird.

Testen deiner Robots.txt-Datei

Du kannst deine WordPress robots.txt-Datei in der Google Search Console testen, um sicherzustellen, dass sie korrekt eingerichtet ist. Klicke einfach auf deine Seite und unter „Crawl“ auf „robots.txt Tester“. Man kann dann jede beliebige URL, einschließlich der Homepage, einreichen. Du solltest ein grünes Zugelassen sehen, wenn alles durchsuchbar ist (gecrawled werden kann). Du kannst auch URLs testen, die du blockiert hast, um sicherzustellen, dass sie tatsächlich blockiert und/oder Verboten sind.

Test der Robots.txt-Datei

Test der Robots.txt-Datei

Vorsicht vor der UTF-8 BOM

BOM steht für Byte-Order-Mark und ist im Grunde genommen ein unsichtbares Zeichen, das manchmal von alten Texteditoren und dergleichen zu Dateien hinzugefügt wird. Wenn dies mit deiner robots.txt-Datei passiert, liest Google sie möglicherweise nicht richtig. Aus diesem Grund ist es wichtig, deine Datei auf Fehler zu überprüfen. Zum Beispiel, wie unten gesehen, hatte unsere Datei einen unsichtbaren Charakter und Google beschwert sich darüber, dass die Syntax nicht verstanden wird. Dadurch wird die erste Zeile unserer Datei robots.txt insgesamt ungültig, was nicht gut ist! Glenn Gabe hat einen ausgezeichneten Artikel darüber verfasst, wie eine UTF-8 Bom deine SEO töten könnte.

UTF-8 BOM in deiner robots.txt-Datei

UTF-8 BOM in deiner robots.txt-Datei

Googlebot ist hauptsächlich in den USA ansässig

Es ist auch wichtig, den Googlebot nicht aus den Vereinigten Staaten zu blockieren, auch wenn du eine lokale Region außerhalb der Vereinigten Staaten anvisierst. Sie crawlen manchmal lokal, aber der Googlebot läuft meist in den USA.

Was beliebte WordPress-Seiten in ihre Robots.txt-Datei einfügen

Um tatsächlich einen Kontext für die oben aufgeführten Punkte zu schaffen, hier ist, wie einige der beliebtesten WordPress-Seiten ihre robots.txt-Dateien verwenden.

TechCrunch

TechCrunch Robots.txt Datei

TechCrunch Robots.txt Datei

TechCrunch beschränkt nicht nur den Zugriff auf eine Reihe von eindeutigen Seiten, sondern verbietet Crawlern insbesondere auch:

Sie haben auch besondere Einschränkungen für zwei Bots festgelegt:

Falls du neugierig sein solltest, IRLbot ist ein Crawler aus einem Forschungsprojekt der Texas A&M University. Das ist merkwürdig!

Die Obama-Stiftung

Obama-Stiftung Robots.txt-Datei

Obama-Stiftung Robots.txt-Datei

Die Obama-Stiftung hat keine besonderen Ergänzungen vorgenommen und sich ausschließlich dafür entschieden, den Zugang zu /wp-admin/ zu beschränken.

Angry Birds

Angry Birds Robots.txt-Datei

Angry Birds Robots.txt-Datei

Angry Birds hat die gleiche Standardeinstellung wie die Obama-Stiftung. Es wird nichts Besonderes hinzugefügt.

Drift

Drift Robots.txt-Datei

Drift Robots.txt-Datei

Drift entscheidet sich schließlich dafür, seine Sitemaps in der Datei Robots.txt zu definieren, lässt aber ansonsten die gleichen Standardbeschränkungen wie die Obama-Stiftung und Angry Birds walten.

Verwende Robots.txt auf die richtige Weise

Zum Abschluss unseres Leitfadens robots.txt möchten wir dich noch einmal daran erinnern, dass die Verwendung eines Disallow-Befehls in deiner robots.txt-Datei nicht dasselbe ist wie die Verwendung eines noindex-Tags. Robots.txt blockiert das Crawlen, aber nicht unbedingt die Indizierung. Du kannst damit spezifische Regeln hinzufügen, um die Interaktion von Suchmaschinen und anderen Bots mit deiner Webseite zu gestalten, aber es wird nicht explizit gesteuert, ob dein Inhalt indiziert ist oder nicht.

Für die meisten Gelegenheitsanwender von WordPress ist es nicht dringend erforderlich, die standardmäßige Datei robots.txt zu ändern. Wenn du jedoch Probleme mit einem bestimmten Bot hast oder ändern möchtest, wie Suchmaschinen mit einem bestimmten Plugin oder Thema interagieren, das du verwendest, solltest du vielleicht deine eigenen Regeln hinzufügen.

Wir hoffen, dass dir dieser Leitfaden gefallen hat und hinterlasse gerne einen Kommentar, wenn du weitere Fragen zur Verwendung deiner WordPress robots.txt-Datei hast.


Wenn Dir dieser Artikel gefallen hat, dann wirst du Kinsta’s WordPress Hosting-Plattform lieben. Beschleunige deine Webseite und erhalte 24/7 Support von unserem erfahrenen WordPress-Team. Unsere Google Cloud basierte Infrastruktur konzentriert sich auf die Bereiche Auto-Scaling, Performance und Sicherheit. Lass uns dir den Kinsta-Unterschied zeigen! Schau Dir hier unsere Pakete an