Heb je wel eens gehoord van de term robots.txt en vraag je je af hoe je dit bestand kan inzetten voor je website? De meeste websites hebben een robots.txt-bestand, maar dat betekent natuurlijk niet dat de meeste webmasters ook snappen waar dit bestand voor dient. In dit artikel hopen we dat te veranderen door het WordPress robots.txt-bestand eens goed onder de loep te nemen, evenals hoe dit bestand de toegang tot je site kan beheren en beperken. Tegen het einde van dit artikel kun je vragen beantwoorden zoals:

Er is veel te lezen, dus laten we beginnen!

Wat is een WordPress robots.txt?

Voordat we het over de WordPress robots.txt kunnen hebben, is het belangrijk om te definiëren wat een “robot” in dit geval is. Met robots bedoelen we elk type ‘bot’ die het internet bezoeken. Het meest voorkomende voorbeeld zijn crawlers van zoekmachines. Deze bots ‘crawlen’ het web om zoekmachines zoals Google-index te helpen en de miljarden pagina’s op internet te rangschikken.

Dus, bots zijn over het algemeen een goede zaak voor het internet … of op zijn minst een noodzakelijk iets. Maar dat betekent niet noodzakelijk dat jij, of andere webmasters, robots zonder belemmering rond moeten laten rennen. De wens om te bepalen hoe webrobots met websites omgaan, leidde in het midden van de jaren negentig tot de standaard voor het uitsluiten van robots. Robots.txt is de praktische implementatie van die standaard – hiermee kun je bepalen hoe deelnemende bots met je site omgaan. Je kunt bots volledig blokkeren, hun toegang tot bepaalde gedeelten van je site beperken en meer.

Dat “deelnemende” deel is echter belangrijk. Robots.txt kan een bot niet dwingen zijn richtlijnen te volgen. En kwaadwillende bots kunnen en zullen het robots.txt-bestand negeren. Bovendien negeren zelfs gerenommeerde organisaties sommige opdrachten die je in Robots.txt kunt zetten. Google negeert bijvoorbeeld alle regels die je aan je robots.txt toevoegt over hoe vaak zijn crawlers je site mogen bezoeken. Als je veel problemen hebt met bots, kan een beveiligingsoplossing zoals Cloudflare of Sucuri van pas komen.

Waarom zou je naar je robots.txt-bestand omkijken?

Voor de meeste webmasters komen de voordelen van een goed gestructureerd robots.txt-bestand neer op twee categorieën:

  1. Optimaliseren van de resources van zoekmachines door hen te vertellen geen tijd te verspillen aan pagina’s die je niet wilt laten indexeren. Dit helpt ervoor te zorgen dat zoekmachines zich richten op het doorzoeken van de pagina’s die voor jou het belangrijkst zijn.
  2. Optimaliseren van je gebruik door bots te blokkeren die bronnen verspillen.

Robots.txt gaat niet specifiek over het beheren van welke pagina’s worden geïndexeerd in zoekmachines

Robots.txt is geen manier om te bepalen welke pagina’s zoekmachines mogen indexeren. Als het je primaire doel is om te voorkomen dat bepaalde pagina’s worden opgenomen in de resultaten van zoekmachines, is de juiste methode om een ​​meta-noindex-tag of een andere vergelijkbare methode te gebruiken.

Dit komt omdat je Robots.txt-bestand zoekmachines niet verbiedt om inhoud te indexeren – het bestand vertelt alleen dat ze je site niet mogen crawlen. Hoewel Google de gemarkeerde gebieden niet vanuit je site crawlt, heeft Google wel degelijk gezegd dat als een externe site links bevat naar een pagina die je uitsluit met je bestand Robots.txt, Google die pagina mogelijk nog steeds indexeert.

John Mueller, een Google Webmaster Analyst, heeft bevestigd dat als er naar een bepaalde pagina gelinkt wordt – zelfs als de pagina in kwestie de bot blokkeert middels robots.txt – deze mogelijk nog steeds wordt geïndexeerd. Hieronder staat wat hij te zeggen had in een hangout van Webmaster Central:

Een ding om misschien in gedachten te houden is dat als deze pagina’s worden geblokkeerd door robots.txt, het in theorie zou kunnen gebeuren dat iemand linkt naar een van deze pagina’s. En als ze dat doen, kan het gebeuren dat we deze URL indexeren zonder inhoud, omdat deze wordt geblokkeerd door robots.txt. We weten dus niet dat je deze pagina’s niet geïndexeerd wilt hebben.

Als ze niet worden geblokkeerd door robots.txt, kan je een noindex-metatag op die pagina’s plaatsen. En als iemand dan naar een dergelijke pagina linkt en we daarom die link crawlen en denken dat er misschien iets nuttigs staat, dan weten we dat deze pagina’s niet geïndexeerd hoeven te worden en kunnen we deze helemaal overslaan.

Dus in dat opzicht, als je iets op deze pagina’s hebt staan wat je niet geïndexeerd wilt hebben, verbied het dan niet met robots.txt, maar gebruik in plaats daarvan noindex.

Hoe je je WordPress Robots.txt-bestand aanmaakt en bewerkt

WordPress maakt automatisch een virtueel robots.txt-bestand voor je site. Dus zelfs als je niets doet, moet je site al het standaard robots.txt-bestand hebben. Je kunt testen of dit het geval is door “/robots.txt” toe te voegen aan het einde van je domeinnaam. “https://kinsta.com/robots.txt” bijvoorbeeld, geeft het robots.txt-bestand dat we hier bij Kinsta gebruiken weer:

Voorbeeld van een Robots.txt bestand

Voorbeeld van een Robots.txt bestand

Omdat dit bestand virtueel is, kun je het echter niet bewerken. Als je je robots.txt-bestand wilt bewerken, moet je daadwerkelijk een fysiek bestand op je server maken dat je naar behoefte kunt bewerken. Hier zijn drie eenvoudige manieren om dat te doen …

Hoe een Robots.txt bestand aan te maken en te bewerken met Yoast SEO

Als je de populaire Yoast SEO-plug-in gebruikt, kan je je robots.txt-bestand rechtstreeks vanuit de interface van Yoast aanmaken (en later bewerken). Voordat je toegang tot deze functionaliteiten kan krijgen, moet je de geavanceerde functies van Yoast SEO inschakelen door naar SEO → Dashboard → Features en daarna de Advanced settings pages inchakelen:

Hoe geavanceerde Yoast-functies in te schakelen

Hoe geavanceerde Yoast-functies in te schakelen

Zodra je hem geactiveerd hebt, kun je naar SEO → Tools gaan en op File editor klikken:

Hoe toegang te krijgen tot de Yoast-bestandseditor

Hoe toegang te krijgen tot de Yoast-bestandseditor

Ervan uitgaande dat je nog geen fysiek bestand Robots.txt hebt, geeft Yoast je de optie om een robots.txt-bestand maken:

Hoe maak je Robots.txt aan in Yoast

Hoe maak je Robots.txt aan in Yoast

Zodra je op die knop klikt, kun je de inhoud van je bestand Robots.txt rechtstreeks vanuit dezelfde interface bewerken:

Hoe bewerk je Robots.txt in Yoast

Hoe bewerk je Robots.txt in Yoast

Verder in dit artikel geven we je een aantal handvatten over wat voor soort opdrachten je in je WordPress robots.txt-bestand kan plaatsen.

Hoe een Robots.txt-bestand aan te maken en te bewerken met All In One SEO

Een andere populaire SEO-plug-in die je kan gebruiken is de All in One SEO Pack plug-in. Ook met deze plug-in kan je je WordPress robots.txt-bestand rechtstreeks vanuit de interface van de plug-in maken en bewerken. Het enige wat je hoeft te doen is naar All in One SEO → Feature Manager gaan en de functie Robots.txt activeren:

Hoe Robots.txt te creëren in All In One SEO

Hoe Robots.txt te creëren in All In One SEO

Vervolgens kunt je je Robots.txt-bestand beheren door naar All in One SEO → Robots.txt te gaan:

Hoe bewerk je Robots.txt in All In One SEO

Hoe bewerk je Robots.txt in All In One SEO

Een bestand Robots.txt maken en bewerken via FTP

Als je geen SEO-plug-in gebruikt die robots.txt-functionaliteiten ondersteunt, kun je je robots.txt-bestand nog steeds maken en beheren via SFTP. Gebruik eerst een teksteditor om een ​​leeg bestand met de naam “robots.txt” te maken:

Hoe je je eigen Robots.txt-bestand aanmaakt

Hoe je je eigen Robots.txt-bestand aanmaakt

Maak vervolgens via SFTP-verbinding met je site en upload dat bestand naar de hoofdmap van je site. Je kunt je robots.txt-bestand verder wijzigen door het via SFTP te bewerken of door nieuwe versies van het bestand te uploaden.

Wat moet je in je Robots.txt-bestand plaatsen

Ok, je hebt nu een fysiek robots.txt-bestand op je server staan dat je naar jouw wens kan aanpassen. Maar wat doe je eigenlijk met dat bestand? Welnu, zoals je in het eerste gedeelte hebt geleerd, kun je met robots.txt bepalen hoe robots omgaan met je site. Dat doe je met twee kernopdrachten:

Er is ook een Allow-opdracht – hiermee verleen je toegang – die je in bepaalde omstandigheden kunt gebruiken. Standaard is alles op je site gemarkeerd als Allow, dus komt het bijna nooit voor dat je deze opdracht hoeft te gebruiken. Echter, deze functie kan goed van pas komen als je toegang tot een map en onderliggende mappen wil weigeren (Disallow), maar wel toegang wil verlenen aan een specifieke onderliggende map (Allow).

Je voegt regels toe door eerst op te geven voor welke User-agent de regel moet gelden en vervolgens aan te geven welke regels moeten worden toegepast met behulp van Disallow and Allow. Er zijn ook enkele andere opdrachten, zoals Crawl-delay en Sitemap, maar deze zijn:

Laten we enkele praktijkvoorbeelden doornemen om je te laten zien hoe alles wat we tot dusver hebben besproken, samenkomt.

Hoe robots.txt te gebruiken om toegang tot je hele site te blokkeren

Stel dat je alle crawlertoegang op je site wilt blokkeren. Het is onwaarschijnlijk dat dit gebeurt op een live site, maar het is handig voor een site die je aan het developen bent. Om dit te doen voeg je deze code toe aan je WordPress robots.txt-bestand:

User-agent: *
Disallow: /

Enig idee wat er hierboven gebeurt?

De * asterisk naast User-agent betekent “alle user-agents”. Het sterretje is een jokerteken, wat betekent dat het van toepassing is op elke mogelijke user-agent. De /slash naast Disallow geeft aan dat je de toegang tot alle pagina’s met “jouwdomein.nl/” wilt verbieden (dit is elke pagina op je site).

Hoe Robots.txt te gebruiken om een individuele bot de toegang tot je site te ontzeggen

Laten we nu iets anders proberen. In dit voorbeeld doen we alsof je niet wilt dat Bing je pagina’s crawlt. Je bent helemaal van Team Google en wilt niet dat Bing naar je site kijkt. Als je wilt voorkomen dat alleen Bing je site crawlt, vervang je het *jokerteken door Bingbot:

User-agent: Bingbot
Disallow: /

Bovenstaande code zegt dat de regel Disallow alleen moet worden toegepast op bots met de User-agent “Bingbot”. Het is onwaarschijnlijk dat je de toegang tot Bing wilt blokkeren, maar dit scenario is handig als er een specifieke bot is die je geen toegang tot je site wilt geven. Deze site heeft een goede lijst met de meeste bekende namen van gebruikersagenten.

Hoe robots.txt te gebruiken om toegang tot een specifieke map of bestand te blokkeren

Laten we voor dit voorbeeld stellen dat je alleen de toegang tot een specifiek bestand of een specifieke map (en alle submappen van die map) wilt blokkeren. Voor ons specifieke WordPress-voorbeeld, stel dat je het volgende wilt blokkeren:

Hiervoor zou je de volgende opdrachten kunnen gebruiken:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Hoe robots.txt te gebruiken om toegang te verlenen tot een specifiek bestand in een niet toegestane map

Oké, laten we nu zeggen dat je een hele map wilt blokkeren, maar je wilt toch toegang tot een specifiek bestand in die map toestaan. Dit is waar het commando Allow van pas komt. Allow is binnen WordPress vaak erg handig. In feite illustreert het virtuele WordPress robots.txt-bestand dit voorbeeld perfect:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Dit stukje code blokkeert de toegang tot de volledige /wp-admin/-map behalve het bestand /wp-admin/admin-ajax.php.

Hoe robots.txt te gebruiken om bots te stoppen de WordPress-zoekresultaten te crawlen

Eén specifieke WordPress-tweak die je waarschijnlijk wel wil maken, is om te voorkomen dat zoekcrawlers je pagina’s met zoekresultaten doorzoeken. WordPress gebruikt standaard de queryparameter “?s=”. Dus om toegang te blokkeren, hoef je alleen maar de volgende regel toe te voegen:

User-agent: *
Disallow: /?s=
Disallow: /search/

Dit kan ook een effectieve manier zijn om 404-fouten te stoppen, mocht je deze tegenkomen. Lees zeker onze diepgaande gids over hoe u het zoeken in WordPress kunt versnellen.

Hoe verschillende regels voor verschillende bots in robots.txt te maken

Tot nu toe hebben alle voorbeelden één regel tegelijk afgehandeld. Maar wat als je verschillende regels op verschillende bots wilt toepassen? Je hoeft alleen elke reeks regels onder de verklaring User-agent toe te voegen voor elke bot. Als je bijvoorbeeld één regel wilt maken die van toepassing is op alle bots en een andere regel die van toepassing is op alleen Bingbot, kun je dit als volgt doen:

Downtime en WordPress problemen? Kinsta is de hosting oplossing speciaal ontworpen om jou tijd te besparen! Bekijk onze kenmerken
User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /

In dit voorbeeld zullen alle bots geblokkeerd worden om toegang te krijgen tot /wp-admin/, maar Bingbot zal geblokkeerd worden om toegang tot je volledige site te krijgen.

Je Robots.txt-bestand testen

Je kunt je WordPress robots.txt-bestand testen in Google Search Console om te controleren of deze correct is ingesteld. Klik eenvoudigweg op je site en klik onder ‘Crawl’ op ‘robots.txt Tester’. Je kunt vervolgens elke URL, inclusief je startpagina, invoeren. Je zou een groene Allowed ​​moeten zien als alles crawlbaar is. Je kunt ook URL’s testen die je hebt geblokkeerd om ervoor te zorgen dat ze zijn geblokkeerd en/of Disallowed.

Test robots.txt bestand

Test robots.txt bestand

Pas op voor de UTF-8 BOM

BOM staat voor byte order mark en is in feite een onzichtbaar teken dat soms door oude teksteditors en dergelijke wordt toegevoegd aan bestanden. Als dit gebeurt met je robots.txt-bestand, leest Google het bestand mogelijk niet correct. Daarom is het belangrijk om je bestand op fouten te controleren. Zoals hieronder te zien, had ons bestand bijvoorbeeld een onzichtbaar teken en Google klaagt erover dat de syntax niet wordt begrepen. Dit maakt in feite de eerste regel van ons robots.txt-bestand ongeldig, wat niet goed is! Glenn Gabe heeft een uitstekend artikel geschreven over hoe een UTF-8 Bom je SEO kan killen.

BOM UTF-8 in uw robots.txt-bestand

BOM UTF-8 in uw robots.txt-bestand

Googlebot is vooral in de VS gevestigd

Het is ook belangrijk om de Googlebot niet te blokkeren vanuit de Verenigde Staten, zelfs als je een lokale regio buiten de Verenigde Staten target. Ze crawlen soms lokaal, maar de Googlebot is, zoals de titel al aangeeft, voornamelijk in de VS gevestigd.

Wat populaire WordPress-sites in hun Robots.txt-bestand zetten

Om een beter idee te geven bij wat we hierboven hebben beschreven, is hier te zien hoe een aantal van de meest populaire WordPress-sites hun robots.txt-bestanden gebruiken.

TechCrunch

TechCrunch Robots.txt bestand

TechCrunch Robots.txt bestand

Naast het beperken van toegang tot een aantal specifieke pagina’s, staat TechCrunch met name de crawlers niet toe om:

Ze stellen ook speciale beperkingen in voor twee bots:

In het geval je geïnteresseerd bent, IRLbot is een crawler van een onderzoeksproject van de Texas A & M University. Vreemd!

The Obama Foundation

Obama Foundation Robots.txt bestand

Obama Foundation Robots.txt bestand

De Obama Foundation heeft geen speciale toevoegingen gedaan en heeft er uitsluitend voor gekozen de toegang tot /wp-admin/ te beperken.

Angry Birds

Angry Birds Robots.txt bestand

Angry Birds Robots.txt bestand

Angry Birds heeft dezelfde standaardinstellingen als The Obama Foundation. Er is niets bijzonders toegevoegd.

Drift

Drift Robots.txt bestand

Drift Robots.txt bestand

Ten slotte kiest Drift ervoor om zijn sitemaps in het bestand Robots.txt te definiëren, maar laat verder dezelfde standaardbeperkingen gelden als The Obama Foundation en Angry Birds.

Robots.txt op de juiste manier gebruiken

Nu we onze robots.txt-handleiding afsluiten, willen we je er nog een keer aan herinneren dat het gebruik van de opdracht Disallow in je robots.txt-bestand niet hetzelfde is als het gebruik van een noindex-tag. Robots.txt blokkeert crawlen, maar niet noodzakelijkerwijs indexeren. Je kunt het gebruiken om met specifieke regels vorm te geven aan de manier waarop zoekmachines en andere bots met je site omgaan, maar deze regels bepalen niet expliciet of je inhoud wordt geïndexeerd of niet.

Voor de meeste gewone WordPress-gebruikers is het niet noodzakelijk om het standaard virtuele robots.txt-bestand te wijzigen. Maar als je problemen ondervindt met een specifieke bot of als je wilt wijzigen hoe zoekmachines omgaan met een bepaalde plug-in of een bepaald thema dat je gebruikt, wil je misschien je eigen regels toevoegen.

We hopen dat je deze gids interessant vond! Laat een opmerking achter als je nog vragen hebt over het gebruik van je WordPress robots.txt-bestand.


Als je dit artikel leuk vond, dan ga je Kinsta’s WordPress hosting platform ook heel erg leuk vinden! Of het nu gaat om het versnellen van je website of de 24/7 support van ons ervaren WordPress-team. Onze door Google Cloud aangedreven infrastructuur is gericht op automatische schaalbaarheid, prestaties en beveiliging. Laat ons jou het Kinsta verschil tonen! Bekijk onze pakketten