Het kan enorm vervelend zijn om je website te zien dalen in de zoekresultaten. Als je pagina’s niet meer door Google gecrawld worden, kunnen deze lagere rankings bijdragen aan minder bezoekers en conversies.

De fout “Indexed, though blocked by robots.txt” kan duiden op een probleem met het crawlen door zoekmachines op je site. Wanneer dit gebeurt, heeft Google een pagina geïndexeerd die het niet kan crawlen. Gelukkig kun je je robots.txt bestand bewerken om aan te geven welke pagina’s wel of niet geïndexeerd moeten worden.

In dit bericht leggen we de fout “Indexed, though blocked by robots.txt” uit en hoe je je website op dit probleem kunt testen. Daarna laten we je twee verschillende methoden zien om het op te lossen. Laten we beginnen!

Wat is de fout “Indexed, though blocked by robots.txt”?

Als website-eigenaar kan Google Search Console je helpen om de prestaties van je site op veel belangrijke gebieden te analyseren. Deze tool kan de paginasnelheid, beveiliging en “crawlability” controleren, zodat je je online aanwezigheid kunt optimaliseren:

Google Search Console startpagina
Google Search Console

Het Index Coverage rapport van Search Console kan je bijvoorbeeld helpen om de Search Engine Optimization (SEO) van je site te verbeteren. Het analyseert hoe Google je online content indexeert en geeft informatie over veel voorkomende fouten, zoals een waarschuwing “Indexed, though blocked by robots.txt”:

Een screenshot met het Google Search Console Index rapport
Google Search Console Index rapport

Om deze fout te begrijpen, laten we eerst het robots.txt bestand bekijken. In wezen informeert het zoekmachinecrawlers welke van je website bestanden wel of niet geïndexeerd moeten worden. Met een goed gestructureerd robots.txt bestand kun je ervoor zorgen dat alleen belangrijke webpagina’s worden gecrawld.

Als je een waarschuwing “Indexed, though blocked by robots.txt” hebt ontvangen, hebben de crawlers van Google de pagina wel gevonden, maar merken ze op dat deze in je robots.txt bestand is geblokkeerd. Wanneer dit gebeurt, weet Google niet zeker of je wilt dat die pagina geïndexeerd wordt.

Als gevolg daarvan kan deze pagina wel verschijnen in de zoekresultaten, maar wordt er geen beschrijving weergegeven. Het zal ook afbeeldingen, video’s, PDF’s en niet-HTML bestanden uitsluiten. Daarom moet je je robots.txt bestand bijwerken als je deze informatie wilt weergeven.

Mogelijke problemen bij het indexeren van pagina’s

Je kunt opzettelijk richtlijnen toevoegen aan je robots.txt bestand die pagina’s blokkeren voor crawlers. Deze richtlijnen verwijderen de pagina’s echter mogelijk niet volledig uit Google. Als een externe website naar de pagina linkt, kan dat een “Indexed, though blocked by robots.txt” fout veroorzaken.

Google (en andere zoekmachines) moeten je pagina’s indexeren voordat ze ze nauwkeurig kunnen scoren. Om ervoor te zorgen dat alleen relevante content in de zoekresultaten verschijnt, is het cruciaal om te begrijpen hoe dit proces werkt.

Hoewel bepaalde pagina’s geïndexeerd zouden moeten zijn, kan het zijn dat ze dat niet zijn. Dit kan verschillende oorzaken hebben:

  • Een richtlijn in het robots.txt bestand die indexering verhindert
  • Dode links of redirectketens
  • Canonieke tags in de HTML header

Aan de andere kant zouden sommige webpagina’s niet geïndexeerd moeten worden. Ze kunnen per ongeluk geïndexeerd worden vanwege deze factoren:

  • Onjuiste noindex richtlijnen
  • Externe links van andere sites
  • Oude URL’s in de Google index
  • Geen robots.txt bestand

Als te veel van je pagina’s worden geïndexeerd, kan je server overweldigd raken door de crawler van Google. Bovendien zou Google tijd kunnen verspillen aan het indexeren van irrelevante pagina’s op je website. Daarom moet je je robots.txt bestand op de juiste manier maken en bewerken.

De bron van de fout “Indexed, though blocked by robots.txt” vinden

Een effectieve manier om problemen bij het indexeren van pagina’s op te sporen is door je aan te melden bij Google Search Console. Nadat je het eigendom van de site hebt gecontroleerd, krijg je toegang tot rapporten over de prestaties van je website.

Klik in het gedeelte Index op het tabblad Valid with warnings. Je krijgt dan een lijst met indexeringsfouten te zien, waaronder eventuele “Indexed, though blocked by robots.txt” waarschuwingen. Als je er geen ziet, heeft je website waarschijnlijk geen last van dit probleem.

Je kunt ook de robots.txt tester van Google gebruiken. Met deze tool kun je je robots.txt bestand scannen op syntaxiswaarschuwingen en andere fouten:

Een kijkje in de Google Search Console robots.txt tester
Google Search Console robots.txt tester

Voer onderaan de pagina een specifieke URL in om te zien of die geblokkeerd is. Je moet een user-agent kiezen in het dropdown menu en Test selecteren:

Test een geblokkeerde URL
Test een geblokkeerde URL

Je kunt ook navigeren naar domain.com/robots.txt. Als je al een robots.txt bestand hebt, kun je dat hiermee bekijken:

Kinsta's visuele robots.txt bestand
Kinsta’s visuele robots.txt bestand

Zoek vervolgens naar disallow statements. Sitebeheerders kunnen deze statements toevoegen om zoekcrawlers te instrueren hoe ze toegang krijgen tot specifieke bestanden of pagina’s.

Als het disallow statement alle zoekmachines blokkeert, kan het er als volgt uitzien:

Disallow: /

Het kan ook een specifieke user-agent blokkeren:

User-agent: *

Disallow: /

Met een van deze tools kun je eventuele problemen met de indexering van je pagina’s vaststellen. Vervolgens moet je actie ondernemen om je robots.txt bestand bij te werken.

Zo los je de fout “Indexed, though blocked by robots.txt” op

Nu je meer weet over het robots.txt bestand en hoe het het indexeren van pagina’s kan verhinderen, is het tijd om de “Indexed, though blocked by robots.txt” fout op te lossen. Zorg er echter voor dat je eerst evalueert of de geblokkeerde pagina geïndexeerd moet worden voordat je deze oplossingen gebruikt.

Methode 1: robots.txt direct bewerken

Als je een WordPress website hebt, heb je waarschijnlijk een virtueel robots.txt bestand. Je kunt het bezoeken door in een webbrowser te zoeken naar domein.com/robots.txt (waarbij je domein.com vervangt door je domeinnaam). Met dit virtuele bestand kun je echter geen wijzigingen aanbrengen.

Om robots.txt te bewerken moet je een bestand op je server maken. Kies eerst een teksteditor en maak een nieuw bestand aan. Zorg ervoor dat je het de naam “robots.txt” geeft:

Maak een nieuw robots.txt bestand in de teksteditor van je keuze
Maak een nieuw robots.txt bestand

Vervolgens moet je verbinding maken met een SFTP client. Als je een Kinsta hostingaccount gebruikt, meld je dan aan bij MyKinsta en navigeer naar Websites > Info:

Een kijkje in MyKinsta om SFTP inloggegevens te zien
MyKinsta SFTP login credentials

Je vindt hier je gebruikersnaam, wachtwoord, host en poortnummer. Vervolgens kun je een SFTP client zoals FileZilla downloaden. Voer je SFTP inloggegevens in en klik op Quickconnect:

Verbinden met FileZilla
Verbinden met FileZilla

Als laatste upload je het robots.txt bestand naar je hoofdmap (voor WordPress sites moet die public_html heten). Daarna kun je het bestand openen en de nodige wijzigingen aanbrengen.

Je kunt allow en disallow statements gebruiken om de indexering van je WordPress site aan te passen. Je kunt bijvoorbeeld willen dat een bepaald bestand wordt gecrawld zonder de hele map te indexeren. In dat geval kun je deze code toevoegen:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Vergeet niet om de pagina die de “Indexed, though blocked by robots.txt” fout veroorzaakt tijdens dit proces te targeten. Afhankelijk van je doel kun je aangeven of Google de pagina wel of niet moet crawlen.

Als je klaar bent, sla dan je wijzigingen op. Ga dan terug naar Google Search Console om te zien of deze methode de fout heeft opgelost.

Methode 2: Gebruik een SEO plugin

Als je een SEO plugin hebt geactiveerd, hoef je geen geheel nieuw robots.txt bestand aan te maken. In veel gevallen zal de SEO tool er een voor je bouwen. Bovendien kan het ook manieren bieden om het bestand te bewerken zonder het WordPress dashboard te verlaten.

Yoast SEO

Een van de populairste SEO plugins is Yoast SEO. Het kan een gedetailleerde on-page SEO analyse bieden, samen met extra tools om je zoekmachine indexering aan te passen.

Om te beginnen met het bewerken van je robots.txt bestand, ga je naar Yoast SEO > Tools in je WordPress dashboard. Uit de lijst met ingebouwde tools kies je de File editor:

Wanneer je Yoast gebruikt, selecteer Yoast SEO bestandseditor
Selecteer Yoast SEO bestandseditor

Yoast SEO maakt niet automatisch een robots.txt bestand aan. Als je er nog geen hebt, klik dan op Create robots.txt file:

Maak een robots.txt bestand aan met Yoast SEO
Maak een robots.txt bestand aan met Yoast SEO

Hiermee open je een teksteditor met de content van je nieuwe robots.txt bestand. Vergelijkbaar met de eerste methode kun je allow statements toevoegen aan pagina’s die je wilt laten indexeren. Als alternatief kun je disallow statements gebruiken voor URL’s om indexering te voorkomen:

Bewerk het robots.txt bestand van Yoast SEO
Bewerk het robots.txt bestand van Yoast SEO

Sla het bestand op nadat je je wijzigingen hebt aangebracht. Yoast SEO zal je waarschuwen als je het robots.txt bestand hebt bijgewerkt.

Rank Math

Rank Math is een andere freemium plugin die een robots.txt editor bevat. Na het activeren van de tool op je WordPress site, ga je naar Rank Math > General Settings > Edit robots.txt:

Rank Math robots.txt editor
Rank Math robots.txt editor

In de code editor zie je een aantal standaardregels, waaronder je sitemap. Om de instellingen ervan bij te werken, kun je naar behoefte code plakken of verwijderen.

Tijdens dit bewerkingsproces zijn er een paar regels die je moet volgen:

  • Gebruik een of meer groepen, waarbij elke groep meerdere regels bevat.
  • Begin elke groep met een user-agent en volg met specifieke directories of bestanden.
  • Ga ervan uit dat elke webpagina indexering toestaat, tenzij er een disallow regel op staat.

Houd er rekening mee dat deze methode alleen mogelijk is als je nog geen robots.txt bestand in je hoofddirectory hebt. Als je dat wel hebt, moet je het robot.txt bestand direct bewerken met een SFTP client. Als alternatief kun je dit reeds bestaande bestand verwijderen en in plaats daarvan de Rank Math editor gebruiken.

Zodra je een pagina niet toestaat in robots.txt, moet je ook een noindex richtlijn toevoegen. Die houdt de pagina privé voor Google-zoekopdrachten. Navigeer hiervoor naar Rank Math > Titels & Meta > Posts:

Open Rank Math's postinstellingen
Open Rank Math’s postinstellingen

Scroll naar beneden naar Post Robots Meta en schakel deze in. Selecteer dan No Index:

Schakel noindex in voor posts in Rank Math
Schakel noindex in voor posts

Sla tot slot je wijzigingen op. Zoek in Google Search Console de waarschuwing “Indexed, though blocked by robots.txt” en klik op Validate Fix. Hierdoor kan Google de opgegeven URL’s opnieuw crawlen en de fout oplossen.

Squirrly SEO

Met de Squirrly SEO plugin kun je op vergelijkbare wijze robots.txt bewerken. Om te beginnen klik je op Squirrly SEO > SEO Configuration. Dit opent de Tweaks and Sitemap instellingen:

Squirrly SEO sitemap instellingen in de Squirrly plugin
Squirrly SEO sitemap instellingen

Selecteer aan de linkerkant het tabblad Robots File. Dan zie je een robots.txt bestandseditor die lijkt op andere SEO plugins:

Squirrly SEO robots.txt bestand
Squirrly SEO robots.txt bestand

Met behulp van de teksteditor kun je allow of disallow statements toevoegen om het robots.txt bestand aan te passen. Ga door met het toevoegen van zoveel regels als je nodig hebt. Als je tevreden bent met hoe dit bestand eruit ziet, selecteer dan Save Settings.

Bovendien kun je noindex regels toevoegen aan bepaalde berichttypes. Om dit te doen, hoef je alleen maar de instelling Let Google Index It op het tabblad Automation uit te schakelen. Standaard laat SEO Squirrly dit ingeschakeld.

Samenvatting

Normaal gesproken vindt Google je webpagina’s en indexeert ze in zijn zoekresultaten. Echter, een slecht geconfigureerd robots.txt bestand kan zoekmachines verwarren over het al dan niet negeren van deze pagina tijdens het crawlen. In dit geval moet je de crawlinginstructies verduidelijken om de SEO op je website te blijven maximaliseren.

Je kunt robots.txt rechtstreeks bewerken met een SFTP client zoals FileZilla. Als alternatief bevatten veel SEO plugins, waaronder Yoast, Rank Math en Squirrly SEO, robots.txt editors binnen hun interfaces. Met een van deze tools kun je toestaan en verbieden toevoegen om zoekmachines te helpen je inhoud content te indexeren.

Om je website naar de top van de zoekresultaten te helpen, raden we je aan een SEO-geoptimaliseerde webhost te kiezen. Bij Kinsta bevatten onze managed WordPress hosting abonnementen SEO tools zoals uptimemonitoring, SSL certificaten en redirectmanagement. Bekijk onze abonnementen vandaag nog!