Può essere scoraggiante vedere il declino del vostro sito web nelle classifiche di ricerca. Quando il crawler di Google non scansiona più le vostre pagine, queste posizioni più basse possono contribuire a ridurre i visitatori e le conversioni.

L’errore “Indicizzata ma bloccata da robots.txt” può indicare un problema con il crawling del motore di ricerca sul vostro sito. Quando ciò accade, Google ha indicizzato una pagina che non è in grado di scansionare. Per fortuna, potete modificare il file robots.txt per specificare quali pagine devono o non devono essere indicizzate.

In questo articolo vi spiegheremo l’errore “indicizzata ma bloccata da robots.txt” e come verificare se il vostro sito web presenta questo problema. Poi vi mostreremo due diversi metodi per risolverlo. Iniziamo!

Cos’È l’Errore “Indicizzata Ma Bloccata da robots.txt”?

Come proprietario di un sito web, Google Search Console può aiutarvi ad analizzare le prestazioni del vostro sito in molte aree vitali. Questo strumento può monitorare la velocità delle pagine, la sicurezza e la “crawlability” in modo da ottimizzare la vostra presenza online:

Homepage di Google Search Console
Google Search Console

Per esempio, il report Copertura dell’indice di Search Console può aiutarvi a migliorare l’ottimizzazione del vostro sito per i motori di ricerca (SEO). Analizza il modo in cui Google indicizza i vostri contenuti online, fornendo informazioni sugli errori più comuni, come per esempio l’avviso “Indicizzata ma bloccata da robots.txt”:

Schermata del report di indicizzazione di Google Search Console
Index report di Google Search Console

Per comprendere questo errore, parliamo innanzitutto del file robots.txt. In sostanza, informa i crawler dei motori di ricerca su quali file del vostro sito web devono o non devono essere indicizzati. Con un file robots.txt ben strutturato, potete assicurarvi che solo le pagine web più importanti vengano indicizzate.

Se avete ricevuto un avviso “Indicizzata ma bloccata da robots.txt”, significa che i crawler di Google hanno trovato la pagina ma hanno notato che è bloccata nel vostro file robots.txt. In questo caso, Google non è sicuro che vogliate che quella pagina venga indicizzata.

Di conseguenza, la pagina può apparire nei risultati di ricerca, ma non viene visualizzata una descrizione. Inoltre, escluderà immagini, video, PDF e file non HTML. Pertanto, dovrete aggiornare il file robots.txt se volete visualizzare queste informazioni.

Potenziali Problemi nell’Indicizzazione delle Pagine

Potete aggiungere intenzionalmente delle direttive al vostro file robots.txt per bloccare le pagine ai crawler. Tuttavia, queste direttive potrebbero non rimuovere completamente le pagine da Google. Se un sito web esterno rimanda alla pagina, può causare un errore “Indicizzata ma bloccata da robots.txt”.

Google (e gli altri motori di ricerca) devono indicizzare le vostre pagine prima di poterle classificare con precisione. Per assicurarsi che solo i contenuti rilevanti appaiano nei risultati di ricerca, è fondamentale capire come funziona questo processo.

Anche se alcune pagine dovrebbero essere indicizzate, potrebbero non esserlo. Ciò potrebbe essere dovuto a diversi motivi:

D’altra parte, alcune pagine web non dovrebbero essere indicizzate. Potrebbero essere indicizzate per sbaglio a causa di questi fattori:

  • Direttive noindex non corrette
  • Link esterni da altri siti
  • Vecchi URL nell’indice di Google
  • Nessun file robots.txt

Se troppe pagine vengono indicizzate, il vostro server potrebbe essere sovraccaricato dal crawler di Google. Inoltre, Google potrebbe perdere tempo nell’indicizzare pagine irrilevanti del vostro sito web. Pertanto, dovrete creare e modificare correttamente il file robots.txt.

Trovare la Causa dell’Errore “Indicizzata ma bloccata da robots.txt”

Un modo efficace per identificare i problemi di indicizzazione delle pagine è quello di accedere a Google Search Console. Dopo aver verificato la proprietà del sito, potrete accedere ai report sulle prestazioni del vostro sito web.

Nella sezione Indice, fate clic sulla scheda Valido con avvisi. Verrà visualizzato un elenco degli errori di indicizzazione, compresi gli avvisi “Indicizzata ma bloccata da robots.txt”. Se non ne vedete nessuno, è probabile che il vostro sito web non abbia questo problema.

In alternativa, potete usare il robots.txt tester di Google. Con questo strumento potete analizzare il vostro file robots.txt per verificare la presenza di avvisi di sintassi e altri errori:

Schermata del tester robots.txt di Google Search Console
Google Search Console robots.txt tester

In fondo alla pagina, inserite un URL specifico per vedere se è bloccato. Dovrete scegliere un user-agent dal menu a tendina e selezionare Test:

Campo dell’URL per testare un URL bloccato
Prova un URL bloccato

Potete anche accedere a domain.com/robots.txt. Se avete già un file robots.txt, questo vi permetterà di visualizzarlo:

Il file robots.txt visivo di Kinsta con la lista dei file xml che compongono la sitemap
Il file robots.txt visivo di Kinsta

Successivamente, cercate le dichiarazioni disallow. Gli amministratori del sito possono aggiungere queste istruzioni per indicare ai crawler di ricerca come accedere a determinati file o pagine.

Se la dichiarazione di disallow blocca tutti i motori di ricerca, l’aspetto potrebbe essere il seguente:

Disallow: /

Può anche bloccare uno specifico user-agent:

User-agent: *

Disallow: /

Con uno di questi strumenti, potrete identificare eventuali problemi di indicizzazione delle vostre pagine. A quel punto, dovrete intervenire per aggiornare il vostro file robots.txt.

Come Risolvere l’Errore “Indicizzata ma bloccata da robots.txt”

Ora che ne sapete di più sul file robots.txt e su come può impedire l’indicizzazione delle pagine, è il momento di risolvere l’errore “Indicizzata ma bloccata da robots.txt”. Tuttavia, prima di usare queste soluzioni, assicuratevi di valutare se la pagina bloccata deve essere indicizzata.

Metodo 1: Modificare Direttamente il File robots.txt

Se avete un sito web WordPress, probabilmente avrete un file robots.txt virtuale. Potete visitarlo cercando domain.com/robots.txt in un browser web (sostituendo domain.com con il nome del vostro dominio). Tuttavia, questo file virtuale non vi consentirà di apportare modifiche.

Per iniziare a modificare il robots.txt, dovrete creare un file sul vostro server. Innanzitutto, scegliete un editor di testo e create un nuovo file. Nominatelo “robots.txt”.

Un editor di codice dallo sfondo nero, ancora vuoto, ma che presto verrà riempito con il codice del file robots.txt
Creare un nuovo file robots.txt

Poi dovrete collegarvi a un client SFTP. Se state usando un account di hosting Kinsta, entrate su MyKinsta e andate su Siti > Info:

La prima scheda del cruscotto MyKinsta è la pagina Info dove trovate le credenziali per il login SFTP
Credenziali di accesso SFTP di MyKinsta

Qui troverete il vostro nome utente, la password, l’host e il numero di porta. Potete quindi scaricare un client SFTP come FileZilla. Inserite le vostre credenziali di accesso SFTP e poi fate clic su Quickconnect:

Schermata di FileZilla con le informazioni di connessione
Connessione a FileZilla

Infine, caricate il file robots.txt nella vostra directory principale (per i siti WordPress, dovrebbe chiamarsi public_html). A questo punto, potrete aprire il file e apportare le modifiche necessarie.

Potete usare i permessi e i disallow per personalizzare l’indicizzazione del vostro sito WordPress. Per esempio, potreste volere che un determinato file venga scansionato senza indicizzare l’intera cartella. In questo caso, potete aggiungere questo codice:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Ricordatevi di puntare alla pagina che causa l’errore “Indicizzata ma bloccata da robots.txt” durante questa procedura. A seconda del vostro obiettivo, potete specificare se Google deve o non deve indicizzare la pagina.

Quando avete finito, salvate le modifiche. Quindi, tornate a Google Search Console per verificare se questo metodo ha risolto l’errore.

Metodo 2: Usare un Plugin SEO

Se avete attivato un plugin SEO, non dovrete creare un file robots.txt completamente nuovo. In molti casi, lo strumento SEO ne creerà uno per voi. Inoltre, può anche offrire la possibilità di modificare il file senza lasciare la bacheca di WordPress.

Yoast SEO

Uno dei plugin SEO più popolari è Yoast SEO. Può fornire un’analisi dettagliata della SEO on-page, oltre a strumenti aggiuntivi per personalizzare l’indicizzazione sui motori di ricerca.

Per iniziare a modificare il file robots.txt, andate su Yoast SEO > Strumenti nella bacheca di WordPress. Dall’elenco degli strumenti integrati, selezionate l’editor di file:

La scheda Strumenti di Yoast SEO da cui potete selezionare l’opzione file editor
Selezionate il file editor di Yoast SEO

Yoast SEO non creerà automaticamente un file robots.txt. Se non ne avete già uno, fate clic su Crea file robots.txt:

La scheda Strumenti di Yoast SEO con il pulsante per creare un file robots.txt
Create un file robots.txt con Yoast SEO

Si aprirà un editor di testo con il contenuto del nuovo file robots.txt. In modo simile al primo metodo, potete aggiungere dichiarazioni di consenso alle pagine che desiderate vengano indicizzate. In alternativa, potete usare le dichiarazioni di disallow per gli URL che volete evitare di indicizzare:

L’editor che si apre nella scheda Strumenti di Yoast SEO e da cui modificare il file robots.txt
Modificate il file robots.txt di Yoast SEO

Dopo aver apportato le modifiche, salvate il file. Yoast SEO vi avviserà quando avrete aggiornato il file robots.txt.

Rank Math

Rank Math è un altro plugin freemium che include un editor robots.txt. Dopo aver attivato lo strumento sul vostro sito WordPress, andate su Rank Math > Impostazioni generali > Modifica robots.txt:

Schermata dell’editor del file robots.txt di Rank Math
Editor del robots.txt di Rank Math

Nell’editor del codice, vedrete alcune regole predefinite, tra cui la vostra sitemap. Per aggiornare le impostazioni, potete incollare o eliminare il codice secondo necessità.

Durante questo processo di modifica, ci sono alcune regole da seguire:

  • Usate uno o più gruppi, e ogni gruppo deve contenere più regole.
  • Iniziate ogni gruppo con un user-agent e seguitelo con directory o file specifici.
  • Date per scontato che qualsiasi pagina web consenta l’indicizzazione, a meno che non abbia una regola di disallow.

Tenete presente che questo metodo è possibile solo se non avete già un file robots.txt nella vostra directory principale. In questo caso, dovrete modificare il file robot.txt direttamente con un client SFTP. In alternativa, potete eliminare questo file preesistente e usare l’editor di Rank Math.

Una volta che avrete disabilitato una pagina nel file robots.txt, dovrete aggiungere anche una direttiva noindex. In questo modo la pagina rimarrà nascosta dalle ricerche di Google. Per farlo, andate in Rank Math > Titoli e Meta > Post:

Schermata delle impostazioni dei post in Open Rank Math
Aprite le impostazioni dei post di Rank Math

Scorrete in basso fino a Post Robots Meta e abilitatelo. Selezionate quindi la voce No Index:

Schermata delle impostazioni di Rank Math da cui abilitare il noindex per i posts
Abilitate il noindex per i post

Infine, salvate le modifiche. In Google Search Console, cercate l’avviso “Indicizzata ma bloccata da robots.txt” e fate clic su Convalida correzione. In questo modo Google potrà effettuare il recrawling degli URL indicati e risolvere l’errore.

Squirrly SEO

Con il plugin Squirrly SEO, potete modificare il robots.txt in modo analogo. Per iniziare, fate clic su Squirrly SEO > Configurazione SEO. Si apriranno le impostazioni Tweaks e Sitemap:

Schermata delle impostazioni sitemap SEO sitemap del plugin Squirrly
Impostazioni della sitemap di Squirrly SEO

Sul lato sinistro, selezionate la scheda File robots. Vedrete un editor di file robots.txt simile a quello di altri plugin SEO:

Il file robots.txt di Squirrly SEO
Il file robots.txt di Squirrly SEO

Utilizzando l’editor di testo, potete aggiungere delle regole di consenso o di non consenso per personalizzare il file robots.txt. Continuate ad aggiungere tutte le regole di cui avete bisogno. Quando l’aspetto del file vi soddisfa, selezionate Salva impostazioni.

Inoltre, potete aggiungere regole noindex a determinati tipi di post. Per farlo, dovrete semplicemente disabilitare l’impostazione Let Google Index It nella scheda Automation. Per impostazione predefinita, SEO Squirrly la lascerà attiva.

Riepilogo

Di solito, Google trova le vostre pagine web e le indicizza nei risultati di ricerca. Tuttavia, un file robots.txt mal configurato può confondere i motori di ricerca che devono ignorare la pagina durante il crawling. In questo caso, dovrete chiarire le istruzioni di crawling per continuare a massimizzare la SEO sul vostro sito web.

Potete modificare il file robots.txt direttamente con un client SFTP come FileZilla. In alternativa, molti plugin SEO, tra cui Yoast, Rank Math e Squirrly SEO, includono editor di robots.txt nelle loro interfacce. Con uno di questi strumenti, potrete aggiungere dichiarazioni di consenso e non consenso per aiutare i motori di ricerca a indicizzare correttamente i vostri contenuti.

Per aiutare il vostro sito a salire in cima ai risultati di ricerca, vi consigliamo di scegliere un host web ottimizzato per la SEO. Su Kinsta, i nostri piani di hosting WordPress gestiti includono strumenti SEO come il monitoraggio dei tempi di attività, i certificati SSL e la gestione dei reindirizzamenti. Scoprite i nostri piani oggi stesso!