Já ouviu falar sobre o termo robots.txt e se perguntou como ele se aplica ao seu website? A maioria dos sites possui um arquivo robots.txt, mas isso não significa que os webmasters o entendam. Neste post, esperamos mudar essa situação através de uma análise profunda sobre o arquivo robots.txt do WordPress, além de explicar ele pode controlar e limitar o acesso ao seu site. Ao final, você estará apto a responder perguntas como:

Há muito a analisar, então vamos começar!

O que é um Robots.txt do WordPress?

Antes de falarmos sobre o robots.txt do WordPress, é importante definir o que é um “robô” neste caso. Robôs são quaisquer tipos de “bots” que visitam websites na Internet. O exemplo mais comum são os rastreadores de mecanismos de pesquisa. Esses bots “rastreiam” ao redor da rede para ajudar buscadores, como o Google, a indexar e classificar bilhões de páginas na Internet.

Então, bots são, em geral, uma coisa boa para a Internet… ou, pelo menos, necessária. Mas isso não significa necessariamente que você ou os demais webmasters queiram bots rodando por aí sem restrições. O desejo de controlar como os robôs da rede interagem com websites levou à criação de um protocolo de exclusão de robôs em meados dos anos 90. Robots.txt é a implementação prática desse protocolo – ele permite que você controle como os bots participantes interagem com seu site. Você pode bloquear os bots completamente, restringir o acesso deles a certas áreas de seu site, entre outras opções.

A parte sobre “participantes” é importante. Robots.txt não pode forçar um bot a seguir suas orientações. E bots maliciosos podem e vão ignorar o arquivo robots.txt. Além disso, mesmo algumas organizações de respeito ignoram alguns comandos que você pode adicionar no Robots.txt. Por exemplo, o Google irá ignorar qualquer regra que você adicione ao seu robots.txt sobre a frequência de visitas de seus rastreadores. Se você está enfrentando problemas com bots, uma solução de segurança como Cloudflare ou Sucuri pode ser conveniente.

Por Que Você Deve se Importar com seu Arquivo Robots.txt?

Para a maioria dos webmasters, os benefícios de um arquivo robots.txt bem estruturado se resumem a duas categorias:

  • Otimizar recursos de rastreamento de mecanismos de pesquisa, ao informá-los para que não percam tempo em páginas que você não deseja que sejam indexadas. Isso ajuda a garantir que mecanismos de pesquisa foquem no rastreamento das páginas que você mais se importa.
  • Otimizando o uso do seu servidor, bloqueando bots que estão desperdiçando recursos.

Robots.txt Não se Trata Especificamente de Controlar Quais Páginas São Indexadas em Mecanismos de Pesquisa

Robots.txt não é uma forma infalível para controlar quais páginas os mecanismos de pesquisa indexam. Se seu objetivo primário é impedir que certas páginas sejam incluídas nos resultados dos buscadores, a abordagem adequada é usar uma meta tag noindex ou outro método direto similar.

Isso ocorre porque seu Robots.txt não está dizendo diretamente aos mecanismos de pesquisa para não indexar o conteúdo – está informando apenas para que não o rastreiem. Apesar do Google não rastrear as áreas demarcadas dentro do seu site, o próprio Google informa que, caso um site externo aponte para uma página que você excluiu do seu arquivo Robots.txt, ele ainda assim poderá indexá-la.

John Mueller, um Analista Webmaster do Google, também já confirmou que, se uma página tem links apontados para ela, mesmo que esteja bloqueada pelo robots.txt, ainda assim poderá ser indexada. Abaixo está o que ele disse em uma conferência da Webmaster Central:

Uma coisa que devemos ter em mente aqui é que, se essas páginas são bloqueadas pelo robots.txt, teoricamente é possível que alguém aleatoriamente crie um link apontando para uma delas. E se isso for feito, pode ser que indexemos esta URL sem qualquer conteúdo, pois ele está bloqueado pelo robots.txt. Assim, não saberíamos que você não deseja ter essas páginas realmente indexadas.

Considerando que, se elas não estiverem bloqueadas pelo robots.txt, você pode colocar adicionar uma meta tag noindex em tais páginas. E se alguém cria um link apontado para elas, nós o rastreamos e acreditamos que há algo útil lá, saberíamos que essas páginas não precisam ser indexadas e que podemos ignorá-las completamente.

Então, neste aspecto, se você tem algo nessas páginas que não quer que seja indexado, não as desabilite, use a tag noindex ao invés disso.

Como Criar e Editar Seu Arquivo Robots.txt do WordPress

Por padrão, o WordPress cria automaticamente um arquivo virtual robots.txt para seu site. Portanto, mesmo que você não mova um dedo, seu site já deve ter um arquivo robots.txt padronizado. Você pode testar se este é o caso, adicionando “/robots.txt” no final do seu nome de domínio. Por exemplo, “https://kinsta.com/robots.txt” apresenta o arquivo robots.txt que usamos aqui na Kinsta:

Exemplo de um arquivo Robots.txt

Exemplo de um arquivo Robots.txt

Por ser um arquivo virtual, no entanto, você não consegue editá-lo. Se você deseja alterar seu arquivo robots.txt, precisará realmente criar um arquivo físico em seu servidor que poderá manipular conforme necessário. Aqui estão três formas simples de fazer isso…

Como Criar e Editar um Arquivo Robots.txt com Yoast SEO

Se você está usando o plugin popular Yoast SEO, pode criar (e depois editar) seu arquivo robots.txt direto da interface do Yoast. Antes de conseguir acessá-lo, no entanto, você precisa habilitar os recursos avançados do Yoast SEO em SEO → Painel (Dashboard) → Recursos (Features) e alterar as Páginas de configurações avançadas (Advanced settings pages):

Como habilitar recursos avançados do Yoast

Como habilitar recursos avançados do Yoast

Uma vez ativado, você pode ir até SEO Ferramentas (Tools) e clicar em Editor de arquivos (File editor):

Como acessar o editor de arquivos do Yoast

Como acessar o editor de arquivos do Yoast

Assumindo que você ainda não tenha um arquivo Robots.txt físico, o Yoast oferecerá uma opção para Criar o arquivo robots.txt (Create robots.txt file):

Como criar o Robots.txt no Yoast

Como criar o Robots.txt no Yoast

E, após ter clicado neste botão, você conseguirá editar o conteúdo do seu arquivo Robots.txt diretamente na mesma interface:

Como editar Robots.txt no Yoast

Como editar Robots.txt no Yoast

Mais adiante nesta leitura, nos aprofundaremos sobre quais tipos de diretivas colocar em seu arquivo robots.txt do WordPress.

Como Criar e Editar um Arquivo Robots.txt Com All In One SEO

Se você estiver usando o All in One SEO Pack, um plugin quase tão popular quanto o Yoast, também pode criar e editar seu arquivo robots.txt do WordPress diretamente na interface do plugin. Tudo o que você precisa fazer é ir até All in One SEO Gerenciador de Recursos (Feature Manager) e Ativar (Activate) o recurso Robots.txt:

Como criar o Robots.txt no All In One SEO

Como criar o Robots.txt no All In One SEO

Em seguida, você conseguirá gerenciar seu arquivo Robots.txt, acessando All in One SEO → Robots.txt:

Como editar o Robots.txt no All In One SEO

Como editar o Robots.txt no All In One SEO

Como Criar e Editar um Arquivo Robots.txt Via FTP

Se você não estiver usando um plugin SEO que ofereça a funcionalidade robots.txt, ainda será capaz de criar e gerenciar seu próprio arquivo robots.txt via SFTP. Primeiro, use qualquer editor de texto para criar um arquivo vazio chamado “robots.txt”:

Como criar seu próprio arquivo Robots.txt

Como criar seu próprio arquivo Robots.txt

Em seguida, conecte-se ao seu site através de SFTP e faça o upload do arquivo para a pasta raiz do seu site. Você pode fazer modificações em seu arquivo robots.txt, editando-o via SFTP ou fazendo o upload de novas versões do mesmo.

O Que Colocar em Seu Arquivo Robots.txt

Ok, agora você tem um arquivo robots.txt físico em seu servidor que pode ser editado conforme necessário. Mas o que realmente deve ser feito com ele? Bem, conforme dissemos na primeira seção, o robots.txt permite que você controle como os robôs interagem com seu site. Você faz isso com dois comandos principais:

  • Agente de Usuário (User-agent– permite que você mire bots específicos. Agentes de usuário são aqueles que os bots usam para se identificar. Com eles você pode, por exemplo, criar uma regra que se aplique ao Bing, mas não ao Google.
  • Negar (Disallow)– permite que você diga aos robôs para não acessarem certas áreas de seu site.

Existe também o comando Permitir (Allow) que você usará em situações específicas. Por padrão, tudo em seu site é marcado com Permitir (Allow), por isso não é necessário usá-lo em 99% das situações. Mas ele se torna conveniente quando você precisa Negar (Disallow) o acesso a uma pasta e suas pastas filhas, mas Permitir (Allow) acesso a uma subpasta específica.

Você adiciona regras especificando, primeiramente, a qual agente de usuário elas devem se aplicar e, em seguida, lista quais regras serão usadas através de Permitir (Allow) e Negar (Disallow). Também há alguns outros comandos, como Atraso de Rastreamento (Craw-delay) e Mapa de Site (Sitemap), mas eles são:

  • Ignorados pela maioria dos grandes rastreadores ou interpretados de maneiras totalmente diferentes (no caso do atraso de rastreamento)
  • Se tornam redundantes por ferramentas como Google Search Console (para mapas de site)

Vamos abordar alguns casos específicos de uso para mostrar a você como tudo isso é reunido.

Como Usar Robots.txt Para Bloquear o Acesso ao Seu Site Inteiro

Digamos que você queira bloquear todo o acesso de rastreadores ao seu site. É improvável que isso ocorra em um site que está em produção (ao vivo), mas pode ser conveniente para um que esteja em teste. Para fazer isso, adicione esse código ao arquivo robots.txt do WordPress:

User-agent: *
Disallow: /

O que esse código diz?

O *asterisco ao lado do Agente de Usuário (User-agent) significa “todos os agentes de usuário”. O asterisco é um curinga, o que significa que ele se aplica a cada agente de usuário. A /barra ao lado de Negar (Disallow) informa que você quer negar o acesso a todas as páginas que contêm “seudominio.com/” (o que significa que são todas as páginas do seu site).

Como Usar Robots.txt Para Bloquear Um Único Bot de Acessar Seu Site

Vamos mudar as coisas um pouco. Neste exemplo, digamos que você não gosta do fato de o Bing rastrear suas páginas. Você adora o Google e não deseja sequer que o Bing veja seu site. Para bloquear apenas o Bing de rastrear seu site, você deve substituir o *asterisco curinga por Bingbot:

User-agent: Bingbot
Disallow: /

Essencialmente, o código acima informa que a regra Negar (Disallow) se aplica apenas aos bots com o Agente de Usuário (User-agent) “Bingbot”. É improvável que você queira bloquear o acesso ao Bing – mas esse cenário é conveniente se houver um bot específico que você não queira acessando seu site. Este site tem uma ótima lista dos nomes de Agentes de Usuário de serviços conhecidos.

Como Usar Robots.txt Para Bloquear o Acesso a Uma Pasta Ou Arquivo Específico

Para este exemplo, digamos que você deseja bloquear o acesso a um arquivo ou pasta específica (e todas as suas subpastas). Para que isso se aplique ao WordPress, vamos considerar seu desejo de bloquear:

  • A pasta wp-admin inteira
  • wp-login.php

Você poderia usar os seguintes comandos:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Como Usar Robots.txt Para Permitir Acesso a Um Arquivo Específico em Uma Pasta Negada

Ok, agora digamos que você deseja bloquear uma pasta inteira, mas ainda deseja permitir acesso a um arquivo específico dentro dela. É nesse momento que o comando Permitir (Allow) se torna conveniente. E ele pode ser muito aplicado no WordPress. Na verdade, o arquivo robots.txt virtual do WordPress ilustra este exemplo perfeitamente:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Este código bloqueia o acesso à pasta /wp-admin/ inteira, com exceção do arquivo /wp-admin/admin-ajax.php.

Como Usar Robots.txt Para Impedir Que Bots Rastreiem Resultados de Pesquisa do WordPress

Um ajuste específico do WordPress que você pode querer fazer é impedir que os rastreadores de buscadores rastreiem suas páginas de resultados de pesquisas. Por padrão, o WordPress usa o parâmetro de query “?s=”. Para bloquear o acesso, tudo o que você precisa fazer é adicionar a seguinte regra:

User-agent: *
Disallow: /?s=
Disallow: /search/

Esta pode ser uma maneira efetiva de também impedir erros soft 404 se você estiver se deparando com eles. Certifique-se de ler o nosso guia detalhado sobre como acelerar a pesquisa do WordPress.

Como Criar Regras Diferentes Para Bots Diferentes no Robots.txt

Até agora, todos os exemplos atenderam uma regra por vez. Mas e se você deseja aplicar regras diferentes para bots diferentes? Só é necessário adicionar cada conjunto de regras abaixo da declaração do Agente de Usuário (User-agent) para cada bot. Por exemplo, se você quer uma regra que se aplique a todos os bots e outra que seja voltada apenas ao Bingbot, poderia fazer o seguinte:

Lutando com tempo de inatividade e problemas no WordPress? Kinsta é a solução de hospedagem projetada para economizar seu tempo! Confira nossos recursos
User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /

Neste exemplo, todos os bots serão bloqueados de acessar /wp-admin/, mas o Bingbot será impedido de acessar seu site inteiro.

Testando Seu Arquivo Robots.txt

Você pode testar seu arquivo robots.txt do WordPress no Google Search Console para garantir que esteja configurado corretamente. Clique em seu site e na seção “Rastreamento” (“Crawl”), clique em “Testar robots.txt” (“robots.txt Tester”). Você poderá submeter qualquer URL, incluindo sua página inicial. Será possível ver um Permitido (Allowed) verde se tudo puder ser rastreado. Você também poderá testar URLs que bloqueou para garantir que estão, de fato, bloqueadas ou Negadas.

Testar arquivo robots.txt

Testar arquivo robots.txt

Atenção ao UTF-8 BOM

BOM é a sigla de “byte order mark” e é, basicamente, um caractere invisível que, por vezes, é adicionado em arquivos por editores de texto antigos. Se isso acontecer com seu arquivo robots.txt, o Google talvez não o leia corretamente. Por isso, é importante verificar possíveis erros em seu arquivo. Por exemplo, como pode ser visto abaixo, nosso arquivo tinha um caractere invisível e o Google aponta que a sintaxe não foi compreendida. Isso essencialmente invalida a primeira linha de nosso arquivo robots.txt inteiro, o que não é nada bom! Glenn Gabe escreveu um excelente artigo sobre como um UTF-8 BOM poderia acabar com seu SEO.

UTF-8 BOM em seu arquivo robots.txt

UTF-8 BOM em seu arquivo robots.txt

Googlebot É Baseado Principalmente nos EUA

Também é importante não bloquear o Googlebot dos Estados Unidos, mesmo que você esteja tentando atingir uma região que fique fora desse país. Por vezes, eles realizam um rastreamento local, mas o Googlebot é baseado principalmente nos EUA.

O Que Sites WordPress Populares Colocam em Seus Arquivos Robots.txt

Para fornecer um pouco de contexto real dos pontos listados acima, aqui está como alguns dos sites WordPress mais populares estão usando seus arquivos robots.txt.

TechCrunch

Arquivo Robots.txt da TechCrunch

Arquivo Robots.txt da TechCrunch

Além de restringir o acesso a algumas páginas únicas, a TechCrunch impede que os rastreadores acessem:

  • /wp-admin/
  • /wp-login.php

Eles também definiram restrições especiais para dois bots:

  • Swiftbot
  • IRLbot

Caso esteja interessado, o IRLbot é um rastreador de um projeto de pesquisa da Texas A&M University. Isso é algo curioso!

The Obama Foundation

Arquivo Robots.txt da Obama Foundation

Arquivo Robots.txt da Obama Foundation

The Obama Foundation não fez nenhuma adição especial, optando por restringir o acesso exclusivamente ao /wp-admin/.

Angry Birds

Arquivo Robots.txt do Angry Birds

Arquivo Robots.txt do Angry Birds

Angry Birds tem a mesma configuração padrão da The Obama Fundation. Nada de especial foi adicionado.

Drift

Arquivo Robots.txt da Drift

Arquivo Robots.txt da Drift

Por fim, a Drift opta por definir seus mapas de site (sitemaps) no arquivo Robots.txt, mas no restante determinou as mesmas restrições padrão que The Obama Foundation e Angry Birds.

Use Robots.txt da Forma Certa

Ao concluirmos nosso guia sobre robots.txt, queremos lembrá-lo novamente que usar o comando Negar (Disallow) em seu arquivo robots.txt não é a mesma coisa que usar a tag noindex. Robots.txt bloqueia rastreamentos, mas não necessariamente impede indexações. Você pode usar regras específicas para modelar como mecanismos de pesquisa e outros bots interagem com seu site, mas isso não irá controlar explicitamente se seu conteúdo será indexado ou não.

Para a maioria dos usuários casuais do WordPress, não há uma necessidade urgente de modificar o arquivo virtual padrão robots.txt. Mas se você está enfrentando problemas com um bot específico ou se deseja alterar a forma como mecanismos de pesquisa interagem com um determinado plugin ou tema que está usando, talvez queira adicionar suas próprias regras.

Esperamos que você tenha gostado deste guia e lembre-se de deixar um comentário se tiver outras perguntas sobre a utilização do seu arquivo robots.txt do WordPress.


Se você gostou deste artigo, então você vai adorar a plataforma de hospedagem WordPress da Kinsta. Turbine seu site e obtenha suporte 24/7 de nossa experiente equipe de WordPress. Nossa infraestrutura baseada no Google Cloud se concentra em escalabilidade automática, desempenho e segurança. Deixe-nos mostrar-lhe a diferença Kinsta! Confira nossos planos