Já ouviu falar sobre o termo robots.txt e se perguntou como ele se aplica ao seu website? A maioria dos sites possui um arquivo robots.txt, mas isso não significa que os webmasters o entendam. Neste post, esperamos mudar essa situação através de uma análise profunda sobre o arquivo robots.txt do WordPress, além de explicar ele pode controlar e limitar o acesso ao seu site. Ao final, você estará apto a responder perguntas como:
- O Que é um Robots.txt do WordPress?
- Como o Robots.txt Ajuda Meu Website?
- Como Eu Posso Adicionar o Robots.txt ao WordPress?
- Quais Tipos de Regras Posso Colocar no Robots.txt?
- Como Testo Meu Arquivo Robots.txt?
- Como Grandes Websites WordPress Implementam o Robots.txt?
Há muito a analisar, então vamos começar!
O que é um Robots.txt do WordPress?
Antes de falarmos sobre o robots.txt do WordPress, é importante definir o que é um “robô” neste caso. Robôs são quaisquer tipos de “bots” que visitam websites na Internet. O exemplo mais comum são os rastreadores de mecanismos de pesquisa. Esses bots “rastreiam” ao redor da rede para ajudar buscadores, como o Google, a indexar e classificar bilhões de páginas na Internet.
Então, bots são, em geral, uma coisa boa para a Internet… ou, pelo menos, necessária. Mas isso não significa necessariamente que você ou os demais webmasters queiram bots rodando por aí sem restrições. O desejo de controlar como os robôs da rede interagem com websites levou à criação de um protocolo de exclusão de robôs em meados dos anos 90. Robots.txt é a implementação prática desse protocolo – ele permite que você controle como os bots participantes interagem com seu site. Você pode bloquear os bots completamente, restringir o acesso deles a certas áreas de seu site, entre outras opções.
A parte sobre “participantes” é importante. Robots.txt não pode forçar um bot a seguir suas orientações. E bots maliciosos podem e vão ignorar o arquivo robots.txt. Além disso, mesmo algumas organizações de respeito ignoram alguns comandos que você pode adicionar no Robots.txt. Por exemplo, o Google irá ignorar qualquer regra que você adicione ao seu robots.txt sobre a frequência de visitas de seus rastreadores. Se você está enfrentando problemas com bots, uma solução de segurança como Cloudflare ou Sucuri pode ser conveniente.
Por Que Você Deve se Importar com seu Arquivo Robots.txt?
Para a maioria dos webmasters, os benefícios de um arquivo robots.txt bem estruturado se resumem a duas categorias:
- Otimizar recursos de rastreamento de mecanismos de pesquisa, ao informá-los para que não percam tempo em páginas que você não deseja que sejam indexadas. Isso ajuda a garantir que mecanismos de pesquisa foquem no rastreamento das páginas que você mais se importa.
- Otimizando o uso do seu servidor, bloqueando bots que estão desperdiçando recursos.
Robots.txt Não se Trata Especificamente de Controlar Quais Páginas São Indexadas em Mecanismos de Pesquisa
Robots.txt não é uma forma infalível para controlar quais páginas os mecanismos de pesquisa indexam. Se seu objetivo primário é impedir que certas páginas sejam incluídas nos resultados dos buscadores, a abordagem adequada é usar uma meta tag noindex ou outro método direto similar.
Isso ocorre porque seu Robots.txt não está dizendo diretamente aos mecanismos de pesquisa para não indexar o conteúdo – está informando apenas para que não o rastreiem. Apesar do Google não rastrear as áreas demarcadas dentro do seu site, o próprio Google informa que, caso um site externo aponte para uma página que você excluiu do seu arquivo Robots.txt, ele ainda assim poderá indexá-la.
John Mueller, um Analista Webmaster do Google, também já confirmou que, se uma página tem links apontados para ela, mesmo que esteja bloqueada pelo robots.txt, ainda assim poderá ser indexada. Abaixo está o que ele disse em uma conferência da Webmaster Central:
Uma coisa que devemos ter em mente aqui é que, se essas páginas são bloqueadas pelo robots.txt, teoricamente é possível que alguém aleatoriamente crie um link apontando para uma delas. E se isso for feito, pode ser que indexemos esta URL sem qualquer conteúdo, pois ele está bloqueado pelo robots.txt. Assim, não saberíamos que você não deseja ter essas páginas realmente indexadas.
Considerando que, se elas não estiverem bloqueadas pelo robots.txt, você pode colocar adicionar uma meta tag noindex em tais páginas. E se alguém cria um link apontado para elas, nós o rastreamos e acreditamos que há algo útil lá, saberíamos que essas páginas não precisam ser indexadas e que podemos ignorá-las completamente.
Então, neste aspecto, se você tem algo nessas páginas que não quer que seja indexado, não as desabilite, use a tag noindex ao invés disso.
Como Criar e Editar Seu Arquivo Robots.txt do WordPress
Por padrão, o WordPress cria automaticamente um arquivo virtual robots.txt para seu site. Portanto, mesmo que você não mova um dedo, seu site já deve ter um arquivo robots.txt padronizado. Você pode testar se este é o caso, adicionando “/robots.txt” no final do seu nome de domínio. Por exemplo, “https://kinsta.com/robots.txt” apresenta o arquivo robots.txt que usamos aqui na Kinsta:

Por ser um arquivo virtual, no entanto, você não consegue editá-lo. Se você deseja alterar seu arquivo robots.txt, precisará realmente criar um arquivo físico em seu servidor que poderá manipular conforme necessário. Aqui estão três formas simples de fazer isso…
Como Criar e Editar um Arquivo Robots.txt com Yoast SEO
Se você está usando o plugin popular Yoast SEO, pode criar (e depois editar) seu arquivo robots.txt direto da interface do Yoast. Antes de conseguir acessá-lo, no entanto, você precisa habilitar os recursos avançados do Yoast SEO em SEO → Painel (Dashboard) → Recursos (Features) e alterar as Páginas de configurações avançadas (Advanced settings pages):

Uma vez ativado, você pode ir até SEO → Ferramentas (Tools) e clicar em Editor de arquivos (File editor):

Assumindo que você ainda não tenha um arquivo Robots.txt físico, o Yoast oferecerá uma opção para Criar o arquivo robots.txt (Create robots.txt file):

E, após ter clicado neste botão, você conseguirá editar o conteúdo do seu arquivo Robots.txt diretamente na mesma interface:

Mais adiante nesta leitura, nos aprofundaremos sobre quais tipos de diretivas colocar em seu arquivo robots.txt do WordPress.
Como Criar e Editar um Arquivo Robots.txt Com All In One SEO
Se você estiver usando o All in One SEO Pack, um plugin quase tão popular quanto o Yoast, também pode criar e editar seu arquivo robots.txt do WordPress diretamente na interface do plugin. Tudo o que você precisa fazer é ir até All in One SEO → Gerenciador de Recursos (Feature Manager) e Ativar (Activate) o recurso Robots.txt:

Em seguida, você conseguirá gerenciar seu arquivo Robots.txt, acessando All in One SEO → Robots.txt:

Como Criar e Editar um Arquivo Robots.txt Via FTP
Se você não estiver usando um plugin SEO que ofereça a funcionalidade robots.txt, ainda será capaz de criar e gerenciar seu próprio arquivo robots.txt via SFTP. Primeiro, use qualquer editor de texto para criar um arquivo vazio chamado “robots.txt”:

Em seguida, conecte-se ao seu site através de SFTP e faça o upload do arquivo para a pasta raiz do seu site. Você pode fazer modificações em seu arquivo robots.txt, editando-o via SFTP ou fazendo o upload de novas versões do mesmo.
O Que Colocar em Seu Arquivo Robots.txt
Ok, agora você tem um arquivo robots.txt físico em seu servidor que pode ser editado conforme necessário. Mas o que realmente deve ser feito com ele? Bem, conforme dissemos na primeira seção, o robots.txt permite que você controle como os robôs interagem com seu site. Você faz isso com dois comandos principais:
- Agente de Usuário (User-agent) – permite que você mire bots específicos. Agentes de usuário são aqueles que os bots usam para se identificar. Com eles você pode, por exemplo, criar uma regra que se aplique ao Bing, mas não ao Google.
- Negar (Disallow)– permite que você diga aos robôs para não acessarem certas áreas de seu site.
Existe também o comando Permitir (Allow) que você usará em situações específicas. Por padrão, tudo em seu site é marcado com Permitir (Allow), por isso não é necessário usá-lo em 99% das situações. Mas ele se torna conveniente quando você precisa Negar (Disallow) o acesso a uma pasta e suas pastas filhas, mas Permitir (Allow) acesso a uma subpasta específica.
Você adiciona regras especificando, primeiramente, a qual agente de usuário elas devem se aplicar e, em seguida, lista quais regras serão usadas através de Permitir (Allow) e Negar (Disallow). Também há alguns outros comandos, como Atraso de Rastreamento (Craw-delay) e Mapa de Site (Sitemap), mas eles são:
- Ignorados pela maioria dos grandes rastreadores ou interpretados de maneiras totalmente diferentes (no caso do atraso de rastreamento)
- Se tornam redundantes por ferramentas como Google Search Console (para mapas de site)
Vamos abordar alguns casos específicos de uso para mostrar a você como tudo isso é reunido.
Como Usar Robots.txt Para Bloquear o Acesso ao Seu Site Inteiro
Digamos que você queira bloquear todo o acesso de rastreadores ao seu site. É improvável que isso ocorra em um site que está em produção (ao vivo), mas pode ser conveniente para um que esteja em teste. Para fazer isso, adicione esse código ao arquivo robots.txt do WordPress:
User-agent: *
Disallow: /
O que esse código diz?
O *asterisco ao lado do Agente de Usuário (User-agent) significa “todos os agentes de usuário”. O asterisco é um curinga, o que significa que ele se aplica a cada agente de usuário. A /barra ao lado de Negar (Disallow) informa que você quer negar o acesso a todas as páginas que contêm “seudominio.com/” (o que significa que são todas as páginas do seu site).
Como Usar Robots.txt Para Bloquear Um Único Bot de Acessar Seu Site
Vamos mudar as coisas um pouco. Neste exemplo, digamos que você não gosta do fato de o Bing rastrear suas páginas. Você adora o Google e não deseja sequer que o Bing veja seu site. Para bloquear apenas o Bing de rastrear seu site, você deve substituir o *asterisco curinga por Bingbot:
User-agent: Bingbot
Disallow: /
Essencialmente, o código acima informa que a regra Negar (Disallow) se aplica apenas aos bots com o Agente de Usuário (User-agent) “Bingbot”. É improvável que você queira bloquear o acesso ao Bing – mas esse cenário é conveniente se houver um bot específico que você não queira acessando seu site. Este site tem uma ótima lista dos nomes de Agentes de Usuário de serviços conhecidos.
Como Usar Robots.txt Para Bloquear o Acesso a Uma Pasta Ou Arquivo Específico
Para este exemplo, digamos que você deseja bloquear o acesso a um arquivo ou pasta específica (e todas as suas subpastas). Para que isso se aplique ao WordPress, vamos considerar seu desejo de bloquear:
- A pasta wp-admin inteira
- wp-login.php
Você poderia usar os seguintes comandos:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Como Usar Robots.txt Para Permitir Acesso a Um Arquivo Específico em Uma Pasta Negada
Ok, agora digamos que você deseja bloquear uma pasta inteira, mas ainda deseja permitir acesso a um arquivo específico dentro dela. É nesse momento que o comando Permitir (Allow) se torna conveniente. E ele pode ser muito aplicado no WordPress. Na verdade, o arquivo robots.txt virtual do WordPress ilustra este exemplo perfeitamente:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Este código bloqueia o acesso à pasta /wp-admin/ inteira, com exceção do arquivo /wp-admin/admin-ajax.php.
Como Usar Robots.txt Para Impedir Que Bots Rastreiem Resultados de Pesquisa do WordPress
Um ajuste específico do WordPress que você pode querer fazer é impedir que os rastreadores de buscadores rastreiem suas páginas de resultados de pesquisas. Por padrão, o WordPress usa o parâmetro de query “?s=”. Para bloquear o acesso, tudo o que você precisa fazer é adicionar a seguinte regra:
User-agent: *
Disallow: /?s=
Disallow: /search/
Esta pode ser uma maneira efetiva de também impedir erros soft 404 se você estiver se deparando com eles. Certifique-se de ler o nosso guia detalhado sobre como acelerar a pesquisa do WordPress.
Como Criar Regras Diferentes Para Bots Diferentes no Robots.txt
Até agora, todos os exemplos atenderam uma regra por vez. Mas e se você deseja aplicar regras diferentes para bots diferentes? Só é necessário adicionar cada conjunto de regras abaixo da declaração do Agente de Usuário (User-agent) para cada bot. Por exemplo, se você quer uma regra que se aplique a todos os bots e outra que seja voltada apenas ao Bingbot, poderia fazer o seguinte:
User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /
Neste exemplo, todos os bots serão bloqueados de acessar /wp-admin/, mas o Bingbot será impedido de acessar seu site inteiro.
Testando Seu Arquivo Robots.txt
Você pode testar seu arquivo robots.txt do WordPress no Google Search Console para garantir que esteja configurado corretamente. Clique em seu site e na seção “Rastreamento” (“Crawl”), clique em “Testar robots.txt” (“robots.txt Tester”). Você poderá submeter qualquer URL, incluindo sua página inicial. Será possível ver um Permitido (Allowed) verde se tudo puder ser rastreado. Você também poderá testar URLs que bloqueou para garantir que estão, de fato, bloqueadas ou Negadas.

Atenção ao UTF-8 BOM
BOM é a sigla de “byte order mark” e é, basicamente, um caractere invisível que, por vezes, é adicionado em arquivos por editores de texto antigos. Se isso acontecer com seu arquivo robots.txt, o Google talvez não o leia corretamente. Por isso, é importante verificar possíveis erros em seu arquivo. Por exemplo, como pode ser visto abaixo, nosso arquivo tinha um caractere invisível e o Google aponta que a sintaxe não foi compreendida. Isso essencialmente invalida a primeira linha de nosso arquivo robots.txt inteiro, o que não é nada bom! Glenn Gabe escreveu um excelente artigo sobre como um UTF-8 BOM poderia acabar com seu SEO.

Googlebot É Baseado Principalmente nos EUA
Também é importante não bloquear o Googlebot dos Estados Unidos, mesmo que você esteja tentando atingir uma região que fique fora desse país. Por vezes, eles realizam um rastreamento local, mas o Googlebot é baseado principalmente nos EUA.
Googlebot is mostly US-based, but we also sometimes do local crawling. https://t.co/9KnmN4yXpe
— Google Webmasters (@googlewmc) November 13, 2017
O Que Sites WordPress Populares Colocam em Seus Arquivos Robots.txt
Para fornecer um pouco de contexto real dos pontos listados acima, aqui está como alguns dos sites WordPress mais populares estão usando seus arquivos robots.txt.
TechCrunch

Além de restringir o acesso a algumas páginas únicas, a TechCrunch impede que os rastreadores acessem:
- /wp-admin/
- /wp-login.php
Eles também definiram restrições especiais para dois bots:
- Swiftbot
- IRLbot
Caso esteja interessado, o IRLbot é um rastreador de um projeto de pesquisa da Texas A&M University. Isso é algo curioso!
The Obama Foundation

The Obama Foundation não fez nenhuma adição especial, optando por restringir o acesso exclusivamente ao /wp-admin/.
Angry Birds

Angry Birds tem a mesma configuração padrão da The Obama Fundation. Nada de especial foi adicionado.
Drift

Por fim, a Drift opta por definir seus mapas de site (sitemaps) no arquivo Robots.txt, mas no restante determinou as mesmas restrições padrão que The Obama Foundation e Angry Birds.
Use Robots.txt da Forma Certa
Ao concluirmos nosso guia sobre robots.txt, queremos lembrá-lo novamente que usar o comando Negar (Disallow) em seu arquivo robots.txt não é a mesma coisa que usar a tag noindex. Robots.txt bloqueia rastreamentos, mas não necessariamente impede indexações. Você pode usar regras específicas para modelar como mecanismos de pesquisa e outros bots interagem com seu site, mas isso não irá controlar explicitamente se seu conteúdo será indexado ou não.
Para a maioria dos usuários casuais do WordPress, não há uma necessidade urgente de modificar o arquivo virtual padrão robots.txt. Mas se você está enfrentando problemas com um bot específico ou se deseja alterar a forma como mecanismos de pesquisa interagem com um determinado plugin ou tema que está usando, talvez queira adicionar suas próprias regras.
Esperamos que você tenha gostado deste guia e lembre-se de deixar um comentário se tiver outras perguntas sobre a utilização do seu arquivo robots.txt do WordPress.
Obtenha todos os seus aplicativos, banco de dados e Sites WordPress on-line e sob o mesmo teto. Nossa plataforma de nuvens de alto desempenho e repleta de recursos inclui:
- Fácil configuração e gerenciamento no painel MyKinsta
- Suporte especializado 24/7
- O melhor hardware e rede do Google Cloud Platform, alimentado por Kubernetes para a máxima escalabilidade
- Integração Cloudflare de nível empresarial para velocidade e segurança
- Audiência global com centros de dados de até 35 e 275 PoPs no mundo todo
Comece agora com uma avaliação gratuita do nosso Hospedagem de Aplicativos ou Hospedagem de Banco de Dados. Explore nossos planos ou entre em contato com as vendas para encontrar o que melhor se adapta às suas necessidades.
Deixe uma resposta