Os sites não são criados apenas para publicar conteúdo, e os metadados não são ajustados por diversão, todas essas atividades trabalham juntas para que suas páginas possam ser descobertas com mais facilidade. Por anos, a Pesquisa do Google tem sido o principal caminho para essa visibilidade, em grande parte graças aos seus rastreadores da web.

Desde o final da década de 1990, o Googlebot e outros rastreadores tradicionais analisam sites, buscam páginas HTML e as indexam para ajudar as pessoas a encontrar o que estão procurando. Em janeiro de 2024, o Google era responsável por 63% de todo o tráfego web nos EUA, impulsionado pelos 170 principais domínios.

Mas agora, de acordo com uma pesquisa da McKinsey, metade dos clientes recorre a ferramentas de IA, como ChatGPT, Claude, Gemini ou Perplexity, para obter respostas instantâneas, e até mesmo o Google está combinando resumos gerados por IA aos resultados de pesquisa por meio de recursos como o AI Overviews.

Por trás dessas novas experiências orientadas por IA está uma classe crescente de bots conhecidos como rastreadores de IA. Se você administra um site WordPress, entender como esses rastreadores acessam e usam seu conteúdo é mais importante do que nunca.

O que são rastreadores de IA?

Rastreadores de IA são bots automatizados que analisam páginas da web acessíveis publicamente, de forma semelhante aos rastreadores de mecanismos de pesquisa, mas com um propósito diferente. Em vez de indexar páginas para classificação tradicional, eles coletam conteúdo para treinar grandes modelos de linguagem ou fornecer informações atualizadas para respostas geradas por IA.

De modo geral, os rastreadores de IA se dividem em dois grupos:

  1. Os rastreadores de treinamento, como o GPTBot (OpenAI) e o ClaudeBot (Anthropic), coletam dados para ensinar grandes modelos de linguagem a responder perguntas com mais precisão.
  2. Os rastreadores de recuperação em tempo real, como o ChatGPT-User, acessam sites em tempo real quando alguém faz uma pergunta que requer os dados mais recentes, como verificar a descrição de um produto ou ler a documentação.

Outros rastreadores, como o PerplexityBot ou o AmazonBot, por exemplo, estão criando seus próprios índices ou sistemas para reduzir a dependência de fontes de terceiros. E, embora seus objetivos sejam diferentes, todos eles têm uma coisa em comum: eles buscam e leem conteúdo de sites como o seu.

Como os rastreadores de IA funcionam

Quando um rastreador de IA visita seu site, ele normalmente faz o seguinte:

  • Envia uma solicitação GET básica para a URL da página (sem interação, rolagem ou eventos DOM).
  • Obtém apenas o HTML inicial retornado pelo servidor. Não espera que o JavaScript do lado do cliente seja carregado ou executado.
  • Extrai todos os links <a href="">, <img src="">, <script src=""> e outros recursos e, em seguida, adiciona URLs internas, e às vezes externas, à fila de rastreamento. Em muitos casos, também acessa links quebrados que retornam erros 404.
  • Pode tentar buscar ativos vinculados, como imagens, arquivos CSS ou scripts, mas apenas como recursos brutos, não para renderizar a página.
  • Repete esse processo recursivamente nos links descobertos para mapear o site.

Como os rastreadores de IA interagem com os sites WordPress

O WordPress é uma plataforma renderizada no servidor que usa PHP para gerar páginas HTML completas antes de enviá-las ao navegador. Quando um rastreador visita um site WordPress, ele geralmente obtém tudo (conteúdo, cabeçalhos, metadados, navegação) de que precisa na resposta em HTML.

Essa estrutura renderizada no servidor torna a maioria dos sites WordPress naturalmente amigável para rastreadores. Seja o Googlebot ou um rastreador de IA, eles geralmente conseguem analisar seu site e entender seu conteúdo com facilidade. Na verdade, o conteúdo facilmente rastreável é um dos motivos pelos quais o WordPress tem bom desempenho tanto na pesquisa tradicional quanto em plataformas mais recentes orientadas por IA.

Você deve permitir que os rastreadores de IA acessem seu conteúdo?

Os rastreadores de IA já podem ler a maioria dos sites WordPress por padrão. A verdadeira questão é o que você quer que eles acessem – e como você pode controlar essa visibilidade.

Empresas orientadas por conteúdo estão debatendo intensamente esse tema no momento. O assunto se estende a artigos de blog, documentação, landing pages, praticamente tudo o que é escrito para a web. Você provavelmente já ouviu conselhos como “escreva para as máquinas”, já que plataformas de IA cada vez mais extraem dados em tempo real e, em alguns casos, agora incluem links para as fontes. Todos queremos aparecer nos resultados de modelos de linguagem, da mesma forma que queremos aparecer nos resultados de pesquisa do Google.

Por exemplo, na captura de tela abaixo, pedimos ao ChatGPT que nos diga alguns dos recursos mais recentes lançados pela Kinsta. Ele pesquisa na web, analisa changelogs e páginas vinculadas, e fornece uma resposta resumida com links diretos para a fonte.

ChatGPT resumindo lançamentos recentes de recursos da Kinsta com links para páginas de origem
ChatGPT resumindo lançamentos recentes de recursos da Kinsta.

Ainda é cedo, mas os rastreadores de IA já influenciam o que as pessoas veem quando fazem perguntas on-line. E esse alcance pode ser importante.

Guillermo Rauch, CEO da Vercel, compartilhou em abril que o ChatGPT é responsável por quase 10% das novas inscrições na Vercel, em comparação com menos de 1% apenas seis meses antes. Isso demonstra a velocidade com que as indicações orientadas por IA podem evoluir para um canal de aquisição significativo.

Dados compartilhados pelo CEO da Vercel, Guillermo Rauch, mostrando cadastros impulsionados pelo ChatGPT.
Dados compartilhados pelo CEO da Vercel mostram cadastros impulsionados pelo ChatGPT.

E os rastreadores de IA estão amplamente difundidos. De acordo com o Cloudflare, os bots de IA acessaram cerca de 39% dos um milhão de sites mais importantes, mas apenas cerca de 3% desses sites realmente bloquearam ou desafiaram esse tráfego.

Portanto, mesmo que você ainda não tenha tomado uma decisão, é quase certo que os rastreadores de IA já estão visitando seu site.

Você deve permitir ou bloquear os rastreadores de IA?

Não existe uma resposta única que sirva para todos. Não há uma resposta universal, mas aqui está um framework:

  • Bloqueie rastreadores em rotas sensíveis ou de baixo valor, como /login, /checkout, /admin ou painéis. Elas não ajudam na descoberta e apenas desperdiçam largura de banda.
  • Permita rastreadores em “conteúdo de descoberta”, como artigos de blog, documentação, páginas de produtos e informações de preços. Essas páginas têm mais chance de serem citadas em respostas de IA e gerar tráfego qualificado.
  • Decida estrategicamente para conteúdo premium ou com acesso restrito. Se o seu conteúdo é o seu produto, por exemplo, notícias, pesquisas ou cursos, permitir acesso irrestrito à IA pode prejudicar o seu modelo de negócio.

Novas ferramentas estão surgindo para ajudar. O Cloudflare, por exemplo, está testando um modelo chamado Pay Per Crawl, que permite que os proprietários de sites cobrem das empresas de IA pelo acesso. Ainda está em beta privado e a adoção no mundo real é inicial, mas a ideia ganhou forte apoio de grandes publishers que querem mais controle sobre como seu conteúdo é usado.

Outros profissionais da comunidade de busca e marketing são mais cautelosos, pois o bloqueio por padrão pode reduzir involuntariamente a visibilidade em resultados de pesquisa por IA para sites que realmente desejam essa exposição. Por enquanto, trata-se de um experimento promissor, e não de uma fonte de receita madura.

Até que esses sistemas amadureçam, a abordagem mais prática é a abertura seletiva, mantendo o conteúdo de descoberta rastreável, bloqueando áreas sensíveis e revisando as regras conforme o ecossistema evolui.

Como controlar o acesso de rastreadores de IA no WordPress

Se você não se sente confortável com os rastreadores de IA acessando seu site WordPress e examinando seu conteúdo, a boa notícia é que você pode retomar o controle.

Aqui estão três maneiras de você gerenciar o acesso de rastreadores de IA no WordPress:

  1. Editar manualmente seu arquivo robots.txt.
  2. Use um plugin para fazer isso por você.
  3. Usar a proteção contra bots do Cloudflare.

Vamos examinar as três opções.

Opção 1: bloquear manualmente os rastreadores de IA com robots.txt

Seu arquivo robots.txt informa aos bots quais partes do seu site eles têm permissão para rastrear. Os rastreadores de IA mais conhecidos, como o GPTBot da OpenAI, o Claude-Web da Anthropic e o Google-Extended, respeitam essas regras.

Você pode bloquear totalmente bots específicos, permitir-lhes acesso total ou restringir o acesso a determinadas seções do seu site. Por exemplo, para bloquear tudo, você pode adicionar isso ao seu arquivo robots.txt, embora isso não seja recomendado para a maioria dos sites:

User-agent: GPTBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Google-Extended
Disallow: /

Para permitir acesso total ao GPTBot da OpenAI:

User-agent: GPTBot
Disallow:

Para bloquear apenas uma seção do seu site do GPTBot da OpenAI. Por exemplo, sua página de login, onde os rastreadores não agregam valor:

User-agent: GPTBot
Disallow: /login/

Esse tipo de bloqueio seletivo é fundamental. Rotas confidenciais como /login, /checkout ou /admin não ajudam na capacidade de descoberta e quase sempre devem ser bloqueadas. Por outro lado, páginas de produtos, visões gerais de recursos ou sua central de ajuda são boas candidatas para serem mantidas abertas aos rastreadores, pois podem gerar citações e indicações.

Você pode adicionar esse arquivo robots.txt manualmente:

  • Usando um plugin de SEO como o Yoast (Ferramentas > Editor de arquivos).
  • Usando um plugin de gerenciador de arquivos como o WP File Manager.
  • Ou editando seu arquivo robots.txt diretamente no servidor via FTP.

Opção 2: usar um plug-in do WordPress

Se você não se sentir à vontade para editar o arquivo robots.txt diretamente ou se quiser apenas uma maneira mais rápida e segura de gerenciar o acesso do rastreador de IA, os plugins podem fazer o trabalho para você com apenas alguns cliques.

Raptive Ads

O plugin Raptive Ads para WordPress inclui suporte integrado para bloqueio de rastreadores de IA:

  • Você pode alternar quais bots devem ser bloqueados diretamente nas configurações do plugin.
  • A maioria dos bots de IA (como GPTBot e Claude) é bloqueada por padrão.
  • O Google-Extended não é bloqueado por padrão, mas você pode marcar a caixa se quiser optar por não participar do treinamento de IA do Google.

Uma das principais vantagens de usar esse plugin é que o bloqueio do Google-Extended não afeta suas classificações no Google nem a visibilidade nos resultados de pesquisa regulares.

Block AI Crawlers

O plugin Block AI Crawlers foi criado especificamente para dar aos proprietários de sites WordPress mais controle sobre como os rastreadores de IA interagem com seu conteúdo. Veja como:

  • Bloqueia mais de 75 bots de IA conhecidos, adicionando automaticamente as regras Disallow corretas ao site robots.txt.
  • Você não precisa de configuração. Instale o plugin, vá para Configurações > Leitura e marque a caixa Block AI Crawlers.
  • Leve e de código aberto, com atualizações regulares extraídas do GitHub.
  • Projetado para funcionar imediatamente na maioria das instalações do WordPress.

O plugin Block AI Crawlers é uma das maneiras mais fáceis de manter os bots de IA indesejados fora do seu site, especialmente se você não estiver usando plugins avançados de SEO.

Opção 3: usar o AI bot Blocker da Cloudflare com um clique

Se o seu site WordPress usa o Cloudflare (e muitos usam), você pode bloquear dezenas de bots de IA conhecidos e desconhecidos com um único botão.

Em meados de 2024, o Cloudflare lançou um recurso dedicado de AI Scrapers e Crawlers, disponível até mesmo no plano gratuito. Esse recurso não depende apenas do site robots.txt; ele bloqueia bots no nível da rede, mesmo aqueles que mentem sobre quem são.

Você pode ativá-lo fazendo o seguinte:

  1. Faça login em seu painel de controle do Cloudflare
  2. Vá em Segurança > Configurações
  3. Na seção Filtrar por, escolha Tráfego de bots.
  4. Encontre Bot Fight Mode e ative a opção
Painel da Cloudflare mostrando as opções de configuração do Bot Fight Mode para segurança aprimorada.
Painel da Cloudflare mostrando a opção Bot Fight Mode.

Se estiver usando um plano pago do Cloudflare, você terá acesso ao modo Super Bot Fight, uma versão aprimorada do modo Bot Fight com mais flexibilidade. Ele se baseia na mesma tecnologia, mas permite que você escolha como lidar com diferentes tipos de tráfego, habilitando detecções de JavaScript para capturar navegadores headless, scrapers furtivos e outros tráfegos maliciosos.

Por exemplo, em vez de bloquear todos os rastreadores, você pode configurar a ferramenta para bloquear apenas “tráfego definitivamente automatizado” e permitir “bots verificados”, como rastreadores de mecanismos de pesquisa:

Painel do Super Bot Fight Mode da Cloudflare exibindo configurações de proteção contra bots e análises.
Super Bot Fight Mode do Cloudflare.

Pronto. O Cloudflare bloqueia automaticamente as solicitações de bots de IA.

Se você quiser uma visão mais detalhada de como essas ferramentas funcionam em conjunto, incluindo Bot Fight Mode, Super Bot Fight Mode e regras de desafio direcionadas, pode ler nosso guia completo sobre com proteger seu site WordPress do tráfego indesejado de bots com o Cloudflare.

O que essa mudança significa para o seu site WordPress

Os rastreadores de IA agora fazem parte da forma como as pessoas descobrem informações online. A tecnologia é nova, as regras ainda estão se formando, e os proprietários de sites estão decidindo quanto do seu conteúdo desejam disponibilizar.

A boa notícia é que os sites WordPress já estão em uma posição forte. Como o WordPress entrega HTML totalmente renderizado, a maioria dos rastreadores de IA consegue interpretar seu conteúdo com clareza, sem necessidade de tratamento especial. A verdadeira decisão estratégica não é se os rastreadores de IA podem acessar seu site, mas sim quanto acesso ajuda a atingir seus objetivos.

E, à medida que a combinação de tipos de tráfego evolui, é útil ter opções de hospedagem que facilitem a compreensão e o gerenciamento do uso de recursos. Os novos planos baseados em largura de banda da Kinsta oferecem uma maneira mais previsível de contabilizar a transferência total de dados, independentemente da origem das solicitações. Combinado com as proteções contra bots do Cloudflare e suas próprias regras de rastreamento, você tem controle total sobre como seu site é acessado.

Joel Olawanle Kinsta

Joel é um desenvolvedor Frontend que trabalha na Kinsta como Editor Técnico. Ele é um professor apaixonado com amor pelo código aberto e já escreveu mais de 200 artigos técnicos, principalmente sobre JavaScript e seus frameworks.