Para a maioria dos marqueteiros, atualizações constantes são necessárias para manter os sites atualizados e melhorar o ranking de SEO.
Entretanto, alguns sites têm centenas ou até milhares de páginas, tornando um desafio para as equipes enviar atualizações manualmente para os mecanismos de pesquisa. Se o conteúdo está sendo atualizado com tanta frequência, como sua equipe pode ter certeza de que essas melhorias afetarão seus rankings de SEO?
É aqui que entram os bots de rastreamento. Os bots de rastreamento da web verificam seu mapa do site (sitemap) em busca de novas atualizações e indexam seu conteúdo nos mecanismos de pesquisa.
Este artigo contém uma lista abrangente de rastreadores que abrange todos os bots de rastreamento da web que você precisa conhecer. Antes de começar, definiremos o que é bots de rastreamento da web (web crawler bots) e mostraremos como eles funcionam.
Confira nosso guia em vídeo sobre os rastreadores da web mais comuns
O que é um rastreador da web (web crawler)?
Um rastreador da web é um programa de computador que automaticamente escaneia e lê páginas da web para indexar as páginas para mecanismos de pesquisa. Rastreadores da web também são conhecidos como spiders ou bots.
Para que os mecanismos de pesquisa apresentem páginas da internet atualizadas e relevantes aos usuários que iniciam uma pesquisa, deve ocorrer um rastreamento a partir de um robô ou bot de rastreamento web. Este processo pode às vezes acontecer automaticamente (dependendo das configurações do rastreador e do seu site), ou pode ser iniciado diretamente.
Muitos fatores impactam o ranking SEO de suas páginas, incluindo relevância, backlinks, hospedagem de sites e muito mais. Entretanto, nenhum desses fatores importa se às suas páginas não estão sendo rastreadas e indexadas pelos mecanismos de pesquisa. É por isso que é tão vital ter certeza de que seu site está permitindo o rastreamento correto e removendo quaisquer barreiras em seu caminho.
Os bots devem continuamente escanear e extrair conteúdos da web para assegurar que as informações mais precisas sejam apresentadas. Google é o site mais visitado nos Estados Unidos, e aproximadamente 26,9% das pesquisas vêm de usuários americanos:
No entanto, não há um único rastreador da web que rastreia para cada mecanismo de pesquisa. Cada mecanismo de pesquisa tem pontos fortes únicos, então desenvolvedores e marqueteiros às vezes compilam uma “lista de rastreadores”. Esta lista ajudam a identificar diferentes rastreadores em seu registro do site para aceitar ou bloquear.
Os marqueteiros devem compilar uma lista de rastreadores e entender como eles analisam seu site (ao contrário da raspagem de conteúdo que roubam o conteúdo) para garantir que suas landing pages sejam devidamente otimizadas para os mecanismos de pesquisa.
Como funciona um rastreador da web?
Um rastreador da web escaneará automaticamente sua página da internet depois que ela for publicada e indexará seus dados.
Rastreadores da web procuram por palavras-chave específicas associadas à página da internet e indexam essa informação para mecanismos de pesquisa relevantes como Google, Bing, e muito mais.
Os algoritmos dos mecanismos de pesquisa irão buscar esses dados quando um usuário submete uma consulta para a palavra-chave relevante em que está ligada a ela.
Os rastreamentos começam com URLs conhecidas. Estas são páginas da internet estabelecidas com vários sinais que direcionam os rastreadores da web para estas páginas. Estes sinais podem ser:
- Backlinks: O número de vezes que um site faz um link para ele
- Visitantes: Quanto tráfego está indo para essa página
- Autoridade de domínio: A qualidade geral do domínio
Então, eles armazenam os dados no índice do mecanismo de pesquisa. Quando o usuário inicia uma consulta de pesquisa, o algoritmo irá buscar os dados do índice e eles aparecerão na página de resultados do mecanismo de pesquisa. Este processo pode ocorrer em poucos milissegundos, e é por isso que os resultados frequentemente aparecem rapidamente.
Como webmaster, você pode controlar quais bots rastreiam o seu site. É por isso que é importante ter uma lista de rastreadores. É a lista de protocolo robots.txt que vive nos servidores de cada site que direciona os rastreadores para novos conteúdos que precisam ser indexados.
Dependendo do que você inserir em seu protocolo robots.txt em cada página da internet, você pode dizer a um rastreador para escanear ou evitar a indexação dessa página no futuro.
Ao entender o que um rastreador da web procura em sua varredura, você pode entender como posicionar melhor seu conteúdo para os mecanismos de pesquisa.
Compilando sua lista de Rastreadores: Quais são os diferentes tipos de rastreadores da web?
Quando você começa a pensar em compilar sua lista de rastreadores, existem três tipos principais de rastreadores a serem procurados. Estes incluem:
- Rastreadores internos: Estes são rastreadores projetados pela equipe de desenvolvimento de uma empresa para escanear seu site. Tipicamente eles são usados para auditoria e otimização do site.
- Rastreadores comerciais: Estes são rastreadores construídos sob medida como Screaming Frog que as empresas podem usar para rastrear e avaliar eficientemente seu conteúdo.
- Rastreadores de código aberto: Estes são rastreadores gratuitos, construídos por uma variedade de desenvolvedores e hackers ao redor do mundo.
É importante entender os diferentes tipos de rastreadores que existem para que você saiba qual tipo você precisa alavancar para seus próprios objetivos comerciais.
Os 14 principais rastreadores da web para adicionar à sua lista de rastreadores
Não há um único rastreador que faça todo o trabalho para cada mecanismo de pesquisa.
Ao invés disso, há uma variedade de rastreadores da web que avaliam suas páginas e escaneiam o conteúdo de todos os mecanismos de pesquisa disponíveis para usuários ao redor do mundo.
Analisaremos para alguns dos rastreadores mais populares.
1. Googlebot
Googlebot é o rastreador genérico da web do Google, responsável pelo rastreamento de sites que aparecerão no mecanismo de pesquisa do Google.
Tecnicamente existam duas versões do Googlebot, Googlebot Desktop e Googlebot Smartphone (Mobile) – a maioria dos especialistas considera o Googlebot um rastreador singular.
Isso ocorre porque ambos os sites usam o mesmo token de produto exclusivo (chamado de token de agente do usuário) em seus arquivos robots.txt. O user-agent do Googlebot é simplesmente “Googlebot“.
O Googlebot começa a trabalhar e normalmente chega ao seu site em segundos (a menos que você o tenha desabilitado o robots.txt do seu site). Um backup das páginas escaneadas é mantido em um único banco de dados chamado Google Cache. Isto permite que você olhe as versões anteriores do seu site.
Além disso, o Google Search Console também é outra ferramenta que os webmasters usam para entender como o Googlebot está rastreando seu site e para otimizar suas páginas para pesquisa.
User Agent | Googlebot |
Full User Agent String | Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
2. Bingbot
O Bingbot foi criado em 2010 pela Microsoft para escanear e indexar URLs para garantir que o Bing oferece resultados relevantes e atualizados do mecanismo de pesquisa para os usuários da plataforma.
Assim como o Googlebot, desenvolvedores ou marqueteiros podem definir em seus robots.txt em seu site se aprovam ou não, ou negam o identificador de agente “bingbot” para escanear seu site.
Além disso, eles conseguem distinguir entre rastreadores de indexação para dispositivos móveis e rastreadores de desktop desde que o Bingbot mudou recentemente para um novo tipo de agente. O Bing Webmaster Tools, fornece aos webmasters uma maior flexibilidade para mostrar como seu site é descoberto e mostrado nos resultados de pesquisas.
User Agent | Bingbot |
Full User Agent String | Desktop – Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36 Mobile – Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm) “W.X.Y.Z” will be substituted with the latest Microsoft Edge version Bing is using, for eg. “100.0.4896.127″ |
3. Yandex Bot
Yandex Bot é um rastreador específico para o mecanismo de pesquisa russo, Yandex. Este é um dos maiores e mais populares mecanismos de pesquisa na Rússia.
Os webmasters podem tornar suas páginas do site acessíveis ao Yandex Bot através do seu arquivo robots.txt.
Além disso, eles também poderiam adicionar uma tag Yandex.Metrica para páginas específicas, reindexar páginas no Yandex Webmaster ou emitir um protocolo IndexNow, um relatório único que aponta páginas novas, modificadas ou desativadas.
User Agent | YandexBot |
Full User Agent String | Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) |
4. Apple Bot
A Apple encomendou a Apple Bot para pesquisar e indexar as páginas da Apple no Siri e Spotlight Suggestions da Apple.
A Apple Bot considera múltiplos fatores ao decidir qual conteúdo elevar na Siri e Spotlight Suggestions. Estes fatores incluem o engajamento do usuário, a relevância dos termos de pesquisa, número/qualidade dos links, sinais baseados em localização, e até mesmo o design da página web.
User Agent | Applebot |
Full User Agent String | Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko) Version/Safari_version Safari/WebKit_version (Applebot/Applebot_version) |
5. DuckDuckBot
O DuckDuckBot é o rastreador da web do DuckDuckGo, que oferece “Proteção de privacidade sem emendas no seu navegador”
Webmasters podem usar a API do DuckDuckBot para ver se o DuckDuckBot rastreou o site deles. Ao rastrear, ele atualiza o banco de dados da API do DuckDuckBot com endereços IP recentes e agentes de usuários.
Isso ajuda os webmasters a identificar quaisquer impostores ou bots maliciosos que tentam ser associados ao DuckDuck Bot.
User Agent | DuckDuckBot |
Full User Agent String | DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html) |
6. Baidu Spider
Baidu é o principal mecanismo de pesquisa chinês, e o Baidu Spider é o único rastreador do site.
O Google é banido na China, sendo importante permitir que o Baidu Spider rastreie o seu site se você quiser chegar ao mercado chinês.
Para identificar o Baidu Spider rastreando seu site, procure os seguintes agentes de usuário: baiduspider, baiduspider-image, baiduspider-video, e muito mais.
Se você não está fazendo negócios na China, pode fazer sentido bloquear o Baidu Spider em seu script robots.txt. Isso evitará que o Baidu Spider rastreie seu site, removendo assim qualquer chance de suas páginas aparecerem nas páginas de resultados do mecanismo de pesquisa (SERPs) do Baidu.
User Agent | Baiduspider |
Full User Agent String | Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) |
7. Sogou Spider
Sogou é um mecanismo de pesquisa chinês que é supostamente o primeiro mecanismo de pesquisa com 10 bilhões de páginas chinesas indexadas.
Se você está fazendo negócios no mercado chinês, este é outro mecanismo de pequisa popular que você precisa conhecer. O Sogou Spider segue o texto de exclusão do robô e os parâmetros de atraso do rastreador.
Semelhante ao Baidu Spider, se você não deseja fazer negócios no mercado chinês, deve desativar esse spider para evitar tempos de carregamento lentos em seu site.
User Agent | Sogou Pic Spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) Sogou head spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) Sogou Orion spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07) Sogou-Test-Spider/4.0 (compatible; MSIE 5.5; Windows 98) |
8. Facebook External Hit
O Facebook External Hit, também conhecido como Facebook Crawler, rastreia o HTML de um aplicativo ou site compartilhado no Facebook.
Isso permite que a plataforma social gere uma prévia compartilhada de cada link postado na plataforma. O título, a descrição e a imagem em miniatura aparecem graças ao rastreador.
Se o rastreador não for executado em segundos, o Facebook não mostrará o conteúdo no snippet personalizado gerado antes de compartilhar.
User Agent | facebot facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php) facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php) |
9. Exabot
Exalead é uma empresa de software criada em 2000 e sediada em Paris, França. A empresa fornece plataformas de pesquisa para consumidores e clientes empresariais.
Exabot é o rastreador do mecanismo de pesquisa principal construído sobre seu produto CloudView.
Como outros mecanismos de pesquisa, o Exalead pesa tanto em backlinking quanto no conteúdo dos sites na classificação. Exabot é o agente de usuários do Exalead. O termo “independente” se refere a uma pessoa que não trabalha para o governo.
User Agent | Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails) Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot) |
10. Swiftbot
Swiftype é um mecanismo de pesquisa personalizado para o seu site. Ele combina “a melhor tecnologia de pesquisa, algoritmos, estrutura de ingestão de conteúdo, clientes e ferramentas analíticas“.
Se você tem um site complexo com muitas páginas, a Swiftype oferece uma interface útil para catalogar e indexar todas às suas páginas para você.
Swiftbot é o rastreador spider da Swiftype. No entanto, ao contrário de outros bots, a Swiftbot apenas rastreia os sites que seus clientes solicitam.
User Agent | Swiftbot |
Full User Agent String | Mozilla/5.0 (compatible; Swiftbot/1.0; UID/54e1c2ebd3b687d3c8000018; +http://swiftype.com/swiftbot) |
11. Slurp Bot
Slurp Bot é o robô de pesquisa do Yahoo que rastreia e indexa páginas para o Yahoo.
Este rastreamento é essencial tanto para o Yahoo.com quanto para seus sites parceiros, incluindo Yahoo News, Yahoo Finance, e Yahoo Sports. Sem ele, listas de sites relevantes não apareceriam.
O conteúdo indexado contribui para uma experiência web mais personalizada para usuários com resultados mais relevantes.
User Agent | Slurp |
Full User Agent String | Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) |
12. CCBot
CCBot é um rastreador da web baseado em Nutch desenvolvido pela Common Crawl, uma organização sem fins lucrativos focada em fornecer (sem custo) uma cópia da internet para empresas, indivíduos e qualquer pessoa interessada em pesquisa on-line. O bot utiliza o MapReduce, um framework de programação que permite condensar grandes volumes de dados em resultados agregados valiosos.
Graças ao CCBot, as pessoas podem usar os dados da Common Crawl para melhorar software de tradução de idiomas e prever tendências. Na verdade, o GPT-3 foi treinado em grande parte com os dados do seu conjunto de dados.
User Agent | CCBot/2.0 (https://commoncrawl.org/faq/) CCBot/2.0 CCBot/2.0 (http://commoncrawl.org/faq/) |
13. GoogleOther
Este é um novo rastreador. O GoogleOther foi lançado pelo Google em abril de 2023 e funciona como o Googlebot.
Ambos compartilham a mesma infraestrutura e possuem as mesmas funcionalidades e limitações. A única diferença é que o GoogleOther será usado internamente por equipes do Google para rastrear conteúdo publicamente acessível de sites.
A razão por trás da criação deste novo rastreador é aliviar um pouco a capacidade de rastreamento do Googlebot e otimizar seus processos de rastreamento da web.
O GoogleOther será usado, por exemplo, para rastreamentos de pesquisa e desenvolvimento (R&D), permitindo que o Googlebot se concentre em tarefas diretamente relacionadas à indexação de pesquisa.
User Agent | GoogleOther |
14. Google-InspectionTool
As pessoas que analisam a atividade de rastreamento e de bots nos arquivos de registro vão encontrar algo novo.
Um mês após o lançamento do GoogleOther, temos um novo rastreador entre nós que também imita o Googlebot: o Google-InspectionTool.
Este rastreador é utilizado pelas ferramentas de teste de pesquisa no Search Console, como a inspeção de URL, e por outras propriedades do Google, como o Rich Result Test.
User Agent | Google-InspectionTool Googlebot |
Full User Agent String | Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0) Mozilla/5.0 (compatible; Google-InspectionTool/1.0) |
Os 8 rastreadores comerciais de SEO para profissionais
Agora que você tem 14 dos bots mais populares em sua lista de rastreadores, olharemos para alguns dos rastreadores comerciais comuns e ferramentas de SEO para profissionais.
1. Ahrefs Bot
O Ahrefs Bot é um rastreador da web que compila e indexa o banco de dados de 12 trilhões de links que o popular software de SEO, Ahrefs, oferece.
O Ahrefs Bot visita 6 bilhões de sites, sendo diariamente considerado “o segundo rastreador mais ativo” atrás apenas do Googlebot.
Assim como outros bots, o Bot Ahrefs segue funções robots.txt, assim como permite/desativa regras no código de cada site.
2. Semrush Bot
O Semrush Bot permite que a Semrush, um software de SEO líder, colete e indexe dados do site para uso de seus clientes em sua plataforma.
Os dados são usados no mecanismo de pesquisa de backlink público da Semrush, a ferramenta de auditoria do site, a ferramenta de auditoria de backlink, a ferramenta de construção de links e o assistente de redação.
Ele rastreia o seu site compilando uma lista de URLs de páginas da internet, visitando e salvando certos hyperlinks para visitas futuras.
3. Moz’s Campaign Crawler Rogerbot
Rogerbot é o rastreador do site líder em SEO, Moz. Este rastreador está especificamente coletando conteúdo para as auditorias do site da Campanha Moz Pro.
Rogerbot segue todas as regras estabelecidas nos arquivos robots.txt, então você pode decidir se quer bloquear/permitir que Rogerbot escaneie o seu site.
Os webmasters não conseguirão procurar um endereço IP estático para ver quais páginas Rogerbot rastreou devido à sua abordagem multifacetada.
4. Screaming Frog
Screaming Frog é um rastreador que os profissionais de SEO usam para auditar seu próprio site e identificar áreas de melhoria que irão impactar suas classificações nos mecanismos de pesquisa.
Uma vez iniciado um rastreamento, você pode rever dados em tempo real e identificar links quebrados ou melhorias necessárias para os seus títulos de página, metadados, robôs, conteúdo duplicado, e muito mais.
A fim de configurar os parâmetros de rastreamento, você deve adquirir uma licença da Screaming Frog.
5. Lumar (anteriormente Deep Crawl)
Lumar é um “centro de comando centralizado para manter a saúde técnica do seu site” Com esta plataforma, você pode iniciar um rastreamento do seu site para ajudá-lo a planejar a arquitetura do seu site.
A Lumar se orgulha de ser o “mais rápido rastreador de sites no mercado” e se orgulha de poder rastrear até 450 URLs por segundo.
6. Majestic
Majestic foca principalmente no rastreamento e identificação de backlinks em URLs.
A empresa se orgulha de ter “uma das mais completas fontes de dados de backlink na Internet”, destacando seu índice histórico que aumentou de 5 para 15 anos de links em 2021.
O rastreador do site torna todos esses dados disponíveis para os clientes da empresa.
7. cognitiveSEO
cognitiveSEO é outro importante software de SEO que muitos profissionais utilizam.
O rastreador cognitiveSEO permite que os usuários realizem auditorias abrangentes do site que informarão sua arquitetura do site e estratégia de SEO abrangente.
O bot irá rastrear todas as páginas e fornecer “um conjunto de dados totalmente personalizado” único para o usuário final. Este conjunto de dados também terá recomendações para o usuário sobre como ele pode melhorar seu site para outros rastreadores – tanto para impactar rankings quanto para bloquear rastreadores desnecessários.
8. Oncrawl
Oncrawl é um “líder na indústria de rastreadores e analisador de registros SEO” para clientes de nível empresarial.
Os usuários podem configurar “perfis de rastreamento” para criar parâmetros específicos para o rastreamento. Você pode salvar estas configurações (incluindo a URL inicial, limites de rastreamento, velocidade máxima de rastreamento, e muito mais) para facilmente executar o rastreamento novamente sob os mesmos parâmetros estabelecidos.
Preciso proteger meu site contra rastreadores maliciosos?
Nem todos os rastreadores são bons. Alguns podem afetar negativamente a velocidade da sua página, enquanto outros podem tentar invadir o seu site ou ter intenções maliciosas.
É por isso que é importante entender como bloquear a entrada de rastreadores em seu site.
Ao estabelecer uma lista de rastreadores, você saberá quais rastreadores são bons. Então, você pode eliminar os ruins e adicioná-los à sua lista de bloqueio.
Como bloquear os rastreadores maliciosos da internet
Com sua lista de rastreadores em mãos, você conseguirá identificar quais bots você quer aprovar e quais você precisa bloquear.
O primeiro passo é passar pela sua lista de rastreadores e definir o agente do usuário e a cadeia completa de agentes associada a cada rastreador, assim como seu endereço IP específico. Estes são fatores-chave de identificação que estão associados a cada bot.
Com o agente do usuário e o endereço IP, você pode combiná-los nos registros do seu site através de uma busca DNS ou IP match. Se eles não corresponderem exatamente, você pode ter um bot malicioso tentando se fazer passar por um bot real.
Então, você pode bloquear o impostor, ajustando as permissões usando sua tag do site robots.txt.
Resumo
Rastreadores da web são úteis para os mecanismos de pesquisa e importantes para que os marqueteiros entendam.
Assegurar que seu site seja rastreado corretamente pelos rastreadores certos é importante para o sucesso do seu negócio. Mantendo uma lista de rastreadores, você pode saber quais deles devem ser observados quando eles aparecem no seu registro do site.
Conforme você segue as recomendações dos rastreadores comerciais e melhora o conteúdo e a velocidade do seu site, você facilitará o acesso dos rastreadores ao seu site e indexará as informações corretas para os mecanismos de pesquisa e os consumidores que o procuram.
Deixe um comentário