A raspagem de conteúdo, ou o que gostamos de chamar de “roubo de conteúdo”, tem sido um problema desde que a internet começou. Para quem publica regularmente ou trabalha com Search Engine Optimization (SEO), na verdade, isso pode ser muito enfurecedor. 😠 Quanto maior você cresce, mais você percebe a quantidade de fazendas de raspagem de conteúdo que existem por aí. Nós publicamos muito conteúdo aqui na Kinsta e a raspagem de conteúdo é um assunto com o qual lidamos regularmente. A questão é: você deve tentar ripostar ou simplesmente ignorá-los e seguir em frente? Hoje vamos mergulhar em alguns dos prós e contras de ambos os lados.

O que é Raspagem de Conteúdo?

A raspagem de conteúdo é basicamente quando alguém pega seu conteúdo e o utiliza em seu próprio site (seja manualmente ou automaticamente com um plugin ou bot) sem lhe dar atribuição ou crédito. Isso geralmente é feito na esperança de ganhar tráfego, SEO, ou novos usuários de alguma forma. Na verdade, isto é contra as leis de direitos autorais nos Estados Unidos e em alguns outros países. O Google também não tolera isso e recomenda que você crie seu próprio conteúdo exclusivo.

Aqui estão alguns exemplos de conteúdo raspado que o Google menciona:

  • Sites que copiam e republicam conteúdo de outros sites sem adicionar qualquer conteúdo ou valor original
  • Sites que copiam conteúdo de outros sites, modificam-no ligeiramente (por exemplo, substituindo sinônimos ou usando técnicas automatizadas) e o republicam
  • Sites que reproduzem feeds de conteúdo de outros sites sem fornecer algum tipo de organização ou benefício único para o usuário
  • Sites dedicados à incorporação de conteúdo como vídeo, imagens ou outras mídias de outros sites sem valor agregado substancial para o usuário.

Isto não deve ser confundido com sindicação de conteúdo, que é tipicamente quando você republicar seu próprio conteúdo para um alcance mais amplo. O conteúdo do sindicato também poderia ser feito por terceiros, mas há uma linha tênue entre isso e a raspagem do conteúdo. Se alguém estiver a sindicar conteúdo, devem ser sempre utilizadas etiquetas especiais como rel=canonical ou noindex.

Há muitos plugins WordPress de terceiros agora que permitem que você pegue automaticamente feeds RSS de terceiros. E embora os desenvolvedores tenham boas intenções, infelizmente, estas às vezes são abusadas e usadas para raspar conteúdo. Uma das razões porque o WordPress é tão popular é a facilidade de uso, mas às vezes isso também pode sair pela culatra.

Exemplo Vivo de Raspagem de Conteúdo

Chamamos “quintas” quando o mesmo dono raspa conteúdo em dezenas de sites. Estes são tipicamente fáceis de identificar, uma vez que o proprietário do site geralmente usa o mesmo tema em todos os sites e até mesmo uma pequena variação entre nomes de domínio.

Estamos usando um exemplo ao vivo no post de hoje! Não temos vergonha de chamar a atenção para este tipo de sites, pois eles não fornecem nenhum valor e apenas negam o trabalho árduo feito pelos editores de conteúdo. Aqui está um exemplo de uma fazenda de raspagem de conteúdo. Nós arquivamos cada link para o caso dos sites descerem no futuro. Você pode clicar em cada um deles e ver que estão todos usando o mesmo tema, e o mesmo conteúdo raspado. Tipicamente um raspador vai pegar conteúdo de muitas fontes diferentes, nosso blog é uma delas.

Você pode ver abaixo, eles estão simplesmente raspando os posts do nosso blog palavra por palavra, juntamente com todos os nossos artigos em todos os domínios acima.

Postagem no blog do raspador de conteúdo
Exemplo (clique para ver maior) – Postagem no blog do raspador de conteúdo: archived link / Kinsta original blog post

Como Encontrá-los?

Uma das maneiras mais fáceis de encontrá-los é utilizar uma ferramenta como Copyscape ou Ahrefs (se eles também estiverem copiando seus links internos). Copyscape permite ainda que você envie seu arquivo de mapa do site e que ele o notifique automaticamente enquanto ele escaneia a web e encontra conteúdo.

Copyscape
Copyscape

Você também pode pesquisar manualmente no Google usando a tag “allintitle”. Basta introduzir a etiqueta juntamente com o título do seu post. Exemplo: allintitle: Kinsta trata do cache de WordPress para que você não tenha que

Pesquisar no Google com a tag allintitle
Pesquisar no Google com a tag allintitle

A palavra-chave allintitle pede ao Google para pesquisar essas palavras apenas nos títulos das mensagens. A segunda e mais eficaz maneira é procurar por algum texto dentro do seu post, com o termo de pesquisa entre aspas duplas. Colocar as aspas duplas diz ao Google para procurar exatamente o mesmo texto. Você pode obter falsos positivos com sua busca por título, pois alguém pode usar o mesmo título, mas a segunda maneira é muito mais eficaz porque é altamente improvável que alguém tenha exatamente as mesmas sentenças ou parágrafos.

O Raspagem de Conteúdo Afeta SEO?

A próxima pergunta que você provavelmente tem é, como isso afeta a SEO? Porque no exemplo acima, a fazenda de raspagem de conteúdo não está usando rel=canonical tags, dando crédito, ou noindex tags. Isto significa que quando o Google o engarrafar, vai pensar que é o seu conteúdo original. Não é justo que penses assim. Tens razão, não é. Nós publicamos o conteúdo e depois eles apenas o raspam. No entanto, antes de começar a entrar em pânico, é importante entender o que realmente se passa nos bastidores.

Em primeiro lugar, embora o rastreador do Google possa vê-lo como seu conteúdo, o mais provável é que o algoritmo do Google não o veja. O Google não é estúpido e tem muitas regras e verificações em vigor para garantir que os proprietários do conteúdo original ainda recebam o crédito. Como é que sabemos isto? Bem, vamos dar uma olhada em cada um desses posts a partir de uma perspectiva SEO.

Essa pessoa raspou nosso post no blog em novembro de 2017, então teve tempo de sobra para classificar se fosse. Então nós puxamos a nossa ferramenta Ahrefs e verificamos para que palavras-chave do seu post seja classificado. E podemos ver que não é o ranking para nenhuma palavra-chave. Por isso, no que diz respeito ao tráfego orgânico, eles não se beneficiam de todo deste post.

Raspagem de conteúdo SEO
Raspagem de conteúdo SEO

Se nós puxarmos o nosso post original do blog em Ahrefs, podemos ver que classificamos para 96 palavras-chave.

Conteúdo original SEO
Conteúdo original SEO

Quando o Google vê o que você pode pensar que é conteúdo duplicado, ele usa muitos sinais e pontos de dados diferentes para descobrir quem originalmente escreveu o conteúdo e o que deve ser classificado. Aqui estão alguns exemplos:

  • Publicar datas (embora neste caso o conteúdo tenha sido raspado no mesmo dia)
  • Autoridade do domínio e classificação da página. Sim, o Google provavelmente ainda está usando o ranking de páginas internamente.
  • Sinais sociais
  • Tráfego
  • Backlinks

Mais uma vez estas são todas suposições seguras, sendo que ninguém sabe realmente o que o Google usa. Mas a questão aqui é que você provavelmente não precisa perder o sono por causa de alguém raspando o seu conteúdo. No entanto, talvez ainda queiras fazer algo a respeito. Também não é impossível que outra pessoa o ultrapasse com o seu próprio conteúdo. Iremos mais abaixo.

O que Fazemos Sobre o Raspagem de Conteúdo

Criar conteúdo útil, único e digno de partilha não é fácil, leva muito do seu valioso tempo (e muitas vezes custa muito dinheiro) por isso deve definitivamente protegê-lo. Mas aqui estão algumas razões adicionais pelas quais você pode não querer ignorar os raspadores.

  1. Se um site com uma quantidade significativa de tráfego está raspando seu conteúdo e usando-o para complementar seus outros conteúdos, pode muito bem ser que eles estejam se beneficiando com isso. Isto definitivamente não está certo, pois você é o proprietário original do conteúdo.
  2. Coisas como esta podem distorcer seriamente os dados nas suas ferramentas de relatório e tornar a sua vida mais difícil. Por exemplo, estes aparecerão em relatórios de backlink em ferramentas como o Ahrefs ou o Majestic. Quanto maior você é, mais confuso fica.
  3. Você quer depositar sua confiança somente no Google para descobrir se o conteúdo original é o deles ou o seu? Mesmo que eles sejam muito espertos sobre isto, nós certamente não o fazemos. Além disso, mesmo que o seu post não esteja classificado para nenhuma palavra-chave, ele é na verdade indexado pelo Google (como visto abaixo).
O conteúdo raspado é indexado
O conteúdo raspado é indexado

Contato Proprietário do site e Arquivo DMCA Queixa

Para garantir o crédito onde o crédito é devido, normalmente contactamos primeiro o proprietário do site e solicitamos a remoção do mesmo. Recomendamos a criação de alguns modelos de e-mail que você pode reutilizar para acelerar este processo e não desperdiçar seu tempo. Se não tivermos notícias deles depois de um casal tentar, damos mais um passo e apresentamos uma queixa de DMCA.

As reclamações de DMCA podem ser um pouco complicadas, pois você precisará pesquisar o IP do site, encontrar o host, etc. Mas não se preocupe, temos todos os passos documentados sobre como arquivar facilmente uma reclamação DMCA, bem como localizar o proprietário. Você também pode arquivar um pedido de remoção legal diretamente no Google.

Quanto ao exemplo do estudo de caso ao vivo acima, parece que está na hora de dar esse próximo passo, pois não conseguimos chegar ao proprietário do site. 😩

Atualizar Arquivo de Desavença

Para garantir que estes não tenham qualquer impacto no nosso site (independentemente do que acontece com a queixa DMCA), também adicionamos estes domínios inteiros no nosso ficheiro de não aceitação. Isto diz ao Google que não queremos ter nada a ver com eles e que não estamos a tentar manipular os SERPs de forma alguma.

Se você está fazendo isso para um site de maior qualidade, você também pode simplesmente enviar o URL para rejeição, ao invés de todo o domínio. Embora normalmente não vejamos sites de alta qualidade raspando conteúdo.

Passo 1

Em Ahrefs selecionamos o domínio em questão e clicamos em “Disavow Domains”, o que garante que tudo o que está neste site raspado nunca terá impacto em nós.

Ahrefs disavow domain
Ahrefs disavow domain

O melhor de Ahrefs ao lidar com este tipo de questões é a opção “Hide disavowed links”. Em seguida, ele esconde automaticamente os domínios e URLs de aparecerem no seu relatório principal no futuro. Isso é super útil para a organização e manutenção da sua sanidade, especialmente se você estiver usando exclusivamente Ahrefs para gerenciar seus backlinks. 👍

Esconder links não autorizados
Esconder links não autorizados

Passo 2

Como você pode ver abaixo, adicionamos todos os domínios desde a fazenda de raspagem de conteúdo até a nossa seção de links de rejeição em Ahrefs. O próximo passo é clicar em “Exportar” e obter o arquivo de rejeição (TXT) que precisamos enviar no Google Search Console.

Exportar arquivo de repúdio
Exportar arquivo de repúdio

Passo 3

Depois, vá até à Ferramenta de Disavow do Google. Selecione o seu perfil na Consola de Pesquisa do Google e clique em “Negar Hiperligações”.

Links de disavow
Links de disavow

Passo 4

Escolha seu arquivo de repúdio que você exportou de Ahrefs e envie-o. Isto irá sobrescrever o seu arquivo de rejeição anterior. Se você não tem usado Ahrefs antes no passado e já existe um arquivo de rejeição, é recomendado baixar o atual, fundi-lo com o novo e, em seguida, carregá-lo. A partir daí, se você só estiver usando Ahrefs, você pode simplesmente fazer upload e sobrescrever.

Arquivo de disavow
Arquivo de disavow

Bloco IPs de Raspadores

Você também poderia dar um passo adiante e bloquear os IPs dos raspadores. Uma vez determinado o tráfego incomum (que às vezes pode ser difícil de fazer), você pode bloqueá-lo no seu servidor usando arquivos .htaccess ou regras Nginx. Se você é um cliente Kinsta, nossa equipe de suporte também pode bloquear IPs para você. Ou se você estiver usando um WAF de terceiros, como Sucuri ou Cloudflare, estes também têm opções para bloquear IPs.

Resumo

As explorações de raspagem de conteúdo podem nem sempre afetar o seu SEO, mas definitivamente não estão a acrescentar nada de valor para os utilizadores. Aconselhamos vivamente a tirar alguns momentos para que sejam retirados. Temos um cartão Trello inteiro dedicado aos pedidos de “takedown”. Isto ajuda a tornar a web um lugar melhor para todos e garante que o seu conteúdo único só seja visto e classificado no seu site.

O que você pensa sobre a raspagem de conteúdo? Você tenta lutar contra eles ou simplesmente ignora-los? Adoraríamos ouvir os seus pensamentos nos comentários abaixo.

Brian Jackson

Brian tem uma enorme paixão pelo WordPress, e tem utilizado há mais de uma década e até desenvolve alguns plugins premium. Brian gosta de blogs, filmes e caminhadas. Conecte-se com Brian no Twitter.