El Scraping de Contenidos: ¿Luchar o Ignorar?

El scraping de contenido, o lo que preferimos llamar «robo de contenido», ha sido un problema desde el inicio del Internet. Para cualquiera que publique de forma regular o que trabaje con la optimización de motores de búsqueda (SEO), puede ser en realidad bastante irritante. 😠 Cuanto más crezca, más se dará cuenta de cuántas granjas de scraping de contenido existen. Publicamos mucho contenido aquí en Kinsta y el filtrado de contenido es un problema con el que lidiamos regularmente. La pregunta es, ¿debería tratar luchar contra ello o simplemente ignorarlos y seguir adelante? Hoy profundizaremos en algunos de los pros y contras de ambas.

¿Qué Es el Scraping de Contenido?

El scraping de contenido es básicamente cuando alguien utiliza el contenido de alguien en su propio sitio (ya sea de forma manual o automática con un plugin o bot) sin dar atribución o crédito. Esto generalmente se hace con la esperanza de obtener tráfico, SEO o nuevos usuarios de alguna manera. En realidad, esto está en contra de las leyes de derechos de autor de los Estados Unidos y otros países. Google tampoco aprueba esto y recomienda la creación de contenido único propio.

Aquí hay un par de ejemplos de scraping de contenido que Google menciona:

Sitios que copian y vuelven a publicar contenido de otros sitios sin agregar ninguna atribución o valor original
Algunos copian contenido de otros sitios, lo modifican levemente (por ejemplo, sustituyendo sinónimos o algunas técnicas automatizadas) y lo vuelven a publicar
Sitios que reproducen feeds de contenido de otros sitios sin proporcionar algún tipo de organización única o beneficio para el usuario
Sitios dedicados a incrustar contenido como video, imágenes u otros medios de otros sitios sin un valor agregado sustancial para el usuario

Esto no debe confundirse con la sindicación de contenido, que suele ser cuando republica su propio contenido para un mayor alcance. La distribución del contenido también podría ser realizada por un tercero, pero hay una línea fina entre aquello y el scraping de contenido. Si alguien está sindicalizando contenido, siempre se deben usar etiquetas especiales como rel = canonical o noindex.

Ahora hay muchos plugins de WordPress de terceros que le permiten automáticamente obtener feeds RSS de terceros. Y aunque los desarrolladores tienen buenas intenciones, desafortunadamente, a veces se abusa de ellos y se utilizan para el scraping de contenido. Una de las razones por las que WordPress es tan popular es por su facilidad de uso, pero a veces también puede resultar contraproducente.

Granja de Scraping de Contenido

Los llamamos «granjas» cuando el mismo propietario realiza scraping de contenido en docenas de sitios. Normalmente, estos son fáciles de detectar, ya que el propietario del sitio suele utilizar el mismo tema en todos los sitios e incluso una pequeña variación entre los nombres de dominio.

¡Estamos utilizando un ejemplo en vivo en la publicación de hoy! ? No nos avergüenza llamar a estos tipos de sitios porque no aportan ningún valor y solo niegan el trabajo duro realizado por los editores de contenido. Aquí hay un ejemplo de una granja de scraping de contenido. Archivamos cada enlace en caso de que los sitios se caigan en el futuro. Puede hacer clic en cada uno de ellos y ver que todos usan el mismo tema y el mismo contenido grabado. Normalmente, un scraping recogerá contenido de muchas fuentes diferentes, siendo nuestro blog uno de ellos.

thetechworld.xyz (enlace archivado)
mytechnewstoday.org (enlace archivado)
mytechcrunch.com (enlace archivado)
technewssites.xyz (enlace archivado)
technewssites.info (enlace archivado)
www.thetechworld.info (enlace archivado)
www.mytechnewstoday.xyz (enlace archivado/a>)
www.futuretechnologynews.info (enlace archivado)
futuretechnologynews.xyz (enlace archivado)

Puede ver a continuación, como simplemente están haciendo scraping de nuestras publicaciones del blog palabra por palabra, junto con todos nuestros artículos en todos los dominios anteriores.

Ejemplo (haga clic para ver la imagen más grande) – Publicación del blog del scraper: enlace archivado / Kinsta publicación original

¿Cómo Encontrarlos?

Una de las formas más fáciles de encontrarlos es utilizar una herramienta como Copyscape o Ahrefs (en caso de que también estén copiando sus enlaces internos). Copyscape incluso le permite enviar su archivo de mapa del sitio y hacer que le notifique automáticamente mientras escanea la web y encuentra contenido.

También puede buscar manualmente en Google usando la etiqueta «allintitle». Simplemente ingrese la etiqueta junto con el título de su publicación. Ejemplo: allintitle: Kinsta se encarga de la cache de WordPress para que usted no tenga que hacerlo

Búsqueda en Google con la etiqueta allintitle

La palabra clave allintitle solicita a Google que busque esas palabras únicamente en los títulos de publicaciones. La segunda y más efectiva manera es buscar texto dentro de su publicación, con el término de búsqueda entre comillas dobles. Poner las comillas dobles le dice a Google que busque exactamente el mismo texto. Puede obtener falsos positivos con su búsqueda de título, ya que alguien podría usar el mismo título, pero la segunda forma es mucho más efectiva porque es muy poco probable que alguien tenga exactamente las mismas oraciones o párrafos.

¿El Scraping de Contenido Afecta SEO?

Su siguiente pregunta probablemente es, ¿cómo afecta esto al SEO? Porque en el ejemplo anterior, la granja de servidores de contenido no usa etiquetas rel = canonical, dando crédito o etiquetas noindex. Esto significa que cuando Google bot lo rastree, va a pensar que es contenido original. Eso no es justo, podría pensar. Tiene razón, no lo es. Publicamos el contenido y luego simplemente fue robado. Sin embargo, antes de que empiece a entrar en pánico, es importante entender qué es lo que sucede realmente.

En primer lugar, aunque el rastreador de Google podría verlo como su propio contenido, lo más probable es que el algoritmo de Google no lo haga. Google no es tonto y tiene muchas reglas y controles implementados para garantizar que los propietarios originales de contenido sigan obteniendo el crédito. ¿Cómo sabemos esto? Bueno, echemos un vistazo a cada una de estas publicaciones desde una perspectiva de SEO.

Esta persona revisó nuestra publicación de blog en noviembre de 2017, por lo que ha tenido tiempo de sobra para clasificar si fuera a hacerlo. Así que sacamos nuestra práctica herramienta Ahrefs y verificamos para qué palabras clave actuales están clasificadas sus publicaciones. Y podemos ver que no está clasificando para ninguna palabra clave. Por lo que respecta al tráfico orgánico, no se benefician de esta publicación en absoluto.

Si revisamos la publicación original de nuestro blog en Ahrefs, podemos ver que clasificamos con 96 palabras clave.

Cuando Google ve lo que usted podría pensar que es contenido duplicado, usa muchas señales y puntos de datos diferentes para descubrir quién escribió el contenido original y qué es lo que debe clasificarse. Aquí hay un par de ejemplos:

Publicar fechas (aunque en este caso el contenido fue scraping del mismo día)
Autoridad de dominio y rango de página. Sí, Google probablemente todavía esté usando el rango de página internamente
Señales sociales
Tráfico
Enlaces de retroceso (Backlinks)

Una vez más, todas estas son suposiciones seguras, ya que nadie sabe realmente qué usa Google. Pero el punto aquí es que probablemente no necesite calentarse la cabeza con alguien que haya robado su contenido. Sin embargo, aún podría querer hacer algo al respecto. Tampoco es imposible que alguien le supere en rango con su propio contenido. Vamos a adentrarnos a esto más adelante.

Qué Hacemos en Cuanto al Robo de Contenido

Crear contenido útil, único y que valga para compartir no es fácil, se necesita mucho tiempo valioso (y a menudo cuesta mucho dinero), así que definitivamente debe protegerlo. Pero aquí hay algunas razones adicionales por las que es posible que no desee ignorar los scrapings.

Si un sitio con una cantidad significativa de tráfico está robando su contenido y usándolo para complementar su otro contenido, bien podría ser que se estén beneficiando de él. Esto definitivamente no es correcto ya que usted es el propietario original del contenido.
Cosas como esta pueden desviar seriamente los datos en sus herramientas de informes y hacer que su vida sea más complicada. Por ejemplo, estos aparecerán en los informes de vínculo de retroceso en herramientas como Ahrefs o Majestic. Cuanto más grande sea, más desordenado se vuelve.
¿Desea confiar únicamente en Google para descubrir si su documento o el de ellos es el contenido original? A pesar de que son bastante inteligentes al respecto, seguramente no lo haríamos. Además, a pesar de que su publicación no está clasificada con ninguna palabra clave, en realidad está indexada por Google (como se ve a continuación).

Póngase en Contacto con el Propietario del Sitio Web y Presente una Queja DMCA

Para garantizar que obtengamos crédito donde se debe, generalmente nos contactamos primero con el propietario del sitio web y solicitamos su eliminación. Recomendamos crear algunas plantillas de correo electrónico que pueda reutilizar para acelerar este proceso y no perder el tiempo. Si no recibimos noticias de ellos después de un par de intentos, llevemos esto un paso más allá y presentemos una queja DMCA.

Las quejas DMCA pueden ser un poco complicadas, ya que tendrá que buscar la IP del sitio, encontrar el host, entre otros. Pero no se preocupe, tenemos todos los pasos documentados sobre cómo presentar de forma sencilla una queja DMCA, así como rastrear al propietario. También puede presentar una solicitud de eliminación legal directamente con Google.

En cuanto al ejemplo del estudio de casos en vivo anterior, parece que es el momento de dar el siguiente paso, ya que no hemos podido contactar al propietario del sitio web. 😩

Actualizar Archivo de Desautorización

Para garantizar que esto no afecte a nuestro sitio de ninguna manera (independientemente de lo que ocurra con la queja DMCA), también agregamos estos dominios completos en nuestro archivo de desautorización. Esto le dice a Google que no queremos tener nada que ver con ellos, y que no estamos tratando de manipular los SERP de ninguna manera.

Si está haciendo esto para un sitio de mayor calidad, también puede enviar la URL para la declaración de rechazo, en lugar de todo el dominio. Aunque normalmente no vemos sitios de alta calidad que hagan scraping de contenido.

Paso 1

En Ahrefs, seleccionamos el dominio en cuestión y hacemos clic en «Desactivar dominios». Esto garantiza que todo lo que se encuentra en este sitio web no puede afectarnos.

Lo mejor de Ahrefs cuando se trata de este tipo de problemas es su opción de «Ocultar enlaces rechazados». Luego oculta automáticamente los dominios y las URL para que no aparezcan en su informe principal en el futuro. Esto es muy útil para la organización y para mantener la cordura, especialmente si utiliza exclusivamente Ahrefs para administrar sus backlinks. 👍

Paso 2

Como puede ver a continuación, agregamos todos los dominios de la granja de servidores de contenido a nuestra sección de enlaces de desautorización en Ahrefs. El siguiente paso es hacer clic en «Exportar» y obtener el archivo de denegación (TXT) que debemos enviar en Google Search Console.

Paso 3

Luego diríjase a la Herramienta de Desautorización de Google. Seleccione su perfil de Google Search Console y haga clic en «Deshabilitar enlaces».

Paso 4

Elija su archivo de desautorización que haya exportado desde Ahrefs y envíelo. Esto sobrescribirá su archivo de desautorización anterior. Si no ha utilizado Ahrefs anteriormente y ya existe un archivo de desautorización, se recomienda descargar el actual, fusionarlo con el nuevo y luego cargarlo. A partir de ese momento, si solo está usando Ahrefs, simplemente puede cargar y sobrescribir.

Bloquear IPs de Scrapers

También podría llevar esto un paso más allá y bloquear las direcciones IP de los scrapers. Una vez que haya determinado el tráfico inusual (que a veces puede ser difícil), puede bloquearlo en su servidor utilizando los archivos .htaccess o las reglas de Nginx. Si usted es un cliente de Kinsta, nuestro equipo de soporte también puede bloquear las direcciones IP por usted. O si está utilizando un WAF de terceros como Sucuri o Cloudflare, estos también cuentan con opciones para bloquear direcciones IP.

Resumen

Las granjas de scraping de contenido pueden no afectar su SEO, pero definitivamente no agregan nada de valor para los usuarios. Recomendamos altamente que se tome unos minutos para que los eliminen. Tenemos toda una tarjeta Trello dedicada a solicitudes de «eliminación». Esto ayuda a que la web sea un lugar mejor para todos y garantiza que su contenido exclusivo solo se vea y clasifique en su sitio.

¿Qué opina del scraping de contenido? ¿Trata de luchar contra ellos o simplemente lo ignora? Nos encantaría escuchar sus ideas abajo en los comentarios.

Brian Jackson

Brian tiene una gran pasión por WordPress, lo ha estado utilizando durante más de 10 años e incluso ha desarrollado un par de plugins premium. Brian disfruta de los blogs, las películas y el senderismo. Conéctese con Brian en Twitter.

Gestionar los archivos de WordPress en el panel de control de MyKinsta

El éxito de Scan WP con el Programa de Afiliados de Kinsta

Explora

Herramientas y conocimientos

Últimos Artículos

Por qué la gestión del acceso de los clientes es el factor oculto que frena el crecimiento de las agencias

El Scraping de Contenidos: ¿Luchar o Ignorar?