¿Alguna vez escuchó el término robots.txt y se preguntó cómo se aplica a su sitio web? La mayoría de los sitios web tienen un archivo robots.txt, pero eso no significa que la mayoría de los webmasters lo entiendan. En esta publicación, esperamos cambiar la percepción, al ofrecer una inmersión profunda en el archivo robots.txt de WordPress y también sabrá cómo puede controlar y limitar el acceso a su sitio web. Al final, usted será capaz de responder a preguntas como:

¡Hay mucho para tratar, así que vamos a empezar!

¿Qué Es un Archivo Robots.txt de WordPress?

Antes de que podamos hablar sobre el robots.txt de WordPress, es importante definir lo que es un “robot” en este caso. Los robots son cualquier tipo de “bot” que visitan los sitios web en internet. El ejemplo más común son rastreadores de motor de búsqueda. Estos robots se “arrastran” en la web para ayudar a los motores de búsqueda como Google a indexar y clasificar los miles de millones de páginas en internet.

¿Sigue buscando ese WordPress host perfecto?

Pruebe el premium WordPress hosting gestionado de Kinsta para experimentar su sitio sin problemas.
  • Controles estilizados que representan la gestión Completamente administrado
  • Escudo con un tic que representa la seguridadSeguro como Fort Knox
  • Fusión de líneas que representa migracionesMigraciones gratuitas
  • Tres chevrones a la derecha que representan la velocidad del servidorÚltima velocidad
  • Flecha circular con punto central que representa backupsBackups diarios
  • Hexágonos desplazados que representan nuestro conjunto de servidoresGoogle Cloud Platform

Así, los bots son, en general, una buena cosa para el internet… o al menos una cosa necesaria. Pero eso no significa necesariamente que usted, u otros webmasters, quieran robots corriendo sin restricciones. El deseo de controlar cómo los webrobots interactúan con sitios web condujo a la creación del Estándar de Exclusión de Robots a mediados de la década de 1990. Robots.txt es la aplicación práctica de esa norma –le permite controlar cómo los robots participantes interactúan con su sitio web. Puede bloquear totalmente los bots, restringir su acceso a ciertas áreas de su sitio web, y otras cosas.

La parte “participación” es importante, sin embargo. Robots.txt no puede forzar a un bot a seguir sus directrices. Y los bots maliciosos pueden y omitirán el archivo robots.txt. Incluso las organizaciones prestigiosas ignoraran algunos comandos que usted puede poner en robots.txt. Por ejemplo, Google ignorará las reglas que agregue a su robots.txt sobre la frecuencia con la que sus rastreadores visitan a su sitio web. Si usted tiene un montón de problemas con los bots, una solución de seguridad como Cloudflare o Sucuri pueden ser prácticos.

¿Por Qué Debe Preocuparse por su Archivo Robots.txt?

Para la mayoría de los webmasters, las ventajas de un archivo robots.txt bien estructurado se reducen a dos categorías:

1. Optimización de los recursos de rastreo de los motores de búsqueda diciéndoles que no pierdan el tiempo en páginas que no desea indexar. Esto ayuda a garantizar que los motores de búsqueda se centren en el rastreo de las páginas que más le interesan.

2. Optimizando el uso de su investigación al bloquear bots que están desperdiciando los recursos de su servidor.

Robots.txt No Se Trata Específicamente sobre Controlar Qué Páginas Son Indexadas en los Motores de Búsqueda

Robots.txt no es una forma infalible para controlar las páginas indexadas por los motores de búsqueda. Si su objetivo principal es detener que ciertas páginas se incluyan en los resultados del motor de búsqueda, el enfoque adecuado es usar una etiqueta meta “noindex” u otro método similar directo.

Esto es debido a que su robots.txt no está directamente diciendo a los motores de búsqueda a indexar contenido – simplemente les dice que no rastreen a él. Si bien Google no rastreará las áreas marcadas desde el interior de su sitio, Google mismo afirma que si un sitio externo se vincula a una página que usted excluye con su archivo robots.txt, Google aún podría indexar esa página.

John Mueller un analista Webmaster de Google confirmó que si una página tiene enlaces que se apuntan a ella puede ser indexada incluso si fue bloqueada por robots.txt. He aquí lo que él dijo en una sesión de Webmasters:

Una cosa para tener en cuenta es que si estas página son bloqueadas por robots.txt teóricamente puede suceder que alguien las enlace por casualidad. Si  esto pasa quizás indexemos esta URL sin cualquier contenido porque es bloqueada por robots.txt. Así no sabríamos que usted no quería que las páginas sean indexadas-

Si no son bloqueadas por robots.txt puede usar una etiqueta de meta no index en dichas páginas. Si alguien las enlaza y nosotros arrastramos el link y pensamos que es algo útil sabríamos que estas páginas no deben ser indexadas y simplemente las saltamos por completo.

Por lo tanto si tiene páginas que no quiere que sean indexadas no las desautorice sino use las etiquetas noindex.

Cómo Crear y Aditar su archivo Robots.txt de WordPress

De forma predeterminada, WordPress crea automáticamente un archivo robots.txt virtual para su sitio. Así que incluso si no levanta ni un dedo, su sitio ya debe tener el archivo robots.txt predeterminado. Puede comprobar si éste es el caso, añadiendo “/robots.txt” al final de su nombre de dominio. Por ejemplo, “https://kinsta.com/robots.txt” abre el archivo robots.txt que utilizamos aquí en Kinsta:

Ejemplo de un archivo robots.txt

Ejemplo de un archivo robots.txt

Debido a que este archivo es virtual, sin embargo, no se puede editar. Si desea editar el archivo robots.txt, necesitará crear un archivo físico en el servidor que se pueda manipular según sea necesario. Aquí están tres maneras sencillas para hacer eso…

Cómo Crear y Editar un Archivo Robots.txt con Yoast SEO

Si está usando el popular plugin Yoast SEO, usted puede crear (y más tarde editar) el archivo robots.txt desde la interfaz de Yoast. Antes de que usted pueda acceder a él, se necesita activar funciones avanzadas de Yoast SEO yendo a SEO → Panel de Control → Características y encender Páginas de configuración avanzada:

Cómo habilitar las características avanzadas de Yoast

Cómo habilitar las características avanzadas de Yoast

Una vez que se active, puede ir a SEO → Herramientas y hacer clic en Editor de Archivo:

Cómo acceder al editor de archivo Yoast

Cómo acceder al editor de archivo Yoast

Asumiendo que todavía no tiene un archivo físico robots.txt, Yoast le dará la opción de crear uno:

Cómo crear robots.txt en Yoast

Cómo crear robots.txt en Yoast

Y una vez que haga clic en ese botón, podrá editar el contenido de su archivo robots.txt directamente desde la interfaz:

Cómo editar robots.txt en Yoast

Cómo editar robots.txt en Yoast

A medida que siga leyendo este artículo, profundizaremos qué tipos de directivas incluir en su archivo robots.txt de WordPress.

Cómo Crear y Editar un Archivo Robots.txt con All In One SEO

Si está utilizando el plugin All in One SEO ,casi tan popular como Yoast, también puede crear y editar su archivo robots.txt de WordPress desde la interfaz del plugin. Todo lo que necesita hacer es ir a All in One SEO → Administrador de características y activar la característica de robots.txt:

Cómo crear robots.txt en All In One SEO

Cómo crear robots.txt en All In One SEO

A continuación, podrá gestionar su archivo robots.txt yendo a All In One SEO → robots.txt:

Cómo editar los robots.txt en All In One SEO

Cómo editar los robots.txt en All In One SEO

Cómo Crear y Editar un Archivo Robots.txt a Vía FTP

Si no está usando un plugin de SEO que ofrece funcionalidad de robots.txt, puede crear y administrar su archivo robots.txt mediante SFTP. En primer lugar, utilice cualquier editor de texto para crear un archivo vacío con el nombre “robots.txt”:

Cómo crear su propio archivo sobots.txt

Cómo crear su propio archivo sobots.txt

A continuación, conéctese a su sitio web vía SFTP y cargue ese archivo a la carpeta raíz de su sitio. Puede introducir nuevas modificaciones en el archivo robots.txt al editarlo vía SFTP o cargar nuevas versiones del archivo.

Qué Poner en Su Archivo Robots.txt

Ahora tiene un archivo físico robots.txt en su servidor que puede modificar según sea necesario. Pero ¿qué se puede hacer con ese archivo? Como ya se ha visto en la primera sección, robots.txt le permite controlar cómo los robots interactúan con el sitio. Hay que hacerlo con dos comandos principales:

  • Usuario-agente: este le permite segmentar los bots. Los agentes de usuario son lo que los bots utilizan para identificarse. Con ellos, por ejemplo, podría crear una regla que se aplica a Bing, pero no a Google.
  • Denegar– esto le permite comunicar a los robots que no accedan a ciertas áreas del sitio.

También hay un comando Permitir que usted utilizará en situaciones de nicho. De forma predeterminada, todo en su sitio está marcado con Permitir, así que no es necesario utilizar el comando Permitir en el 99% de las situaciones. Pero es práctico cuando desea Rechazar el acceso a una carpeta y sus subcarpetas, pero Permitir el acceso a una determinada carpeta secundaria.

Usted agrega las reglas especificando primero a qué “Usuario-agente debería aplicarse la regla y, a continuación, hacer una lista qué normas aplicar con Rechazar y Permitir. También hay otros comandos como Arrastrar-retrasar y Mapa de sitio, pero estas son:

  • Ignoradas por la mayoría de los rastreadores, o se interpretan de muy distintas maneras (en el caso de Arrastrar-retrasar)
  • Hecho redundante por herramientas como Google Search Console (para mapas de sitio)

Vamos a ver algunos casos de uso específicos para mostrarle cómo todo esto viene junto.

Cómo Usar Robots.txt para Bloquear el Acceso a Su Sitio Entero

Digamos que usted desea bloquear todo el acceso del rastreador a su sitio. Es poco probable que esto ocurra en vivo en un sitio web, pero viene siendo útil para el desarrollo de un sitio web. Para ello, tendría que agregar este código a su archivo robots.txt de WordPress:

User-agent: *
Disallow: /

¿Qué está pasando en ese código?

El asterisco (*) junto a “user-agent significa “todos los agentes de usuario”. El asterisco es un carácter comodín, lo que significa que se aplica a cada agente de usuario. El /Slash junto a Rechazar dice que desea prohibir el acceso a todas las páginas que contengan “yourdomain.com/” (que es cada página de su sitio web).

Cómo Usar Robots.txt para Bloquear que un Solo Bot Acceda a Su Sitio web

Vamos a cambiar las cosas. En este ejemplo, vamos a simular que no le gusta el hecho de que Bing rastree sus páginas. Es completamente partidario de Google y no desea que Bing rastree su sitio. Para bloquear sólo a Bing usted podría sustituir el carácter comodín*asterisco con Bingbot:

User-agent: Bingbot
Disallow: /

El código anterior dice que solo SE aplique la regla Disallow a los bots con el agente de usuario “Bingbot”.. Ahora bien, es poco probable que desee bloquear el acceso a Bing – pero este escenario es práctico si existe un bot que no desee que acceda a su sitio. Este sitio tiene una extensa lista con la mayoría de los nombres usuario-agente conocidos.

Cómo Usar Robots.txt para Bloquear el Acceso a una Carpeta o Archivo Específico

Para este ejemplo, supongamos que sólo desea bloquear el acceso a un archivo o carpeta concreto (y todas las subcarpetas de la carpeta). Para hacer que esto se aplique a WordPress, digamos que desea bloquear:

  • Toda la carpeta wp-admin
  • wp-login.php

Puede usar los siguientes comandos:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Cómo Usar Robots.txt para Permitir el Acceso a un Archivo Específico en una Carpeta no Permitida

Digamos que usted desea bloquear una carpeta entera, pero todavía desea permitir el acceso a un archivo específico dentro de esa carpeta. Aquí es donde el comando Permitir es práctico. Y es realmente muy aplicable a WordPress. De hecho, el archivo de robots.txt virtual ilustra perfectamente este ejemplo:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Este fragmento bloquea el acceso a toda la carpeta /wp-admin/excepto el archivo /wp-admin/admin-ajax.php.

¿Luchando con el tiempo de inactividad y los problemas de WordPress? Kinsta es la solución de alojamiento diseñada para ahorrarle tiempo! Conozca nuestras características

Cómo Usar Robots.txt para Detener a los Bots de Rastrear los Resultados de Búsqueda de WordPress

Si usted desea evitar que los rastreadores de búsqueda rastreen las páginas de resultados de búsqueda existe un ajuste específico de WordPress. Por defecto, WordPress utiliza el parámetro de consulta “?s=”. A fin de bloquear el acceso, todo lo que tiene que hacer es añadir la siguiente regla:

User-agent: *
Disallow: /?s=
Disallow: /search/

Esta puede ser una manera eficaz para detener errores 404 menores si los está obteniendo.

Cómo Crear Distintas Reglas para Diferentes Robots en Robots.txt

Hasta ahora, todos los ejemplos han tratado la regla cada vez. Pero, ¿qué ocurre si desea aplicar reglas diferentes a diferentes bots? Usted Simplemente necesita agregar cada conjunto de reglas bajo la declaración del agente de usuario para cada bot . Por ejemplo, si desea crear una regla que se aplique a todos los bots y otra regla que se aplique únicamente a Bingbot, puede hacer lo siguiente:

User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /

En este ejemplo,todos los bots serán bloqueados a acceder a /wp-admin/, pero Bingbot será bloqueado de acceder a todo el sitio.

Comprobación de Su Archivo Robots.txt

Puede comprobar su archivo robots.txt de WordPress en la Google Search Console para asegurarse de que se haya configurado correctamente. Simplemente haga clic en su sitio web, y en “rastrear”, haga clic en Comprobador de “robots.txt”. A continuación, puede enviar cualquier URL, incluida su página web. Usted debe ver en verde Permitido/Allowed si todo es rastreable. También podría probar una URL que ha bloqueado para garantizar que en realidad esté bloqueada, y/o Rechazado/ Disallowed.

Comprobar el archivo robots.txt

Comprobar el archivo robots.txt

Tenga Cuidado con UTF-8 BOM

BOM significa marca de orden de bytes y es básicamente un personaje invisible que a veces se agrega a los archivos antiguos por los editores de texto y similares. Si esto le sucede a su archivo robots.txt, Google podría no leerlo correctamente. Esta es la razón por la cual es importante verificar si hay errores en su archivo. Por ejemplo, como se ve a continuación, nuestro expediente tenía un carácter invisible y Google se quejaba por la sintaxis que no se entiende. ¡Básicamente, esto invalida la primera línea de nuestro archivo robots.txt por completo, lo que no es bueno! Glenn Gabe tiene un excelente artículo sobre cómo un UTF-8 BOM podría matar a sus SEO.

UTF-8 BOM en el archivo robots.txt

UTF-8 BOM en el archivo robots.txt

Googlebot Se Basa Principalmente en los EUA

También es importante no bloquear el Googlebot de los Estados Unidos, incluso si se dirige a una región local fuera de los Estados Unidos. A veces hacen rastreo local, pero el robot de Google se basa principalmente en los EE. UU.

Qué Ponen Sitios Populares de WordPress en Su Archivo Robots.txt

Para proporcionar algo de contexto para los puntos arriba mencionados, así es cómo algunos de los más populares sitios de WordPress están utilizando sus archivos robots.txt.

TechCrunch

Archivo Robots.txt de TechCrunch

Archivo Robots.txt de TechCrunch

Además de restringir el acceso a un número de páginas únicas, TechCrunch notablemente rechaza a los rastreadores:

  • /wp-admin/
  • /wp-login.php

Asimismo, establecen restricciones especiales sobre dos bots:

  • Swiftbot
  • IRLbot

En caso de que esté interesado, IRLbot es un rastreador de Texas A&M University Research Project. ¡Que extraño!

La Fundación de Obama

Archivo Robots.txt de la Fundación Obama

Archivo Robots.txt de la Fundación Obama

La Fundación Obama no ha hecho ninguna adición especial, opta exclusivamente para restringir el acceso a /wp-admin/.

Angry Birds

Archivo robots.txt de Angry Birds

Archivo robots.txt de Angry Birds

Angry Birds tiene la misma configuración por defecto como la Fundación Obama. No se agrega nada especial.

Drift

Archivo Robots.txt de Drift

Archivo Robots.txt de Drift

Por último, Drift opta definir sus mapas de sitio en el archivo robots.txt, pero de lo contrario, deja las mismas restricciones predeterminadas como la Fundación Obama y Angry Birds.

Utilice el Archivo Robots.txt de Forma Correcta

Mientras concluimos nuestro guía de robots.txt, queremos recordarle una vez más que el uso de un comando Rechazar en el archivo robots.txt no es lo mismo que usar una etiqueta noindex. Robots.txt bloquea el rastreo, pero no necesariamente la indexación. Puede usarlo para agregar reglas específicas para darle forma a cómo los motores de búsqueda y otros bots interactúan con su sitio web, pero no podrá controlar explícitamente si su contenido es o no es indexado.

Para la mayoría de los usuarios casuales de WordPress, no hay una necesidad urgente de modificar el archivo virtual predeterminado de robots.txt. Pero si está teniendo problemas con un bot, o desea cambiar la forma de interactuar de los motores de búsqueda con un determinado plugin o tema que está usando, es posible que desee agregar sus propias reglas.

Esperamos que haya disfrutado de esta guía y asegúrese de dejar un comentario si tiene más preguntas sobre el uso de su archivo robots.txt. de WordPress.