Los sitios web no se crean solo para publicar contenido, y los metadatos no se optimizan por diversión; todas estas actividades se combinan para que tus páginas puedan encontrarse más fácilmente. Durante años, el buscador de Google ha sido la principal puerta de acceso a esa visibilidad, gracias en gran parte a sus rastreadores web.
Desde finales de la década de 1990, Googlebot y otros rastreadores tradicionales han escaneado sitios web, obtenido páginas HTML y las han indexado para ayudar a las personas a encontrar lo que buscan. En enero de 2024, Google representaba el 63 % de todo el tráfico web de EE. UU., impulsado por los 170 dominios principales.
Pero ahora, según una encuesta realizada por McKinsey, la mitad de los clientes recurren a herramientas de IA como ChatGPT, Claude, Gemini o Perplexity para obtener respuestas instantáneas, e incluso Google está incorporando resúmenes generados por IA en los resultados de búsqueda a través de funcionalidades como AI Overviews.
Detrás de estas nuevas experiencias impulsadas por la IA hay una clase creciente de bots conocidos como rastreadores de IA. Si tienes un sitio de WordPress, comprender cómo acceden y utilizan tu contenido estos rastreadores es más importante que nunca.
¿Qué son los rastreadores de IA?
Los rastreadores de IA son bots automatizados que escanean páginas web de acceso público, similares a los rastreadores de los motores de búsqueda, pero con un propósito diferente. En lugar de indexar páginas para el posicionamiento tradicional, recopilan contenido para entrenar grandes modelos de lenguaje o proporcionar información nueva a las respuestas generadas por IA.
En general, los rastreadores de IA se dividen en dos grupos:
- Los rastreadores de entrenamiento, como GPTBot (OpenAI) y ClaudeBot (Anthropic), recopilan datos para enseñar a los grandes modelos lingüísticos a responder a las preguntas con mayor precisión.
- Los rastreadores de recuperación en tiempo real, como ChatGPT-User, acceden a los sitios web en tiempo real cuando alguien pregunta algo que requiere los datos más recientes, como consultar la descripción de un producto o leer documentación.
Otros rastreadores, como PerplexityBot o AmazonBot, por ejemplo, están creando sus propios índices o sistemas para reducir su dependencia de fuentes externas. Y aunque sus objetivos difieren, todos tienen una cosa en común: obtienen y leen contenido de sitios web como el tuyo.
Cómo funcionan los rastreadores de IA
Cuando un rastreador de IA visita tu sitio, suele hacer lo siguiente:
- Envía una solicitud GET básica a la URL de la página (sin interacción, desplazamiento ni eventos DOM).
- Obtiene sólo el HTML inicial devuelto por el servidor. No espera a que se cargue o ejecute el JavaScript del cliente.
- Extrae todos los enlaces
<a href="">,<img src="">,<script src="">, y otros enlaces de recursos, y luego añade las URL internas (y a veces externas) a su cola de rastreo. En muchos casos, también rastrea enlaces rotos que devuelven errores 404. - Puede intentar recuperar activos enlazados como imágenes, archivos CSS o scripts, pero sólo como recursos en bruto, no para renderizar la página.
- Repite este proceso recursivamente a través de los enlaces descubiertos para mapear el sitio.
Cómo interactúan los rastreadores de IA con los sitios web de WordPress
WordPress es una plataforma renderizada por el servidor que utiliza PHP para generar páginas HTML completas antes de enviarlas al navegador. Cuando un rastreador visita un sitio de WordPress, normalmente obtiene todo lo que necesita (contenido, encabezados, metadatos, navegación) en la respuesta HTML.
Esta estructura renderizada por el servidor hace que la mayoría de los sitios de WordPress sean naturalmente fáciles de rastrear. Tanto Googlebot como los rastreadores de IA normalmente pueden escanear tu sitio y comprender fácilmente tu contenido. De hecho, el contenido fácilmente rastreable es una de las razones por las que WordPress funciona bien tanto en las plataformas de búsqueda tradicionales como en las más nuevas impulsadas por IA.
¿Deberías permitir que los rastreadores de IA accedan a tu contenido?
Los rastreadores de IA ya pueden leer la mayoría de los sitios de WordPress por defecto. La verdadera cuestión es a qué quieres que accedan y cómo puedes controlar esa visibilidad.
Las empresas que se dedican al contenido están muy interesadas en este tema en la actualidad. El tema se extiende a las entradas de blog, la documentación, las páginas de destino… en realidad, a cualquier cosa que se escriba para la web. Probablemente hayas oído consejos como «escribe para las máquinas», ya que las plataformas de IA extraen cada vez más datos en tiempo real y, en algunos casos, ahora incluyen enlaces a las fuentes. Todos queremos aparecer en los resultados de LLM, al igual que queremos aparecer en los resultados de búsqueda de Google.
Por ejemplo, en la siguiente captura de pantalla, le pedimos a ChatGPT que nos informe sobre algunas de las últimas funcionalidades lanzadas por Kinsta. Busca en la web, analiza los Changelogs y las páginas vinculadas, y proporciona una respuesta resumida con enlaces directos a la fuente.

Es pronto, pero los rastreadores de IA ya influyen en lo que la gente ve cuando hace preguntas en Internet. Y ese alcance podría ser importante.
Guillermo Rauch, CEO de Vercel, compartió en abril que ChatGPT representa casi el 10 % de las nuevas inscripciones en Vercel, en comparación con menos del 1 % solo seis meses antes. Esto demuestra la rapidez con la que las referencias impulsadas por la inteligencia artificial pueden convertirse en un canal de adquisición significativo.

Y los rastreadores de IA están muy extendidos. Según Cloudflare, los robots de IA accedieron a alrededor del 39% de los sitios web más visitados, pero sólo el 3% de ellos bloquearon o impugnaron ese tráfico.
Así que, aunque aún no hayas tomado una decisión, es casi seguro que los rastreadores de IA ya están visitando tu sitio.
¿Debes permitir o bloquear los rastreadores de IA?
No existe una solución única para todos. No hay una respuesta universal, pero aquí tienes una estructura de referencia:
- Bloquea los rastreadores en rutas sensibles o de poco valor como
/login,/checkout,/admin, o paneles de control. No ayudan al descubrimiento y sólo malgastan ancho de banda. - Permite el rastreo de «contenido de descubrimiento», como entradas de blog, documentación, páginas de productos e información sobre precios. Estas páginas son las que tienen más probabilidades de ser citadas en las respuestas de la IA y atraer tráfico cualificado.
- Decide estratégicamente el contenido premium o cerrado. Si tu contenido es tu producto (por ejemplo, noticias, investigación, cursos), el acceso ilimitado a la IA puede debilitar tu negocio.
Están surgiendo nuevas herramientas para ayudar. Cloudflare, por ejemplo, está experimentando con un modelo llamado Pay Per Crawl, que permite a los propietarios de sitios cobrar a las empresas de IA por el acceso. Todavía está en fase beta privada, y la adopción en el mundo real es temprana, pero la idea ha obtenido un fuerte apoyo de grandes editores que quieren más control sobre cómo se utiliza su contenido.
Otros miembros de la comunidad dedicada al marketing y la búsqueda son más cautelosos, ya que el bloqueo predeterminado podría reducir involuntariamente la visibilidad en los resultados de búsqueda con IA de los sitios que realmente desean exposición. Por ahora, se trata de un experimento prometedor más que de una fuente de ingresos consolidada.
Hasta que estos sistemas maduren, el enfoque más práctico es la apertura selectiva, en la que se mantiene el contenido de descubrimiento rastreable, se bloquean las áreas sensibles y se revisan las reglas a medida que evoluciona el ecosistema.
Cómo controlar el acceso del rastreador de IA en WordPress
Si no te parece bien que los rastreadores de IA accedan a tu sitio de WordPress y analicen su contenido, la buena noticia es que puedes recuperar el control.
Aquí tienes tres formas de gestionar el acceso de rastreadores de IA en WordPress:
- Editar manualmente tu archivo
robots.txt. - Utiliza un plugin que lo haga por ti.
- Utiliza la protección contra bots de Cloudflare.
Veamos las tres opciones.
Opción 1: Bloquear manualmente los rastreadores de IA con robots.txt
Tu archivo robots.txt indica a los robots qué partes de tu sitio pueden rastrear. Los rastreadores de IA más conocidos, como GPTBot de OpenAI, Claude-Web de Anthropic y Google-Extended, respetan estas normas.
Puedes bloquear robots específicos por completo, permitirles acceso total o restringir el acceso a determinadas secciones de tu sitio. Por ejemplo, para bloquearlo todo, puedes añadir esto a tu archivo robots.txt, aunque no es recomendable para la mayoría de los sitios:
User-agent: GPTBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Google-Extended
Disallow: /
Permitir el acceso completo al GPTBot de OpenAI:
User-agent: GPTBot
Disallow:
Para bloquear sólo una sección de tu sitio al GPTBot de OpenAI. Por ejemplo, tu página de inicio de sesión, donde los rastreadores no aportan ningún valor:
User-agent: GPTBot
Disallow: /login/
Este tipo de bloqueo selectivo es fundamental. Las rutas sensibles como /login, /checkout o /admin no ayudan a la visibilidad y casi siempre deben bloquearse. Por otro lado, las páginas de productos, las descripciones generales de las funcionalidades o el centro de ayuda son buenas candidatas para dejarlas abiertas a los rastreadores, ya que pueden generar citas y referencias.
Puedes añadir este archivo robots.txt manualmente:
- Utilizando un plugin SEO como Yoast (Herramientas > Editor de archivos).
- Usando un plugin gestor de archivos como WP File Manager.
- O editando tu archivo
robots.txtdirectamente en el servidor mediante FTP.
Opción 2: Utilizar un plugin de WordPress
Si no te sientes cómodo editando directamente el archivo robots.txt o simplemente quieres una forma más rápida y segura de gestionar el acceso del rastreador de IA, los plugins pueden hacer el trabajo por ti con unos pocos clics.
Raptive Ads
El plugin de WordPress Raptive Ads incluye soporte integrado para bloquear los rastreadores de IA:
- Puedes seleccionar qué bots bloquear directamente desde la configuración del plugin.
- La mayoría de los robots de IA (como GPTBot y Claude) están bloqueados por defecto.
- Google-Extended no está bloqueado por defecto, pero puedes marcar la casilla si quieres excluirte del entrenamiento de IA de Google.
Una de las principales ventajas de utilizar este plugin es que el bloqueo de Google-Extended no afecta a tu posicionamiento en Google ni a tu visibilidad en los resultados de búsqueda normales.
Block AI Crawlers
El plugin Block AI Crawlers se creó específicamente para ofrecer a los propietarios de sitios WordPress más control sobre cómo interactúan los rastreadores de IA con su contenido. Te explicamos cómo:
- Bloquea más de 75 robots de IA conocidos añadiendo automáticamente las reglas
Disallowadecuadas al sitiorobots.txt. - No requiere configuración. Instala el plugin, ve a Configuración > Lectura y marca la casilla Bloquear rastreadores de IA.
- Ligero y de código abierto, con actualizaciones periódicas directamente desde GitHub.
- Diseñado para funcionar directamente en la mayoría de las instalaciones de WordPress.
El plugin Block AI Crawlers es una de las formas más sencillas de mantener alejados de tu sitio a los robots de IA no deseados, especialmente si no utilizas plugins SEO avanzados.
Opción 3: Utilizar el bloqueador de bots con IA de Cloudflare con un solo clic.
Si tu sitio de WordPress utiliza Cloudflare (y muchos lo hacen), puedes bloquear docenas de bots de IA conocidos y desconocidos con un solo toque.
A mediados de 2024, Cloudflare lanzó una funcionalidad dedicada a los rastreadores y scrapers de IA, disponible incluso en el plan gratuito. Esta funcionalidad no sólo se basa en robots.txt; sino que bloquea los bots a nivel de red, incluso aquellos que mienten sobre su identidad.
Puedes activarla haciendo lo siguiente:
- Accede a tu panel de control de Cloudflare
- Ve a Seguridad > Configuración
- En la sección Filtrar por, elige Tráfico de bots.
- Busca el modo de lucha contra bots y actívalo.

Si utilizas un plan de pago de Cloudflare, tienes acceso al modo Super Bot Fight, una versión mejorada del modo Bot Fight con mayor flexibilidad. Se basa en la misma tecnología, pero te permite elegir cómo gestionar los diferentes tipos de tráfico, lo que permite que las detecciones de JavaScript detecten navegadores headless, scrapers ocultos y otros comportamientos maliciosos.
Por ejemplo, en lugar de bloquear todos los rastreadores, puedes configurar la herramienta para que sólo bloquee el «tráfico definitivamente automatizado» y permita los «bots verificados», como los rastreadores de los motores de búsqueda:

Y listo. Cloudflare bloquea automáticamente las solicitudes de los robots de inteligencia artificial.
Si deseas obtener más información sobre cómo funcionan estas herramientas juntas, incluidos el modo Bot Fight, el modo Super Bot Fight y las reglas de desafío específicas, puedes leer nuestra guía completa sobre cómo proteger tu sitio de WordPress del tráfico no deseado de bots con Cloudflare.
Qué significa este cambio para tu sitio de WordPress
Los rastreadores de IA ahora forman parte de la forma en que las personas descubren información online. La tecnología es nueva, las reglas aún se están definiendo y los propietarios de sitios web están decidiendo qué parte de su contenido quieren poner a su disposición.
La buena noticia es que los sitios de WordPress ya están en una posición fuerte. Como WordPress produce HTML completamente renderizado, la mayoría de los rastreadores de IA pueden interpretar tu contenido claramente sin necesidad de un tratamiento especial. La verdadera decisión estratégica no es si los rastreadores de IA pueden acceder a tu sitio, sino hasta qué punto el acceso contribuye a tus objetivos.
A medida que evoluciona la combinación de tipos de tráfico, resulta útil disponer de opciones de alojamiento que faciliten la comprensión y la gestión del uso de los recursos. Los nuevos planes basados en el ancho de banda de Kinsta ofrecen una forma más predecible de contabilizar la transferencia total de datos, independientemente del origen de las solicitudes. En combinación con las protecciones contra bots de Cloudflare y tus propias reglas de rastreo, tendrás un control total sobre cómo se accede a tu sitio.