El mantenimiento de tu sitio web implica tener una estrategia de copia de seguridad dedicada. Aunque las copias de seguridad son esenciales, no son la única manera de preservar tu sitio. La extensión natural de las copias de seguridad es archivar un sitio web, aunque son procesos complementarios.
Existen varias formas flexibles de archivar un sitio web. La gran noticia es que todas son fáciles de usar y accesibles. Solo tienes que elegir la solución adecuada a tus necesidades y requisitos.
En este artículo, veremos cómo archivar un sitio web. También exploraremos los diferentes tipos de archivo que encontrarás, haremos un repaso de algunas de las herramientas de archivo de sitios más destacadas y discutiremos algunos consejos para archivar tu sitio.
Introducción a la Archivación de Sitios Web
Archivar un sitio web significa preservar el contenido, los datos y los medios de comunicación para futuras referencias. Utilizando un servicio dedicado como Wayback Machine (aunque más adelante hablaremos de otras soluciones), puedes ver versiones antiguas de un sitio web.
A nivel técnico, los rastreadores toman instantáneas de un sitio web, lo que constituye el propio archivo. Puedes acceder a él mediante un simple calendario y ver cada iteración en un formato de línea de tiempo si lo deseas.
En cuanto al motivo de la existencia de soluciones como Wayback Machine, hay que remontarse a principios de la década de 2000. La burbuja de las «puntocom» prácticamente había estallado; muchas empresas estaban hundiéndose. Algunos sitios web populares se cerraron o se abandonaron, y quedaron pocos recuerdos.
Al igual que otros formatos mediáticos anteriores a Internet, como la música y la televisión, estos sitios web tenían un valor histórico y nostálgico. Salvarlas significaba dar a los futuros usuarios de Internet una idea de lo lejos que habíamos llegado de la tecnología anterior.
Internet Archive lanzó la Wayback Machine para ayudar a preservar los sitios web. Si un sitio ha sido archivado allí, puedes ver cómo ha evolucionado a lo largo de los años.
Para archivar un sitio web se necesitan muchos rastreadores, incluso enormes rastreos individuales que podrían tardar años en completarse. El esfuerzo necesario para llevar a cabo las «expediciones» de rastreo y almacenar las instantáneas resultantes es inmenso.
Por ejemplo, el primer servidor de 100 Terabytes (TB) de Wayback Machine entró en funcionamiento en 2004. A finales de 2020, Wayback Machine había almacenado más de 70 Petabytes (PB) de datos. Es decir, más de 70.000 Terabytes.
Sin embargo, no todo el mundo está de acuerdo con el trabajo que realiza Internet Archive. Ha habido varios debates y desafíos legales basados sobre si un archivo de un sitio web rompe con los derechos de autor existentes.
Sin embargo, teniendo en cuenta el considerable crecimiento del número de archivos almacenados, existe un claro deseo de preservar los sitios web.
Por Qué Querrás Archivar un Sitio Web
Hay muchas razones para querer archivar un sitio web, más allá de las razones nostálgicas. Para una analogía del mundo real, mira a GitHub.
Github almacena los repositorios de un proyecto, junto con cada «commit» realizado. Para comparar esto con el archivo de Internet, los repositorios representan el archivo completo, y los commits son las instantáneas.
Del mismo modo que los repositorios Git son valiosos, un archivo también lo es. Por ejemplo, puedes mirar las iteraciones anteriores de tu sitio -incluso de hace muchos años- para influir en tus decisiones de diseño actuales.
Además, es posible que estés obligado legalmente a archivar tu sitio, sobre todo si perteneces al sector financiero o jurídico.
Por último, si tienes la mala suerte de verte envuelto en un litigio en torno a tu sitio, tus archivos serán una prueba valiosa. Si puedes presentar archivos claros y completos del sitio, puede acabar con las disputas incluso antes de que lleguen a los tribunales.
La Diferencia Entre las Copias de Seguridad y la Archivación
Antes de hablar de los diferentes tipos de archivo web disponibles, merece la pena volver a un tema que hemos tocado antes. Sobre el papel, una copia de seguridad de un sitio y un archivo web parecen similares. Sin embargo, realizan trabajos diferentes que se complementan entre sí. En pocas palabras:
- Las copias de seguridad se basan en los datos. Se preocupan más por preservar los datos de tu sitio. Dado que las copias de seguridad son vitales si necesitas restaurar tu sitio, tener una copia de seguridad completa de tus datos es primordial.
- Los archivos preservan el contexto por encima de los datos. Si se recorre el archivo de tu sitio web favorito, observarás que la funcionalidad suele ser irregular. Sin embargo, el diseño del sitio y el contenido estático suelen permanecer intactos.
Vale la pena señalar que el archivado no pretende evitar por completo los esfuerzos de preservación de datos. De hecho, uno de los beneficios es permitir a los usuarios navegar por tu sitio como si estuviera vivo. Aun así, dado que sitios como Wayback Machine existen como un «carril de la memoria» virtual, mantener los elementos visuales intactos tiene mayor prioridad que preservar la funcionalidad del backend.
En resumen, querrás utilizar tanto las copias de seguridad como los archivos para tu sitio: las primeras como protección diaria en caso de que ocurra lo peor, y los segundos como una forma adicional de ayudar a documentar la evolución de tu sitio.
Los Diferentes Tipos de Archivado Web que Encontrarás
El archivado web no tiene una sola variante. Existen varios tipos diferentes con los que te puedes encontrar. A continuación, un desglose de cada uno de ellos:
- Del lado del cliente: implica que el usuario final guarde una versión del sitio web en cuestión. Es sencillo, escalable y permite archivar un sitio web sin complicaciones.
- Del lado del servidor: El enfoque de Wayback Machine y otros se clasifica como archivo del lado del servidor. Utiliza rastreadores y otras tecnologías para archivar un sitio web, pero también requiere un nivel de consentimiento que no se encuentra en el archivo del lado del cliente.
- Basado en transacciones: Aunque sigue basándose en el archivo del lado del servidor, es más complejo y requiere el consentimiento explícito del propietario del sitio. Básicamente, archiva las transacciones del sitio entre el usuario final y el servidor.
Para sitios web sencillos con datos estáticos, junto con una estrategia de archivado organizada, el archivado del lado del cliente debería ser adecuado. Sin embargo, la mayoría de los otros sitios preferirán los archivos del lado del servidor: el archivo basado en transacciones no es necesario para la mayoría de los sitios web.
Por último – y esto lo discutiremos con más detalle a lo largo de la entrada -, también querrás considerar dónde y cómo se almacenan tus archivos. Por ejemplo, un archivo local no es una mala opción, pero podría desaparecer si se produce un fallo informático. Por otro lado, tienes menos control sobre lo que se archiva si optas por una solución de terceros.
Como era de esperar, la respuesta aquí es utilizar un enfoque multifacético para archivar un sitio web. Sugerimos tratar los archivos como si fueran copias de seguridad: mantener tres copias diferentes en ubicaciones separadas y sincronizadas de alguna manera.
Es posible que también quieras hacer uno de los archivos en vivo, para que puedas aprovechar cualquier funcionalidad del lado del servidor en tu sitio. El resultado es un sitio web con una sólida estrategia de copia de seguridad y archivo que sigue siendo útil para los demás.
Guía para Principiantes de Herramientas y Sitios de Archivado de Internet
Existe una gran cantidad de soluciones disponibles para archivar un sitio web. A continuación, te presentamos algunas de las más populares, junto con nuestra opinión sobre lo que te puede convenir.
1. Wayback Machine
En primer lugar, hablemos de Wayback Machine. Fue la primera de su clase, por lo que marcó la pauta para otras herramientas de archivado.
Como tal, es probable que sea el primer lugar al que te dirijas cuando quieras archivar un sitio web. Tiene muchas formas de crear y cargar archivos, e incluso una API dedicada para conectarse a tu funcionalidad. Cabe destacar que también es una solución de archivo del lado del servidor.
Dicho esto, debido a la forma en que rastrea y archiva los sitios web, Wayback Machine podría no ser capaz de preservar toda la funcionalidad de tu sitio. Sin embargo, se considera el estándar de la industria para los archivadores de la web, y además es totalmente gratuito. Más adelante en este artículo te mostraremos cómo archivar un sitio web con más detalle utilizando Wayback Machine.
2. Archive.today
El siguiente es Archive.today. Es similar en muchos aspectos a Wayback Machine, incluso en el diseño casi «retro» del sitio. Sus servidores de datos se encuentran en Europa, pero su enfoque del archivo es diferente al de Wayback Machine.
Para empezar, Archive.today no se basa en rastreadores que recorren la web. En lugar de eso, tú envías tus URL y aceptas su inclusión en el archivo. Además, su lista de funciones es más escasa que la de otras soluciones. Por ejemplo, no tiene una política de borrado sólida y el proceso de archivado excluye ciertos medios y tipos de archivos.
Aun así, es gratuito y adecuado si quieres un lugar gratuito para almacenar archivos. El sitio tiene incluso una función de búsqueda para encontrar sitios archivados anteriormente.
3. Heritrix
Hasta ahora hemos mencionado el Internet Archive y la Wayback Machine casi indistintamente en este post. Sin embargo, Wayback Machine es solo un servicio, y el Internet Archive ofrece otros productos de archivo aparte de éste. Heritrix es una herramienta gratuita y de código abierto nacida de la colaboración entre Internet Archive y las bibliotecas nórdicas.
Es esencialmente un rastreador web más que una herramienta de archivo con todas las funciones. Sin embargo, puedes agrupar todos los resultados rastreados. Aunque esto no ha sido así en el pasado, Wayback Machine utiliza ahora Heritrix para rastrear sitios para incluirlos en su propio sitio. Además, un gran número de bibliotecas e instituciones utilizan Heritrix para crear archivos.
A pesar de sus impresionantes características, la instalación de Heritrix requiere algunos conocimientos técnicos. No existe una interfaz fácil de usar que lo instale por ti, así que necesitarás conocimientos de Git, GitHub y la línea de comandos.
Al igual que otras soluciones similares, Heritrix es totalmente gratuito, por lo que resulta adecuado como solución de autoarchivo rentable.
4. Web Archiving Integration Layer (WAIL)
Si estás pensando en Heritrix para archivar un sitio web, pero te desaniman los conocimientos técnicos necesarios para instalar el software, hay una posible solución para ti. Web Archiving Integration Layer (WAIL) es una aplicación de escritorio multiplataforma, gratuita y de código abierto, que ofrece una interfaz gráfica de usuario (GUI) funcional, junto con un instalador.
La buena noticia es que Heritrix es el motor de rastreo de WAIL. Esto significa que puedes aprovechar la potencia de Heritrix sin tener que pasar por GitHub y la línea de comandos. Además, WAIL utiliza el motor OpenWayback para «reproducir» los archivos web.
De este modo, tienes una herramienta de archivo web con todas las funciones lista para funcionar en tu máquina. También te mostraremos cómo funciona exactamente WAIL más adelante en el artículo.
5. Stillio
Nuestra penúltima herramienta de archivo se presenta como una solución automatizada que toma instantáneas a intervalos establecidos. Stillio es un servicio premium que se ve y se siente diferente a otras soluciones de archivo.
El sitio web tiene un aspecto elegante y te ofrece innumerables opciones para crear un archivo que se ajuste a tus necesidades exactas. Por ejemplo, puedes añadir etiquetas y títulos personalizados a tus URL.
Además, puedes optar por almacenar los archivos en Dropbox, Google Drive y otros servicios de terceros.
Sin embargo, Stillio tiene una gran desventaja: no admite el archivado backend. Está limitado a capturas de pantalla de tu sitio web en lugar de un archivo completo de datos. Para muchas aplicaciones, esto no es suficiente.
Sin embargo, Stillio podría ser útil en algunos casos, como servir de herramienta de gestión y seguimiento de marcas. Por ejemplo, puede hacer capturas de pantalla de los sitios de la competencia o de los resultados de los motores de búsqueda. También es genial para la verificación de contenidos.
El precio de Stillio empieza en 29 dólares al mes y va subiendo a través de cuatro niveles hasta llegar a 299 dólares al mes. Es un precio elevado, especialmente cuando hay alternativas gratuitas con características más potentes. Pero si se ajusta perfectamente a tu caso de uso, entonces vale la pena echarle un vistazo.
6. Pagefreezer
Nuestra última solución es otra herramienta automatizada. Pagefreezer ofrece muchas de las mismas ventajas que Stillio, pero también archiva el contenido de las redes sociales, los mensajes de texto, los sitios completos y las plataformas de colaboración de nivel empresarial.
A primera vista, Pagefreezer parece una solución más sólida que Stillio y tendría mayor valor en varios casos de uso.
Por ejemplo, cuando la ley exige archivar un sitio en su totalidad, Pagefreezer se adapta a ello. Te permite automatizar el número de instantáneas y revisarlas mediante un navegador de archivos de sitios y una herramienta de comparación.
En general, Pagefreezer es una gran solución de nivel empresarial para el archivo del lugar de trabajo. Las empresas que utilizan Yammer o Chatter de Salesforce se inclinarán por este tipo de solución, al igual que los usuarios de Workplace.
¿Qué Es el Formato de Archivo Web (WARC)?
Si estás investigando cómo archivar un sitio web, te encontrarás con el formato Web Archive (WARC). Se trata de una combinación empaquetada de los distintos archivos de tu sitio para que sea portátil y autónomo.
El Archivo de Internet creó WARC para preservar los datos de la web a largo plazo. El Consorcio Internacional de Preservación de Internet (IIPC – International Internet Preservation Consortium) ha publicado la especificación completa del formato de archivo. En él se pueden almacenar imágenes, metadatos y prácticamente todo lo que tu sitio necesita para funcionar de forma autónoma.
Aunque en un principio fue solo un formato de archivo práctico, ahora la ARM es una norma internacional ISO para archivos digitales. Como tal, ha sido adoptado por gobiernos y otros organismos oficiales. De hecho, hay varios casos de uso en los que un archivo WARC es vital:
- E-discovery: Es el proceso durante el litigio en el que se investigan los registros digitales y se presentan para su inclusión en un juicio. En el caso de los registros de las redes sociales, un archivo WARC cumple la norma legal de E-discovery.
- Libertad de información (FOI – Freedom of information): Son muchos los gobiernos y organismos oficiales que se acogen a las leyes de FOI y Open Records para ofrecer un servicio de «Derecho a Saber» (RTK – Right To Know) a los electores del Estado. El formato WARC es ideal en los casos que implican registros digitales.
WARC es utilizado por muchas soluciones de archivo y rastreadores, como StormCrawler y Apache Nutch. También puedes ajustar la configuración de una herramienta de línea de comandos como Wget para obtener y empaquetar las solicitudes como archivos WARC. En breve hablaremos de esto con más detalle.
Hay muchas otras herramientas que también pueden generar archivos WARC. Por ejemplo, la herramienta de código abierto para guardar páginas web wallabag puede hacerlo.
Como alternativa, grab-site es una aplicación basada en la web que ayuda a rastrear los archivos como archivos WARC.
La apertura de un archivo WARC depende de la herramienta que utilices. Independientemente de la solución que prefieras, ten en cuenta que algunas de estas herramientas no se han actualizado desde hace tiempo.
Por lo tanto, querrás asegurarte de que la solución elegida funciona con tu sistema actual y de que va a estar disponible para su uso en el futuro. Te ahorrarás muchos quebraderos de cabeza si evitas una herramienta que podría ser descatalogada o abandonada mientras estás en medio de un proyecto de archivo.
Consejos Para la Gestión de Tus Archivos Offline
Antes de entrar en cómo archivar un sitio web, vamos a dedicar unos minutos a ayudarte a organizar tus archivos existentes. Ya hemos tocado el tema, pero tener un enfoque sólido hará que tus archivos sean más manejables. Los usuarios de tu sitio web también sacarán más provecho de un archivo bien organizado.
Existen tres elementos clave que debes tener en cuenta:
- Frecuencia: Decide la frecuencia con la que deseas archivar un sitio. Los sitios enormes, dinámicos y complejos con cambios casi diarios necesitarán instantáneas más frecuentes que los sitios estáticos.
- Ubicación: Al igual que las copias de seguridad, debes guardar los archivos en varios lugares diferentes, incluida la nube. Sigue la regla del 3-2-1 para mayor seguridad. También sugeriríamos más que esto si quieres capturar toda la profundidad de tu sitio.
- Estructura: Al igual que los directorios de tu ordenador, debes procurar utilizar carpetas explícitas, subdivididas en los nombres de los archivos de los sitios y la fecha en que se archivó un sitio específico.
Aunque podrías ampliar la administración de tus archivos, estos tres consejos te permitirán empezar a archivar con buen pie.
5 Formas de Archivar un Sitio Web
A continuación, vamos a sugerir cinco formas diferentes de archivar un sitio web. Hemos ordenado las soluciones en función de su dificultad relativa. Sin embargo, si detectas una solución que crees que puede funcionar para tus necesidades actuales, no dudes en sumergirte y buscar más.
1. Guarda una Sola Página en Tu Ordenador Local
En primer lugar, vamos a hablar de la solución más sencilla. Es genial si necesitas archivar una sola página, y aún mejor, la funcionalidad ya está en prácticamente todos los navegadores.
Para empezar, abre tu navegador favorito y dirígete al sitio web que quieres archivar. Una vez cargada la página, ve al menú Archivo de tu navegador y busca la opción Guardar página como:
A continuación, haz clic en la opción de guardar la página, momento en el que el navegador te mostrará un cuadro de diálogo.
Aquí, elige un nombre para tu página (aunque el predeterminado está bien). Además, asegúrate de que estás guardando toda la página en lugar de solo el HTML. Así conservarás la página con el mayor número de funcionalidades posible.
2. Utiliza DevKinsta para Archivar Tu Sitio Web de WordPress
Creemos que DevKinsta es una herramienta esencial para crear y desplegar sitios web de WordPress. Sin embargo, también tiene otra cuerda en su arco: te ayuda a archivar tus sitios web alojados en Kinsta también.
En uno de nuestros artículos de la base de conocimientos hemos cubierto todo el proceso de extracción de una copia de seguridad externa de MyKinsta a DevKinsta. Resumiendo:
- Crea y descarga una copia de seguridad en MyKinsta.
- Crea un nuevo sitio con DevKinsta.
- Importa tu contenido y tu base de datos.
- Realiza una búsqueda y sustitución en tu base de datos para cambiar el nombre de la URL de tu sitio en vivo a tu nuevo archivo local.
En este punto, puedes abrir tu sitio en DevKinsta y utilizarlo como si estuviera en vivo.
3. Utiliza un Archivo Online (Como Wayback Machine)
Ningún tutorial estaría completo sin mostrarte cómo funciona Wayback Machine. Afortunadamente, el proceso es sencillo. Eso sí, ten en cuenta que este método solo te permite archivar páginas individuales (aunque el servicio de suscripción Archive-It te permite archivar sitios completos).
Para ello, dirígete a la página de inicio de Wayback Machine y consulta el formulario Guardar página ahora (Save Page Now):
Para archivar una página, solo tienes que añadir la URL que deseas guardar en este formulario y hacer clic en Guardar página. Dependiendo de lo grande o compleja que sea la página, es posible que tengas que esperar unos minutos mientras el rastreador y el motor hacen lo su trabajo. Puede ser que la página parezca que se ha colapsado. En nuestras pruebas nos encontramos con una Pantalla Blanca de la Muerte (WSoD – White Screen of Death) durante un tiempo.
Sin embargo, una vez archivada la página, Wayback Machine te redirigirá a la nueva página dedicada.
Ten en cuenta que también puedes utilizar un bookmarklet y una extensión del navegador para archivar un sitio web. De hecho, la mayoría de los navegadores actuales cuentan con estas opciones desde el principio, incluyendo Google Chrome, Firefox y Safari.
4. Instala el Web Archiving Integration Layer (WAIL)
El primer paso con este enfoque es descargar WAIL e instalarlo. Afortunadamente, existe un instalador dedicado para la herramienta (aunque como el programa está escrito en Python, utiliza el módulo PyInstaller).
El proceso de instalación es muy sencillo. Independientemente de tu sistema operativo (OS), puedes llevar a cabo lo siguiente:
- Navega por la página web de WAIL y descarga el instalador apropiado para tu sistema operativo.
- Descomprime el archivo para la versión de Windows, o monte la imagen DMG para macOS.
- En la pantalla de diálogo resultante para macOS, arrastra el icono de la aplicación a tu carpeta de aplicaciones. Para los usuarios de Windows, basta con arrastrar la carpeta descomprimida a la unidad raíz C:\Nde su ordenador.
- Inicia WAIL.app o WAIL.exe (dependiendo de tu sistema operativo).
Una vez que WAIL esté abierto, verás su simple interfaz:
Ahora se te presentan tres opciones para elegir: ver un archivo, comprobar su estado o archivar un sitio web. Los botones son ligeramente confusos, ya que su inclinación natural puede ser leer de izquierda a derecha. Sin embargo, en el primer lanzamiento, no tendrás nada en tus archivos.
En su lugar, introduce la URL del sitio que deseas archivar y haz clic en Archivar ahora. Verás que WAIL comienza a rastrear el sitio web. Puedes comprobar el estado de su rastreo en la pestaña Avanzado > Heritrix:
Cuando haya terminado, te mostrará un mensaje de «Éxito». En este momento, puedes hacer clic en el botón Ver archivo de la pestaña Básica. Esto abrirá tu sitio archivado en un navegador, listo para que lo veas.
5. Utiliza Wget Si Te Sientes Cómodo Utilizando la Línea de Comandos
Para nuestro método final de archivar un sitio web, necesitarás algunas cosas antes de empezar:
- Acceso a la línea de comandos de tu ordenador
- Una herramienta de línea de comandos adecuada, como el Símbolo del sistema de Windows, o el Terminal en macOS y Linux
- Wget instalado en tu ordenador
Es probable que ya tengas los dos primeros.
En macOS, puedes instalar Wget a través de Homebrew con el comando brew install wget
. Ten en cuenta que también tienes que instalar Homebrew, pero solo te llevará unos segundos. En Linux, Wget está preinstalado en la mayoría de las principales distribuciones.
Si eres un usuario de Windows, puede que te resulte más difícil instalar Wget en tu ordenador. Aunque hay tutoriales disponibles en la web, su guía no parece ser consistente entre las máquinas. En su lugar, te recomendamos que te dirijas al sitio web oficial de Wget y compruebes algunos de los binarios disponibles para Windows, ya que es más probable que te funcionen.
En cualquier caso, una vez instalado Wget, su uso es sencillo. Primero, navega a un directorio en una nueva ventana de terminal. Aquí, estamos creando el directorio también, pero este paso es opcional:
cd documents && mkdir archive && cd archive
Ten en cuenta que Wget sacará todas las descargas en cualquiera que sea el directorio de trabajo. En este caso, hemos especificado una carpeta para nuestros archivos.
A continuación, querrás rastrear un sitio y extraer los archivos. Cada acción es invocada usando el comando wget
, y querrás usar el siguiente formato:
wget "https://kinsta.com/" --warc-file="kins"
Al pulsar la tecla Enter se iniciará la descarga de kinsta.com en un archivo index.html y se creará un archivo WARC llamado kins-00000.warc.gz.
Wget es poderoso, y hay muchos comandos y opciones que puedes usar. Por ejemplo, puede utilizar el comando--mirror
para crear un archivo WARC que contenga el espejo completo de tu sitio. También puedes utilizar el comando --no-warc-compression
para escribir archivos sin comprimir, aunque obviamente esto va a ocupar más espacio por descarga. El uso del compresor incorporado es el enfoque óptimo.
Resumen
El archivado web ha surgido de la necesidad de documentar la rápida evolución de Internet. Ahora tiene múltiples aplicaciones válidas, por ejemplo, en el caso de archivos y requisitos legales. Independientemente de tus necesidades, tener un archivo bien estructurado y organizado puede complementar tu estrategia general de copias de seguridad.
Afortunadamente, existen muchas soluciones disponibles para ayudarte. La mayoría de los navegadores ofrecen la posibilidad de guardar una página web en el ordenador, aunque soluciones como DevKinsta también son herramientas capaces de realizar este trabajo. Sin embargo, las herramientas de archivo dedicadas, como Wayback Machine, Heritrix, WAIL y Wget, son soluciones especialmente sólidas y ofrecen formatos de archivo estandarizados para trabajar.
¿Te ha llevado este artículo a querer archivar un sitio web propio? Comparte tus ideas y opiniones en la sección de comentarios más abajo.
Deja una respuesta