A manutenção do seu site envolve ter uma estratégia de backup dedicada. Embora os backups sejam essenciais, eles não são a única maneira de preservar seu site. A extensão natural do backup é arquivar um site – embora sejam processos complementares.
Há várias maneiras flexíveis de arquivar um site. A grande novidade é que todos eles são de fácil utilização e acessíveis. Você só precisa escolher a solução certa para suas necessidades e exigências.
Neste artigo, vamos dar uma olhada em como arquivar um site. Também exploraremos diferentes tipos de arquivamento que você encontrará, reuniremos algumas das mais proeminentes ferramentas de arquivamento de sites e discutiremos algumas dicas para arquivar seu site.
Uma introdução ao arquivamento de sites
Arquivar um site significa preservar o conteúdo, os dados e a mídia para referência futura. Usando um serviço dedicado, como o Wayback Machine (embora possamos encontrar outras soluções mais tarde), você pode visualizar versões mais antigas de um site.
Em nível técnico, os crawlers (Rastreadore web) tiram fotos de um site, que constitui o próprio arquivo. Você pode acessá-lo usando um calendário simples e visualizar cada iteração em um formato de linha do tempo, se desejar.
Quanto ao porquê de existirem soluções como a Wayback Machine, temos que voltar ao início dos anos 2000. A bolha ponto-com estava quase explodindo; muitos negócios estavam em queda. Alguns sites populares foram encerrados ou abandonados, com poucas lembranças deixadas para trás.
Assim como outros formatos de mídia antes da Internet, tais como música e televisão, estes sites tinham valor histórico e nostálgico. Salvá-los significava dar aos futuros usuários da Internet um vislumbre de quão longe estávamos da tecnologia anterior.
O Internet Archive lançou a Wayback Machine para ajudar a preservar os sites. Se um site foi arquivado ali, você pode ver como um site evoluiu ao longo dos anos.
Muitos crawlers (Rastreador web) são necessários para arquivar um site, incluindo enormes rastreamentos individuais que podem levar anos para serem completados. O grunhido necessário para realizar “expedições” de rastreamento e armazenar os instantâneos resultantes é imenso.
Por exemplo, o primeiro servidor de 100 Terabytes (TB) da Wayback Machine tornou-se operacional em 2004. No final de 2020, a Wayback Machine tinha armazenado mais de 70 Petabytes (PB) de dados. Isso é mais de 70.000 Terabytes.
No entanto, nem todos se sentem confortáveis com o trabalho que o Arquivo da Internet está fazendo. Tem havido várias discussões e desafios legais baseados em se um arquivo de um site quebra as questões de direitos autorais existentes.
Ainda assim, dado o considerável crescimento do número de arquivos armazenados, há um claro desejo de preservar os sites.
Por que você gostaria de arquivar um site
Há muitas razões para querer arquivar um site, além de simplesmente por razões nostálgicas. Para uma analogia do mundo real, veja o GitHub.
Github armazena os repositórios de um projeto, junto com cada “compromisso” feito. Para comparar isso com o arquivamento pela internet, os repositórios representam todo o arquivo, e os commits são os instantâneos.
Da mesma forma que os repositórios Git são valiosos, também o é um arquivo. Por exemplo, você pode olhar para iterações anteriores do seu site – mesmo de muitos anos atrás – para influenciar suas escolhas atuais de design.
Além disso, você pode ser legalmente obrigado a arquivar seu site, especialmente se você estiver no setor financeiro ou jurídico.
Finalmente, se você tiver a infelicidade de estar envolvido em litígios em torno do seu site, seus arquivos serão provas valiosas. Se você puder apresentar arquivos claros e completos do seu site, você pode desistir de disputas mesmo antes que os tribunais se envolvam.
A diferença entre backups e arquivamento
Antes de falarmos sobre os diferentes tipos de arquivamento da web disponíveis, vale a pena voltar a um tópico que abordamos anteriormente. No papel, um backup do site e um arquivo do site aparecem similares. No entanto, eles realizam trabalhos diferentes que se complementam. Em poucas palavras:
- Os backups são baseados em dados. Eles estão mais preocupados em preservar os dados do seu site. Dado que os backups são vitais se você precisar restaurar seu site, ter um backup completo de seus dados é fundamental.
- Os arquivos preservam o contexto sobre os dados. Se você percorrer o arquivo do seu site favorito, você notará que a funcionalidade é muitas vezes irregular. Entretanto, o design e o conteúdo estático do site geralmente estão intactos.
Vale a pena notar que o arquivamento não parece escapar completamente aos esforços de preservação de dados. De fato, um dos benefícios é deixar os usuários navegarem em seu site como se ele estivesse ao vivo. Mesmo assim, dado que sites como a Wayback Machine existem como uma “pista de memória” virtual, manter o visual intacto tem maior prioridade do que preservar a funcionalidade do backend.
Em resumo, você vai querer usar tanto os backups quanto os arquivos do seu site – o primeiro como proteção diária no caso de o pior acontecer, e o segundo como uma forma adicional de ajudar a documentar a evolução do seu site.
Os diferentes tipos de arquivamento da web que você vai encontrar
O arquivamento da web não vem apenas em um sabor. Há alguns tipos diferentes com os quais você vai se deparar. Aqui está uma lista de cada um:
- Lado do cliente: envolve o usuário final salvando uma versão do site em questão. É simples, escalável e permite arquivar um site sem alarde.
- Lado do servidor: A abordagem da Wayback Machine e outras é classificada como arquivamento do lado do servidor. Ela usa Rastreador web e outras tecnologias para arquivar um site, mas também requer um nível de consentimento não encontrado no arquivamento do lado do cliente.
- Baseado nas transações: Embora isto ainda seja baseado no arquivamento do lado do servidor, é mais complexo e requer o consentimento explícito do proprietário do site. Essencialmente, ele arquiva as transações do site entre o usuário final e o servidor.
Para sites simples com dados estáticos, juntamente com uma estratégia de arquivamento organizada, o arquivamento do lado do cliente deve se adequar à conta. Entretanto, a maioria dos outros sites favorecerá os arquivos do lado do servidor – o arquivamento baseado em transações não é necessário para a maioria dos sites.
Finalmente – e discutiremos isto com mais detalhes durante todo o pós-venda – você também vai querer considerar onde e como seus arquivos são armazenados. Por exemplo, um arquivo local não é uma má escolha, mas você poderá vê-lo desaparecer se tiver uma falha no computador. No outro lado, você tem menos controle sobre o que está arquivado se optar por uma solução de terceiros.
Como você esperaria, a resposta aqui é usar uma abordagem multifacetada para arquivar um site. Sugerimos tratar os arquivos como backups: mantenha três cópias diferentes em locais separados e sincronizados de alguma forma.
Você pode querer fazer um dos arquivos ao vivo também, para que você possa aproveitar qualquer funcionalidade do lado do servidor em seu site. O resultado é um site com um backup robusto e uma estratégia de arquivo que permanece útil para outros.
Um guia para iniciantes em ferramentas de arquivamento da web e sites de arquivo
Há uma infinidade de soluções disponíveis para arquivar um site. Vamos analisar algumas das mais populares, juntamente com nossa opinião sobre como isso pode lhe servir.
1. Wayback Machine
Em primeiro lugar, vamos discutir a Wayback Machine. Ela foi a primeira do seu tipo, por isso estabeleceu a referência para outras ferramentas de arquivamento.
Como tal, provavelmente será o primeiro lugar quando se procura arquivar um site. Ele tem muitas maneiras de criar e carregar arquivos, e até mesmo uma API dedicada para se conectar a sua funcionalidade. Vale a pena notar que também é uma solução de arquivo do lado do servidor.
Dito isto, devido à forma como rastreia e arquiva os sites, a Wayback Machine pode não ser capaz de preservar toda a funcionalidade do seu site. No entanto, é considerado o padrão da indústria para arquivistas da web, e é totalmente gratuito. Mostraremos a você como arquivar um site com mais detalhes usando a Wayback Machine mais adiante neste artigo.
2. Archive.today
O próximo é o Archive.today. É semelhante em muitos aspectos à Wayback Machine mesmo até o projeto quase “retro” do site. Seus servidores de dados são baseados na Europa, mas aborda o arquivamento de forma diferente da Wayback Machine.
Para começar, Archive.today não se baseia em crawlers (Rastreadores) que correm pela web. Em vez disso, você submete suas URLs e consente com a inclusão no arquivo. Além disso, sua lista de recursos é mais barata do que outras soluções. Não há uma política robusta de exclusão, por exemplo, e o processo de arquivamento exclui certas mídias e tipos de arquivo.
Mesmo assim, é gratuito e adequado se você quiser um lugar de cortesia para armazenar arquivos. O site tem até funcionalidade de busca para encontrar sites previamente arquivados.
3. Heritrix
Mencionamos o Arquivo da Internet e a Wayback Machine quase que intercambiavelmente neste artigo até agora. A Wayback Machine é apenas um serviço, porém, e o Internet Archive oferece alguns outros produtos de arquivamento, além dele. Heritrix é uma ferramenta gratuita e de código aberto, nascida de uma colaboração entre o Internet Archive e as bibliotecas nórdicas.
É essencialmente um rastreador da web em vez de uma ferramenta de arquivamento completa. No entanto, é possível agrupar todos os resultados rastreados. Embora este não tenha sido o caso no passado, a Wayback Machine agora usa a Heritrix para rastrear sites para inclusão em seu próprio site. Além disso, um grande número de bibliotecas e instituições usam o Heritrix para construir arquivos.
Apesar de suas características impressionantes, a instalação do Heritrix requer algum know-how técnico. Não há uma interface amigável para instalá-lo para você, então você precisará de conhecimento de Git, GitHub e da linha de comando.
Como em outras soluções similares, a Heritrix é totalmente livre para uso, portanto é adequada como uma solução de auto-arquivamento econômica.
4. Web Archiving Integration Layer (WAIL)
Se você está olhando para o Heritrix para arquivar um site, mas é adiado pelo conhecimento técnico necessário para simplesmente instalar o software, há uma solução potencial para você. A Web Archiving Integration Layer (WAIL) é um aplicativo gratuito e de código aberto para desktop que lhe dá uma Interface Gráfica de Usuário (GUI) funcional para usar, junto com um instalador.
A boa notícia é que Heritrix é o motor rastreador do WAIL. Isso significa que você pode alavancar o poder do Heritrix sem ter que atravessar GitHub e a linha de comando. Além disso, o WAIL usa o motor OpenWayback para “reproduzir” os arquivos da web.
Como tal, você tem uma ferramenta completa de arquivamento da web pronta para ser usada em sua máquina. Também mostraremos a você exatamente como o WAIL funciona mais tarde no artigo.
5. Stillio
Nossa penúltima ferramenta de arquivamento é faturada como uma solução automatizada que tira instantâneos em intervalos determinados. Stillio é um serviço premium que parece e sente-se diferente de outras soluções de arquivamento.
O site tem uma aparência atraente e oferece inúmeras opções para criar um arquivo que atenda exatamente às suas necessidades. Por exemplo, você é capaz de adicionar tags e títulos personalizados a suas URLs.
Além disso, você pode optar por armazenar arquivos no Dropbox, Google Drive e outros serviços de terceiros.
No entanto, Stillio tem um grande inconveniente: não suporta o arquivamento back-end. Você está restrito a capturas de tela do seu site ao invés de um arquivo completo de dados. Para muitas aplicações, isto não é suficiente.
Entretanto, Stillio poderia ser útil em alguns casos, tais como servir como uma ferramenta de gerenciamento e rastreamento de marcas. Por exemplo, você pode tirar screenshots de sites concorrentes ou resultados de mecanismos de busca. Também é ótimo para a verificação de conteúdo.
O preço do Stillio começa em US$ 29 por mês e sobe em quatro níveis até US$ 299 por mês. É um grande pedido, especialmente quando existem alternativas gratuitas com características mais poderosas. Mas se ele se encaixa perfeitamente no seu caso de uso, então vale a pena dar uma olhada!
6. Pagefreezer
Nossa solução final é outra ferramenta automatizada. O Pagefreezer oferece muitos dos mesmos benefícios do Stillio, mas também arquiva conteúdo de mídia social, mensagens de texto, sites completos e plataformas de colaboração de nível empresarial.
Na superfície, o Pagefreezer parece ser uma solução mais robusta que o Stillio e teria maior valor em vários casos de uso.
Por exemplo, onde você é legalmente obrigado a arquivar um site por completo, o Pagefreezer se encaixa na conta. Ele permite que você automatize o número de instantâneos e os reveja usando um navegador de arquivo de site e uma ferramenta de comparação.
Em geral, o Pagefreezer é uma ótima solução de nível empresarial para o arquivamento do local de trabalho. As empresas que utilizam Yammer ou Salesforce’s Chatter irão gravitar para este tipo de solução, assim como os usuários do local de trabalho.
Qual é o formato do arquivo da Web (WARC)?
Se você estiver pesquisando como arquivar um site, você se deparará com o formato de Arquivo da Web (WARC). É uma combinação empacotada dos vários arquivos do seu site para que ele seja portátil e auto-contido.
O Arquivo da Internet criou a WARC para preservar os dados da web a longo prazo. O Consórcio Internacional de Preservação da Internet (IIPC) publicou a especificação completa do formato do arquivo. Ele armazenará imagens, metadados e praticamente tudo o que seu site precisa para rodar de forma autônoma.
Embora originalmente fosse apenas um formato de arquivo útil, a WARC é agora uma norma internacional ISO para arquivos digitais. Como tal, ela foi adotada por governos e outros órgãos oficiais. Na verdade, há vários casos de uso em que um arquivo da WARC é vital:
- E-discovery: É o processo durante o litígio onde os registros digitais são pesquisados e apresentados para inclusão em um julgamento. Para os registros de mídia social, um arquivo da WARC atende ao padrão legal do E-discovery.
- Liberdade de Informação (FOI): Há muitos governos e órgãos oficiais que utilizam as leis FOI e Open Records para oferecer um serviço de “Direito de Saber” (RTK) aos constituintes estaduais. O formato WARC é ideal em casos que envolvam registros digitais.
A WARC é utilizada por muitas soluções de arquivamento e rastreadores diferentes, tais como StormCrawler e Apache Nutch. Você também pode ajustar as configurações de uma ferramenta de linha de comando, como Wget para buscar e empacotar pedidos como arquivos WARC. Discutiremos isto com mais detalhes em breve.
Há muitas outras ferramentas que também podem ser utilizadas nos arquivos da WARC. Por exemplo, o pacote de ferramentas de salvamento de páginas web de código aberto pode fazer isso.
Como alternativa, o site de busca é um aplicativo baseado na web para ajudar no rastreamento de arquivos como arquivos da WARC.
A abertura de um arquivo WARC depende da ferramenta que você está usando. Independente da solução que você preferir, tenha em mente que algumas dessas ferramentas não foram atualizadas há algum tempo.
Como tal, você vai querer ter certeza de que sua solução escolhida funciona com seu sistema atual e que estará disponível para uso no futuro. Você estará poupando muitas dores de cabeça se evitar uma ferramenta que pode acabar descontinuada ou abandonada enquanto você estiver no meio de um projeto de arquivamento.
Dicas para gerenciar seus arquivos off-line
Antes de entrarmos na forma de arquivar um site, vamos dedicar alguns minutos para ajudá-lo a organizar seus arquivos existentes. Já abordamos o assunto, mas ter uma abordagem sólida no local tornará seus arquivos mais manejáveis. Os usuários do seu site também terão maior utilização de um arquivo bem organizado.
Há três elementos-chave que você tem que ter em mente:
- Freqüência: Decida com que freqüência você quer arquivar um site. Sites enormes, dinâmicos e complexos com mudanças quase diárias precisarão de instantâneos mais freqüentes do que os sites estáticos.
- Localização: Assim como os backups, você deve salvar arquivos em vários lugares diferentes, incluindo a nuvem. Siga a regra 3-2-1 para maior segurança. Também sugerimos mais do que isso se você quiser capturar toda a profundidade do seu site.
- Estrutura: Como os diretórios do seu computador, você deve procurar usar pastas explícitas, subdivididas em nomes dos arquivos do site e a data em que um site específico foi arquivado.
Enquanto você poderia expandir ainda mais sua administração de arquivos, estas três dicas darão início ao seu arquivamento com o pé direito.
5 Maneiras de arquivar um site
A seguir, vamos sugerir cinco maneiras diferentes de arquivar um site. Encomendamos as soluções com base em sua relativa dificuldade. Entretanto, se você encontrar uma solução que você acha que irá funcionar para suas necessidades atuais, sinta-se à vontade para mergulhar e encontrar mais.
1. Salve uma única página em seu computador local
Em primeiro lugar, vamos discutir a solução mais simples. É ótimo se você precisar arquivar uma única página, e ainda melhor, a funcionalidade já está em praticamente todos os navegadores.
Para começar, abra seu navegador favorito e vá para o site que você gostaria de arquivar. Uma vez carregada a página, navegue até o menu Arquivo do seu navegador e encontre a opção Salvar página como opção:
Em seguida, clique na opção para salvar a página, quando o navegador lhe mostrará uma caixa de diálogo.
Aqui, escolha um nome para sua página (embora o padrão seja bom). Além disso, certifique-se de que você está salvando a página inteira em vez de apenas o HTML. Ele preservará o site com a maior funcionalidade possível.
2. Use DevKinsta para arquivar seu site WordPress
Pensamos que DevKinsta é uma ferramenta essencial para criar e implantar sites WordPress. No entanto, ele também tem outro fio em seu arco: ele ajuda você a arquivar seus sites hospedados na Kinsta também.
Cobrimos todo o processo de mover um backup externo MyKinsta para o DevKinsta em um de nossos artigos de base de conhecimento. Para resumir:
- Crie e baixar um backup no MyKinsta.
- Crie um novo site com o DevKinsta.
- Importe seu conteúdo e banco de dados.
- Faça uma busca e substitua em seu banco de dados para mudar o nome da URL do seu site ao vivo para seu novo arquivo local.
Neste ponto, você pode abrir seu site no DevKinsta e usá-lo como se fosse ao vivo.
3. Use um arquivo on-line (como o Wayback Machine)
Nenhum tutorial estaria completo sem lhe mostrar como a Wayback Machine funciona. Felizmente, o processo é simples. Dito isto, observe que este método só permite arquivar páginas individuais (embora a assinatura Archive-It service permita arquivar sites completos).
Para esta abordagem, vá para a página inicial da Wayback Machine e confira o formulário Salvar Página Agora:
Para arquivar uma página, basta adicionar a URL que você deseja salvar a este formulário e, em seguida, clicar em Salvar página. Dependendo do tamanho ou complexidade da página, você pode precisar esperar alguns minutos enquanto o rastreador e o motor fazem suas coisas. Pode ser que a página pareça estar travada. Fomos confrontados com uma Tela Branca da Morte (WSoD) por um tempo em nossos testes.
Entretanto, uma vez que a página tenha sido arquivada, a Wayback Machine o redirecionará para a nova página dedicada.
Note que você também pode usar um bookmarklet e uma extensão do navegador para arquivar um site. Na verdade, a maioria dos navegadores atuais tem estas opções fora da caixa, incluindo Google Chrome, Firefox, e Safari.
4. Instale a Web Archiving Integration Layer (WAIL)
Seu primeiro passo com esta abordagem é baixar o próprio WAIL e instalá-lo. Felizmente, há um instalador dedicado para a ferramenta (embora porque o programa é escrito em Python, ele usa o módulo PyInstaller).
O processo de instalação é uma brisa. Independentemente do seu sistema operacional (SO), você pode realizar o seguinte:
- Navegue até o website WAIL e faça o download do instalador apropriado para seu sistema operacional.
- Ou descompacte o arquivo para a versão Windows, ou monte a imagem DMG para macOS.
- Na tela de diálogo resultante para macOS, arraste o ícone do aplicativo para sua pasta Applications. Para usuários do Windows, simplesmente arraste a pasta descompactada para sua unidade C:\
- Inici WAIL.app ou WAIL.exe (dependendo do seu sistema operacional).
Uma vez que o WAIL esteja aberto, você verá sua interface mínima:
Agora você tem três opções para escolher: visualizar um arquivo, verificar seu status ou arquivar um site. Os botões são ligeiramente confusos, pois sua inclinação natural pode ser a de ler da esquerda para a direita. No entanto, no primeiro lançamento, você não terá nada em seus arquivos.
Em vez disso, digite a URL do site que você deseja arquivar, e clique em Arquivar Agora! Você verá o WAIL começar a rastrear o site. Você pode verificar o status do seu rastreamento na guia Avançado > Heritrix:
Quando estiver pronto, ele lhe mostrará uma mensagem de “Sucesso”. Neste ponto, você pode clicar no botão Exibir arquivo na guia Básico. Isto abrirá seu site arquivado em um navegador, pronto para que você o visualize.
5. Use o Wget se você estiver confortável usando a linha de comando
Para nosso método final de arquivamento de um site, você precisará de algumas coisas antes de começar:
- Acesso à linha de comando do seu computador
- Uma ferramenta de linha de comando adequada, como Windows Command Prompt, ou Terminal em MacOS e Linux
- Wget instalado em seu computador
É provável que você já tenha os dois primeiros.
Em macOS, você pode instalar Wget através do Homebrew com o comando brew install wget
. Note que você também precisa instalar o homebrew, mas isso leva apenas alguns segundos. No Linux, o Wget é pré-instalado na maioria das grandes distribuições.
Se você é um usuário do Windows, talvez tenha mais dificuldade para instalar o Wget em seu computador. Embora haja tutoriais disponíveis em toda a web, sua orientação não parece consistente entre as máquinas. Em vez disso, recomendamos que você vá até o site oficial do Wget e confira alguns dos binários disponíveis no Windows, pois estes são mais propensos a funcionar para você.
Independentemente disso, uma vez instalado o Wget, usá-lo é simples. Primeiro, navegue até um diretório em uma nova janela de terminal. Aqui, estamos criando o diretório também, mas esta etapa é opcional:
cd documents && mkdir archive && cd archive
Note que a Wget irá mover todos os downloads para qualquer que seja o diretório de trabalho. Neste caso, nós especificamos uma pasta para nossos arquivos.
A seguir, você vai querer rastrear um site e mover os arquivos. Cada ação é invocada usando o comando wget
, e você vai querer usar o seguinte formato:
wget "https://kinsta.com/" --warc-file="kins"
Pressionando a tecla Enter, começará o download de kinsta.com para um arquivo index.html e criará um arquivo WARC chamado kins-00000.warc.gz.
Wget é poderoso, e há muitos comandos e opções que você pode usar. Por exemplo, você pode usar o comando --mirror
para criar um arquivo WARC contendo o espelho completo do seu site. Você também pode usar o comando --no-warc-compression
para escrever arquivos sem compressão, embora isto obviamente ocupará mais espaço por download. O uso do compressor incorporado é a abordagem ideal.
Resumo
O arquivamento da web cresceu a partir da necessidade de documentar as rápidas mudanças na forma da internet. Agora tem múltiplas aplicações válidas – por exemplo, no caso de arquivos e exigências legais. Independentemente de sua necessidade, ter um arquivo bem estruturado e organizado pode complementar sua estratégia geral de backup.
Felizmente, há muitas soluções disponíveis para ajudar. A maioria dos navegadores oferece a possibilidade de salvar uma página web em seu computador, embora soluções como DevKinsta também sejam ferramentas capazes para o trabalho. Entretanto, ferramentas de arquivamento dedicadas como a Wayback Machine, Heritrix, WAIL e Wget são todas soluções particularmente robustas e oferecem formatos de arquivo padronizados para trabalhar.
Este artigo o levou a querer arquivar um site próprio? Compartilhe seus pensamentos e opiniões na seção de comentários abaixo!
Deixe um comentário