A manutenção do seu website envolve ter uma estratégia de backup dedicada. Embora os backups sejam essenciais, eles não são a única maneira de preservar seu site. A extensão natural do backup é arquivar um site – embora sejam processos complementares.

Há várias maneiras flexíveis de arquivar um website. A grande novidade é que todos eles são de fácil utilização e acessíveis. Você só precisa escolher a solução certa para suas necessidades e exigências.

Neste artigo, vamos dar uma olhada em como arquivar um website. Também exploraremos diferentes tipos de arquivamento que você encontrará, reuniremos algumas das mais proeminentes ferramentas de arquivamento de sites e discutiremos algumas dicas para arquivar seu site.

Uma introdução ao arquivamento de websites

Arquivar um website significa preservar o conteúdo, os dados e a mídia para referência futura. Usando um serviço dedicado, como o Wayback Machine (embora possamos encontrar outras soluções mais tarde), você pode visualizar versões mais antigas de um website.

Como era o site Kinsta em 2015 - percorremos um longo caminho!

Como era o site Kinsta em 2015 – percorremos um longo caminho!

Em nível técnico, os crawlers (Rastreadore web) tiram fotos de um site, que constitui o próprio arquivo. Você pode acessá-lo usando um calendário simples e visualizar cada iteração em um formato de linha do tempo, se desejar.

O arquivo do calendário da Wayback Machine para o website da Kinsta.

O arquivo do calendário da Wayback Machine para o website da Kinsta.

Quanto ao porquê de existirem soluções como a Wayback Machine, temos que voltar ao início dos anos 2000. A bolha ponto-com estava quase explodindo; muitos negócios estavam em queda. Alguns sites populares foram encerrados ou abandonados, com poucas lembranças deixadas para trás.

Assim como outros formatos de mídia antes da Internet, tais como música e televisão, estes websites tinham valor histórico e nostálgico. Salvá-los significava dar aos futuros usuários da Internet um vislumbre de quão longe estávamos da tecnologia anterior.

O Internet Archive lançou a Wayback Machine para ajudar a preservar os websites. Se um site foi arquivado ali, você pode ver como um site evoluiu ao longo dos anos.

Muitos crawlers (Rastreador web) são necessários para arquivar um website, incluindo enormes rastreamentos individuais que podem levar anos para serem completados. O grunhido necessário para realizar “expedições” de rastreamento e armazenar os instantâneos resultantes é imenso.

Por exemplo, o primeiro servidor de 100 Terabytes (TB) da Wayback Machine tornou-se operacional em 2004. No final de 2020, a Wayback Machine tinha armazenado mais de 70 Petabytes (PB) de dados. Isso é mais de 70.000 Terabytes.

No entanto, nem todos se sentem confortáveis com o trabalho que o Arquivo da Internet está fazendo. Tem havido várias discussões e desafios legais baseados em se um arquivo de um site quebra as questões de direitos autorais existentes.

Ainda assim, dado o considerável crescimento do número de arquivos armazenados, há um claro desejo de preservar os websites.

Pronto para arquivar seu site? 👀 Boas notícias: é um processo razoavelmente fácil de usar. 😄 A parte mais importante é escolher a solução certa para as necessidades e exigências do seu site. Veja todas as opções aqui ⬇️Click to Tweet

Por que você gostaria de arquivar um site

Há muitas razões para querer arquivar um website, além de simplesmente por razões nostálgicas. Para uma analogia do mundo real, veja o GitHub.

A infra-estrutura do GitHub é muito parecida com um arquivo na Internet.

A infra-estrutura do GitHub é muito parecida com um arquivo na Internet.

Github armazena os repositórios de um projeto, junto com cada “compromisso” feito. Para comparar isso com o arquivamento pela internet, os repositórios representam todo o arquivo, e os commits são os instantâneos.

Da mesma forma que os repositórios Git são valiosos, também o é um arquivo. Por exemplo, você pode olhar para iterações anteriores do seu site – mesmo de muitos anos atrás – para influenciar suas escolhas atuais de design.

Além disso, você pode ser legalmente obrigado a arquivar seu site, especialmente se você estiver no setor financeiro ou jurídico.

Finalmente, se você tiver a infelicidade de estar envolvido em litígios em torno do seu site, seus arquivos serão provas valiosas. Se você puder apresentar arquivos claros e completos do seu site, você pode desistir de disputas mesmo antes que os tribunais se envolvam.

A diferença entre backups e arquivamento

Antes de falarmos sobre os diferentes tipos de arquivamento da web disponíveis, vale a pena voltar a um tópico que abordamos anteriormente. No papel, um backup do site e um arquivo do site aparecem similares. No entanto, eles realizam trabalhos diferentes que se complementam. Em poucas palavras:

Vale a pena notar que o arquivamento não parece escapar completamente aos esforços de preservação de dados. De fato, um dos benefícios é deixar os usuários navegarem em seu site como se ele estivesse ao vivo. Mesmo assim, dado que sites como a Wayback Machine existem como uma “pista de memória” virtual, manter o visual intacto tem maior prioridade do que preservar a funcionalidade do backend.

Em resumo, você vai querer usar tanto os backups quanto os arquivos do seu site – o primeiro como proteção diária no caso de o pior acontecer, e o segundo como uma forma adicional de ajudar a documentar a evolução do seu site.

Os diferentes tipos de arquivamento da web que você vai encontrar

O arquivamento da web não vem apenas em um sabor. Há alguns tipos diferentes com os quais você vai se deparar. Aqui está uma lista de cada um:

Para websites simples com dados estáticos, juntamente com uma estratégia de arquivamento organizada, o arquivamento do lado do cliente deve se adequar à conta. Entretanto, a maioria dos outros sites favorecerá os arquivos do lado do servidor – o arquivamento baseado em transações não é necessário para a maioria dos sites.

Finalmente – e discutiremos isto com mais detalhes durante todo o pós-venda – você também vai querer considerar onde e como seus arquivos são armazenados. Por exemplo, um arquivo local não é uma má escolha, mas você poderá vê-lo desaparecer se tiver uma falha no computador. No outro lado, você tem menos controle sobre o que está arquivado se optar por uma solução de terceiros.

Como você esperaria, a resposta aqui é usar uma abordagem multifacetada para arquivar um website. Sugerimos tratar os arquivos como backups: mantenha três cópias diferentes em locais separados e sincronizados de alguma forma.

Você pode querer fazer um dos arquivos ao vivo também, para que você possa aproveitar qualquer funcionalidade do lado do servidor em seu site. O resultado é um site com um backup robusto e uma estratégia de arquivo que permanece útil para outros.

Um Guia para Iniciantes em Ferramentas e Sites de Arquivo da Internet

Há uma infinidade de soluções disponíveis para arquivar um website. Vamos analisar algumas das mais populares, juntamente com nossa opinião sobre como isso pode lhe servir.

1. Wayback Machine

A Wayback Machine.

A Wayback Machine.

Em primeiro lugar, vamos discutir a Wayback Machine. Ela foi a primeira do seu tipo, por isso estabeleceu a referência para outras ferramentas de arquivamento.

Como tal, provavelmente será o primeiro lugar quando se procura arquivar um website. Ele tem muitas maneiras de criar e carregar arquivos, e até mesmo uma API dedicada para se conectar a sua funcionalidade. Vale a pena notar que também é uma solução de arquivo do lado do servidor.

Dito isto, devido à forma como rastreia e arquiva os websites, a Wayback Machine pode não ser capaz de preservar toda a funcionalidade do seu site. No entanto, é considerado o padrão da indústria para arquivistas da web, e é totalmente gratuito. Mostraremos a você como arquivar um site com mais detalhes usando a Wayback Machine mais adiante neste artigo.

2. Archive.today

O site Archive.today.

O site Archive.today.

O próximo é o Archive.today. É semelhante em muitos aspectos à Wayback Machine mesmo até o projeto quase “retro” do site. Seus servidores de dados são baseados na Europa, mas aborda o arquivamento de forma diferente da Wayback Machine.

Para começar, Archive.today não se baseia em crawlers (Rastreadores) que correm pela web. Em vez disso, você submete suas URLs e consente com a inclusão no arquivo. Além disso, sua lista de recursos é mais barata do que outras soluções. Não há uma política robusta de exclusão, por exemplo, e o processo de arquivamento exclui certas mídias e tipos de arquivo.

Mesmo assim, é gratuito e adequado se você quiser um lugar de cortesia para armazenar arquivos. O site tem até funcionalidade de busca para encontrar sites previamente arquivados.

3. Heritrix

O site da Heritrix.

O site da Heritrix.

Mencionamos o Arquivo da Internet e a Wayback Machine quase que intercambiavelmente neste artigo até agora. A Wayback Machine é apenas um serviço, porém, e o Internet Archive oferece alguns outros produtos de arquivamento, além dele. Heritrix é uma ferramenta gratuita e de código aberto, nascida de uma colaboração entre o Internet Archive e as bibliotecas nórdicas.

É essencialmente um rastreador da web em vez de uma ferramenta de arquivamento completa. No entanto, é possível agrupar todos os resultados rastreados. Embora este não tenha sido o caso no passado, a Wayback Machine agora usa a Heritrix para rastrear sites para inclusão em seu próprio site. Além disso, um grande número de bibliotecas e instituições usam o Heritrix para construir arquivos.

Apesar de suas características impressionantes, a instalação do Heritrix requer algum know-how técnico. Não há uma interface amigável para instalá-lo para você, então você precisará de conhecimento de Git, GitHub e da linha de comando.

Como em outras soluções similares, a Heritrix é totalmente livre para uso, portanto é adequada como uma solução de auto-arquivamento econômica.

4. Web Archiving Integration Layer (WAIL)

O site da Web Archiving Integration Layer (WAIL).

O site da Web Archiving Integration Layer (WAIL).

Se você está olhando para o Heritrix para arquivar um site, mas é adiado pelo conhecimento técnico necessário para simplesmente instalar o software, há uma solução potencial para você. A Web Archiving Integration Layer (WAIL) é um aplicativo gratuito e de código aberto para desktop que lhe dá uma Interface Gráfica de Usuário (GUI) funcional para usar, junto com um instalador.

A boa notícia é que Heritrix é o motor rastreador do WAIL. Isso significa que você pode alavancar o poder do Heritrix sem ter que atravessar GitHub e a linha de comando. Além disso, o WAIL usa o motor OpenWayback para “reproduzir” os arquivos da web.

Como tal, você tem uma ferramenta completa de arquivamento da web pronta para ser usada em sua máquina. Também mostraremos a você exatamente como o WAIL funciona mais tarde no artigo.

5. Stillio

O site de Stillio.

O site de Stillio.

Nossa penúltima ferramenta de arquivamento é faturada como uma solução automatizada que tira instantâneos em intervalos determinados. Stillio é um serviço premium que parece e sente-se diferente de outras soluções de arquivamento.

O website tem uma aparência atraente e oferece inúmeras opções para criar um arquivo que atenda exatamente às suas necessidades. Por exemplo, você é capaz de adicionar tags e títulos personalizados a suas URLs.

Além disso, você pode optar por armazenar arquivos no Dropbox, Google Drive e outros serviços de terceiros.

No entanto, Stillio tem um grande inconveniente: não suporta o arquivamento back-end. Você está restrito a capturas de tela do seu website ao invés de um arquivo completo de dados. Para muitas aplicações, isto não é suficiente.

Entretanto, Stillio poderia ser útil em alguns casos, tais como servir como uma ferramenta de gerenciamento e rastreamento de marcas. Por exemplo, você pode tirar screenshots de sites concorrentes ou resultados de mecanismos de busca. Também é ótimo para a verificação de conteúdo.

O preço de Stillio começa em US$ 29 por mês e sobe em quatro níveis até US$ 299 por mês. É um grande pedido, especialmente quando existem alternativas gratuitas com características mais poderosas. Mas se ele se encaixa perfeitamente no seu caso de uso, então vale a pena dar uma olhada!

6. Pagefreezer

O site do Pagefreezer.

O site do Pagefreezer.

Nossa solução final é outra ferramenta automatizada. O Pagefreezer oferece muitos dos mesmos benefícios do Stillio, mas também arquiva conteúdo de mídia social, mensagens de texto, sites completos e plataformas de colaboração de nível empresarial.

Na superfície, o Pagefreezer parece ser uma solução mais robusta que o Stillio e teria maior valor em vários casos de uso.

Por exemplo, onde você é legalmente obrigado a arquivar um site por completo, o Pagefreezer se encaixa na conta. Ele permite que você automatize o número de instantâneos e os reveja usando um navegador de arquivo de site e uma ferramenta de comparação.

Em geral, o Pagefreezer é uma ótima solução de nível empresarial para o arquivamento do local de trabalho. As empresas que utilizam Yammer ou Salesforce’s Chatter irão gravitar para este tipo de solução, assim como os usuários do local de trabalho.

Qual é o formato do arquivo da Web (WARC)?

Se você estiver pesquisando como arquivar um website, você se deparará com o formato de Arquivo da Web (WARC). É uma combinação empacotada dos vários arquivos do seu site para que ele seja portátil e auto-contido.

O Arquivo da Internet criou a WARC para preservar os dados da web a longo prazo. O Consórcio Internacional de Preservação da Internet (IIPC) publicou a especificação completa do formato do arquivo. Ele armazenará imagens, metadados e praticamente tudo o que seu site precisa para rodar de forma autônoma.

Embora originalmente fosse apenas um formato de arquivo útil, a WARC é agora uma norma internacional ISO para arquivos digitais. Como tal, ela foi adotada por governos e outros órgãos oficiais. Na verdade, há vários casos de uso em que um arquivo da WARC é vital:

A WARC é utilizada por muitas soluções de arquivamento e rastreadores diferentes, tais como StormCrawler e Apache Nutch. Você também pode ajustar as configurações de uma ferramenta de linha de comando, como Wget para buscar e empacotar pedidos como arquivos WARC. Discutiremos isto com mais detalhes em breve.

Há muitas outras ferramentas que também podem ser utilizadas nos arquivos da WARC. Por exemplo, o pacote de ferramentas de salvamento de páginas web de código aberto pode fazer isso.

Como alternativa, o site de busca é um aplicativo baseado na web para ajudar no rastreamento de arquivos como arquivos da WARC.

A abertura de um arquivo WARC depende da ferramenta que você está usando. Independente da solução que você preferir, tenha em mente que algumas dessas ferramentas não foram atualizadas há algum tempo.

Como tal, você vai querer ter certeza de que sua solução escolhida funciona com seu sistema atual e que estará disponível para uso no futuro. Você estará poupando muitas dores de cabeça se evitar uma ferramenta que pode acabar descontinuada ou abandonada enquanto você estiver no meio de um projeto de arquivamento.

Dicas para gerenciar seus arquivos off-line

Antes de entrarmos na forma de arquivar um website, vamos dedicar alguns minutos para ajudá-lo a organizar seus arquivos existentes. Já abordamos o assunto, mas ter uma abordagem sólida no local tornará seus arquivos mais manejáveis. Os usuários do seu site também terão maior utilização de um arquivo bem organizado.

Há três elementos-chave que você tem que ter em mente:

Enquanto você poderia expandir ainda mais sua administração de arquivos, estas três dicas darão início ao seu arquivamento com o pé direito.

5 Maneiras de arquivar um site

A seguir, vamos sugerir cinco maneiras diferentes de arquivar um website. Encomendamos as soluções com base em sua relativa dificuldade. Entretanto, se você encontrar uma solução que você acha que irá funcionar para suas necessidades atuais, sinta-se à vontade para mergulhar e encontrar mais.

1. Salve uma única página em seu computador local

Em primeiro lugar, vamos discutir a solução mais simples. É ótimo se você precisar arquivar uma única página, e ainda melhor, a funcionalidade já está em praticamente todos os navegadores.

Lutando contra o tempo de inatividade e problemas com o WordPress? Kinsta é uma solução de hospedagem com desempenho otimizado projetada para economizar seu tempo. Confira nossas características

Para começar, abra seu navegador favorito e vá para o site que você gostaria de arquivar. Uma vez carregada a página, navegue até o menu Arquivo do seu navegador e encontre a opção Salvar página como opção:

O menu File do Firefox contém a funcionalidade que você precisa para salvar uma única página web.

O menu File do Firefox contém a funcionalidade que você precisa para salvar uma única página web.

Em seguida, clique na opção para salvar a página, quando o navegador lhe mostrará uma caixa de diálogo.

Aqui, escolha um nome para sua página (embora o padrão seja bom). Além disso, certifique-se de que você está salvando a página inteira em vez de apenas o HTML. Ele preservará o site com a maior funcionalidade possível.

2. Use DevKinsta para arquivar seu site WordPress

A DevKinsta também pode ajudá-lo a arquivar um website.

A DevKinsta também pode ajudá-lo a arquivar um website.

Pensamos que DevKinsta é uma ferramenta essencial para criar e implantar sites WordPress. No entanto, ele também tem outro fio em seu arco: ele ajuda você a arquivar seus sites hospedados na Kinsta também.

Cobrimos todo o processo de mover um backup externo MyKinsta para o DevKinsta em um de nossos artigos de base de conhecimento. Para resumir:

Neste ponto, você pode abrir seu site no DevKinsta e usá-lo como se fosse ao vivo.

3. Use um Arquivo Online (como o Wayback Machine)

Nenhum tutorial estaria completo sem lhe mostrar como a Wayback Machine funciona. Felizmente, o processo é simples. Dito isto, observe que este método só permite arquivar páginas individuais (embora a assinatura Archive-It service permita arquivar sites completos).

Para esta abordagem, vá para a página inicial da Wayback Machine e confira o formulário Salvar Página Agora:

O formulário Salvar página agora no site da Wayback Machine.

O formulário Salvar página agora no site da Wayback Machine.

Para arquivar uma página, basta adicionar a URL que você deseja salvar a este formulário e, em seguida, clicar em Salvar página. Dependendo do tamanho ou complexidade da página, você pode precisar esperar alguns minutos enquanto o rastreador e o motor fazem suas coisas. Pode ser que a página pareça estar travada. Fomos confrontados com uma Tela Branca da Morte (WSoD) por um tempo em nossos testes.

Entretanto, uma vez que a página tenha sido arquivada, a Wayback Machine o redirecionará para a nova página dedicada.

Uma página Kinsta arquivada na Wayback Machine.

Uma página Kinsta arquivada na Wayback Machine.

Note que você também pode usar um bookmarklet e uma extensão do navegador para arquivar um website. Na verdade, a maioria dos navegadores atuais tem estas opções fora da caixa, incluindo Google Chrome, Firefox, e Safari.

4. Instalar a Web Archiving Integration Layer (WAIL)

Seu primeiro passo com esta abordagem é baixar o próprio WAIL e instalá-lo. Felizmente, há um instalador dedicado para a ferramenta (embora porque o programa é escrito em Python, ele usa o módulo PyInstaller).

O processo de instalação é uma brisa. Independentemente do seu sistema operacional (SO), você pode realizar o seguinte:

Uma vez que o WAIL esteja aberto, você verá sua interface mínima:

A interface WAIL lhe dá três opções.

A interface WAIL lhe dá três opções.

Agora você tem três opções para escolher: visualizar um arquivo, verificar seu status ou arquivar um website. Os botões são ligeiramente confusos, pois sua inclinação natural pode ser a de ler da esquerda para a direita. No entanto, no primeiro lançamento, você não terá nada em seus arquivos.

Em vez disso, digite a URL do site que você deseja arquivar, e clique em Arquivar Agora! Você verá o WAIL começar a rastrear o site. Você pode verificar o status do seu rastreamento na guia Avançado > Heritrix:

WAIL mostrando o status atual do trabalho de rastejamento.

WAIL mostrando o status atual do trabalho de rastreamento.

Quando estiver pronto, ele lhe mostrará uma mensagem de “Sucesso”. Neste ponto, você pode clicar no botão Exibir arquivo na guia Básico. Isto abrirá seu site arquivado em um navegador, pronto para que você o visualize.

5. Use o Wget se você estiver confortável usando a linha de comando

Para nosso método final de arquivamento de um website, você precisará de algumas coisas antes de começar:

É provável que você já tenha os dois primeiros.

Em macOS, você pode instalar Wget através do Homebrew com o comando brew install wget. Note que você também precisa instalar o homebrew, mas isso leva apenas alguns segundos. No Linux, o Wget é pré-instalado na maioria das grandes distribuições.

Se você é um usuário do Windows, talvez tenha mais dificuldade para instalar o Wget em seu computador. Embora haja tutoriais disponíveis em toda a web, sua orientação não parece consistente entre as máquinas. Em vez disso, recomendamos que você vá até o site oficial do Wget e confira alguns dos binários disponíveis no Windows, pois estes são mais propensos a funcionar para você.

Independentemente disso, uma vez instalado o Wget, usá-lo é simples. Primeiro, navegue até um diretório em uma nova janela de terminal. Aqui, estamos criando o diretório também, mas esta etapa é opcional:

cd documents && mkdir archive && cd archive

Note que a Wget irá mover todos os downloads para qualquer que seja o diretório de trabalho. Neste caso, nós especificamos uma pasta para nossos arquivos.

A seguir, você vai querer rastrear um site e mover os arquivos. Cada ação é invocada usando o comando wget, e você vai querer usar o seguinte formato:

wget "https://kinsta.com/" --warc-file="kins"

Pressionando a tecla Enter, começará o download de kinsta.com para um arquivo index.html e criará um arquivo WARC chamado kins-00000.warc.gz.

Um site arquivado como um arquivo da WARC.

Um site arquivado como um arquivo da WARC.

Wget é poderoso, e há muitos comandos e opções que você pode usar. Por exemplo, você pode usar o comando --mirror para criar um arquivo WARC contendo o espelho completo do seu site. Você também pode usar o comando --no-warc-compression para escrever arquivos sem compressão, embora isto obviamente ocupará mais espaço por download. O uso do compressor incorporado é a abordagem ideal.

O arquivamento do seu site é como ganhar um tempinho ⏳... e, felizmente, é simples começar com a ajuda deste guia. ✅Click to Tweet

Resumo

O arquivamento da web cresceu a partir da necessidade de documentar as rápidas mudanças na forma da internet. Agora tem múltiplas aplicações válidas – por exemplo, no caso de arquivos e exigências legais. Independentemente de sua necessidade, ter um arquivo bem estruturado e organizado pode complementar sua estratégia geral de backup.

Felizmente, há muitas soluções disponíveis para ajudar. A maioria dos navegadores oferece a possibilidade de salvar uma página web em seu computador, embora soluções como DevKinsta também sejam ferramentas capazes para o trabalho. Entretanto, ferramentas de arquivamento dedicadas como a Wayback Machine, Heritrix, WAIL e Wget são todas soluções particularmente robustas e oferecem formatos de arquivo padronizados para trabalhar.

Este artigo o levou a querer arquivar um site próprio? Compartilhe seus pensamentos e opiniões na seção de comentários abaixo!


Se você gostou deste artigo, então você vai adorar a plataforma de hospedagem WordPress da Kinsta. Turbine seu site e obtenha suporte 24/7 de nossa experiente equipe de WordPress. Nossa infraestrutura baseada no Google Cloud se concentra em escalabilidade automática, desempenho e segurança. Deixe-nos mostrar-lhe a diferença Kinsta! Confira nossos planos