Mantenere il vostro sito web implica avere una strategia di backup dedicata. Anche se i backup sono sempre essenziali, non sono l’unico modo per preservare il vostro sito. L’estensione naturale del backup è l’archiviazione di un sito web, anche se si tratta di un processo complementare.

Ci sono diversi modi flessibili per archiviare un sito web. La grande notizia è che sono tutti facili da usare e accessibili. Dovete solo scegliere la soluzione giusta per i vostri bisogni e le vostre esigenze.

In questo articolo, daremo un’occhiata a come archiviare un sito web. Esploreremo anche i diversi tipi di archiviazione che incontrerete, raccoglieremo alcuni dei più importanti strumenti di archiviazione del sito e discuteremo alcuni consigli per archiviarlo.

Un’Introduzione all’Archiviazione dei Siti Web

Archiviare un sito web significa preservare il contenuto, i dati e i media per riferimenti futuri. Utilizzando un servizio dedicato come Wayback Machine (anche se in seguito vedremo altre soluzioni), è possibile visualizzare le versioni precedenti di un sito web.

Come appariva il sito web di Kinsta nel 2015 - ne abbiamo fatta di strada!
Come appariva il sito web di Kinsta nel 2015 – ne abbiamo fatta di strada!

A livello tecnico, i crawler catturano delle istantanee di un sito web, che costituiscono l’archivio stesso. Potete accedervi usando un semplice calendario e visualizzando ogni iterazione in un formato temporale, se lo desiderate.

Il calendario d’archivio di Wayback Machine per il sito web di Kinsta.
Il calendario d’archivio di di Wayback Machine per il sito web di Kinsta.

Per scoprire il motivo per cui esistono soluzioni come la Wayback Machine, dobbiamo tornare ai primi anni 2000. La bolla delle dot-com era quasi scoppiata; molte aziende stavano fallendo. Alcuni siti web popolari furono chiusi o abbandonati, con pochi ricordi lasciati alle spalle.

Come altri media prima di internet, come la musica e la televisione, questi siti web avevano un valore storico e nostalgico. Salvarli significava dare ai futuri utenti di internet un’idea di quanto ci fossimo allontanati dalla tecnologia precedente.

L’Internet Archive ha lanciato la Wayback Machine per aiutare a preservare i siti web. Se un sito è stato archiviato lì, è possibile vedere come si è evoluto nel corso degli anni.

Per archiviare un sito web sono necessarie molti crawler, compresi enormi scansioni individuali che potrebbero richiedere anni per essere completate. Il lavoro necessario per effettuare queste “missioni” di crawling e archiviare le istantanee risultanti è immenso.

Per esempio, il primo server da 100 Terabyte (TB) di Wayback Machine è diventato operativo nel 2004. Alla fine del 2020, Wayback Machine aveva memorizzato oltre 70 Petabyte (PB) di dati. Cioè oltre 70.000 Terabyte.

Tuttavia, non tutti sono a proprio agio con il lavoro che l’Internet Archive sta facendo. Ci sono state diverse discussioni e sfide legali basate sul fatto che un archivio di un sito web infrange i problemi di copyright esistenti.

Eppure, data la notevole crescita del numero di archivi conservati, c’è un chiaro desiderio di preservare i siti web.

Perché Archiviare un Sito Web

Ci sono molte ragioni per voler archiviare un sito web, oltre a quelle semplicemente nostalgiche. Per un’analogia con il mondo reale, guardate GitHub.

L'infrastruttura di GitHub è molto simile a un archivio internet.
L’infrastruttura di GitHub è molto simile a un archivio internet.

Github memorizza i repository di un progetto, insieme a ogni “commit” fatto. Per paragonare questo all’archiviazione su internet, i repository rappresentano l’intero archivio, e i commit sono le istantanee.

Se i repository Git sono preziosi, anche un archivio lo è. Per esempio, potete dare un’occhiata alle precedenti iterazioni del vostro sito, anche di molti anni fa, per orientare le vostre attuali scelte di design.

Inoltre, potreste essere legalmente obbligati ad archiviare il vostro sito, specialmente se operate nel settore finanziario o legale.

Infine, se siete abbastanza sfortunati da essere coinvolti in una controversia che riguarda il vostro sito, gli archivi saranno una prova preziosa. Se riuscite a presentare archivi del sito chiari e completi, potete evitare controversie anche prima che i tribunali vengano coinvolti.

La Differenza tra Backup e Archiviazione

Prima di parlare dei diversi tipi di archiviazione web disponibili, vale la pena tornare su un argomento che abbiamo toccato prima. Sulla carta, il backup di un sito e l’archivio di un sito web sembrano simili. Tuttavia, svolgono lavori diversi che si completano a vicenda. In poche parole:

  • I backup sono basati sui dati. Sono più interessati a preservare i dati del vostro sito. Dato che i backup sono vitali se avete bisogno di ripristinare il vostro sito, avere un backup completo dei dati è fondamentale.
  • Gli archivi preservano il contesto rispetto ai dati. Se cercate nell’archivio del vostro sito web preferito, noterete che la funzionalità è spesso discontinua. Tuttavia, il design del sito e il contenuto statico sono di solito intatti.

Vale la pena notare che l’archiviazione non sembra evitare del tutto gli sforzi di conservazione dei dati. Infatti, uno dei vantaggi è quello di permettere agli utenti di navigare nel vostro sito come se fosse dal vivo. Anche così, dato che siti come la Wayback Machine esistono come una “corsia di memoria” virtuale, mantenere le immagini intatte ha una priorità maggiore rispetto alla conservazione della funzionalità di backend.

In breve, vi conviene usare sia i backup che gli archivi per il vostro sito: il primo come protezione quotidiana nel caso in cui accada il peggio, e il secondo come un modo aggiuntivo per aiutare a documentare l’evoluzione del vostro sito.

I Diversi Tipi di Archiviazione Web che Incontrerete

L’archiviazione web non è sempre la stessa, ne incontrerete di diversi tipi. Ecco come si dividono:

  • Lato client: Prevede che l’utente finale salvi una versione del sito web in questione. È semplice, scalabile e permette di archiviare un sito web senza problemi.
  • Lato server: L’approccio di Wayback Machine e altri è classificato come archiviazione lato server. Utilizza crawler e altre tecnologie per archiviare un sito web, ma richiede anche un livello di consenso che non si trova nell’archiviazione lato client.
  • Basato sulle transazioni: Anche se questo è ancora basato sull’archiviazione lato server, è più complesso e richiede il consenso esplicito di chi possiede il sito. Essenzialmente, archivia le transazioni del sito tra l’utente finale e il server.

Per i siti web semplici con dati statici, accoppiati con una strategia di archiviazione organizzata, l’archiviazione lato client dovrebbe andare bene. Tuttavia, la maggior parte degli altri siti favorirà gli archivi lato server: l’archiviazione basata sulle transazioni non è necessaria per la maggior parte dei siti web.

Infine, e ne parleremo più in dettaglio nel corso del post, considerate anche dove e come sono conservati i vostri archivi. Per esempio, un archivio locale non è una cattiva scelta, ma potreste vederlo sparire se avete un guasto al computer. D’altra parte, avete meno controllo su ciò che viene archiviato se optate per una soluzione di terze parti.

Come ci si aspetterebbe, qui la risposta è usare un approccio multiforme per archiviare un sito web. Suggeriamo di trattare gli archivi come i backup: mantenere tre diverse copie in luoghi separati e sincronizzati in qualche modo.

Potreste anche voler rendere uno degli archivi live, in modo da poter trarre vantaggio da qualsiasi funzionalità lato server sul vostro sito. Il risultato è un sito web con una robusta strategia di backup e archiviazione che rimane utile agli altri.

Una Guida per Principianti agli Strumenti e ai Siti di Internet Archive

Ci sono una pletora di soluzioni disponibili per archiviare un sito web. Elencheremo alcune delle più popolari, insieme alla nostra opinione su come potrebbero adattarvi alle vostre esigenze.

1. La Wayback Machine

La Wayback Machine.
La Wayback Machine.

Prima di tutto, parliamo della Wayback Machine. È stata la prima del suo genere, quindi ha fissato il punto di riferimento per altri strumenti di archiviazione che sono venuti dopo.

Per questo, è probabile che sia il primo posto dove andare quando si cerca di archiviare un sito web. La Wayback Machine include molti modi per creare e caricare archivi, e anche un’API dedicata per agganciarsi alle sue funzionalità. Vale la pena notare che è anche una soluzione di archivio lato server.

Detto questo, a causa di come scansiona e archivia i siti web, la Wayback Machine potrebbe non essere in grado di preservare tutte le funzionalità del vostro sito. Tuttavia, è considerato lo standard del settore per gli archivisti web, ed è completamente gratuito. Più avanti in questo articolo vi mostreremo come archiviare un sito web in modo più dettagliato usando la Wayback Machine.

2. Archive.today

Il sito web Archive.today.
Il sito web Archive.today.

Il prossimo strumento è Archive.today. È simile in molti modi alla Wayback Machine, persino nel design quasi “retro” del sito. I suoi data server sono in Europa, ma l’approccio all’archiviazione è diverso da quello della Wayback Machine.

Per cominciare, Archive.today non si basa su crawler che girano sul web. Siete voi a dover presentare i vostri URL e acconsentire all’inclusione nell’archivio. Inoltre, la sua lista di caratteristiche è più scarna di altre soluzioni. Non c’è una robusta politica di cancellazione, per esempio, e il processo di archiviazione esclude alcuni media e tipi di file.

Tuttavia, è gratuito e va bene se vi serve un posto gratuito per conservare gli archivi. Il sito ha anche una funzionalità di ricerca per trovare siti archiviati in precedenza.

3. Heritrix

Il sito web Heritrix.
Il sito web Heritrix.

Finora, in questo articolo abbiamo menzionato l’Internet Archive e la Wayback Machine quasi in modo intercambiabile. La Wayback Machine è solo un servizio, però, e l’Internet Archive offre alcuni altri prodotti di archiviazione oltre a essa. Heritrix è uno strumento gratuito e open-source nato da una collaborazione tra Internet Archive e le biblioteche Nordic.

Più che uno strumento di archiviazione completo è un web crawler. Tuttavia, è possibile raccogliere insieme tutti i risultati della scansione. In passato non era così, ma ora la Wayback Machine usa Heritrix per scansionare i siti da includere nel proprio sito. Inoltre, un gran numero di biblioteche e istituzioni usano Heritrix per costruire archivi.

Nonostante le sue caratteristiche impressionanti, l’installazione di Heritrix richiede un certo grado di conoscenze tecnice. Non c’è un’interfaccia user-friendly per l’installazione, quindi dovrete conoscere Git, GitHub e la riga di comando.

Come altre soluzioni simili, Heritrix è completamente gratuito da usare, quindi è adatto come soluzione di auto-archiviazione economica.

4. Web Archiving Integration Layer (WAIL)

Il sito web di Web Archiving Integration Layer (WAIL).
Il sito web di Web Archiving Integration Layer (WAIL).

Se state pensando a Heritrix per archiviare un sito web ma già vi scoraggiano le conoscenze tecniche richieste per installare il software, c’è una soluzione che può fare per voi. Il Web Archiving Integration Layer (WAIL) è un’applicazione gratuita e open-source multipiattaforma per il desktop che vi offre una funzionale interfaccia grafica utente da usare, insieme a un programma di installazione.

La buona notizia è che Heritrix è il motore di crawling di WAIL. Significa che potete sfruttare la potenza di Heritrix senza dover passare per GitHub e per la riga di comando. Inoltre, WAIL usa il motore OpenWayback per “riprodurre” gli archivi web.

Come tale, avete uno strumento completo di archiviazione web pronto da far girare sulla vostra macchina. Più avanti nell’articolo vi mostreremo come funziona esattamente WAIL.

5. Stillio

Il sito web Stillio.
Il sito web Stillio.

Il nostro penultimo strumento di archiviazione è pubblicizzato come una soluzione automatizzata che scatta istantanee a intervalli prestabiliti. Stillio è un servizio premium che sembra differenziarsi dalle altre soluzioni di archiviazione.

Il sito web ha un aspetto elegante e offre una miriade di opzioni per creare un archivio che soddisfi esattamente le vostre esigenze. Per esempio, potete aggiungere tag e titoli personalizzati ai vostri URL.

Inoltre, è possibile scegliere di memorizzare gli archivi su Dropbox, Google Drive e altri servizi di terze parti.

Tuttavia, Stillio ha un enorme svantaggio: non supporta l’archiviazione back-end. Questo vi limita agli screenshot del vostro sito web piuttosto che a un archivio completo di dati. Per molte applicazioni, questo non è sufficiente.

Tuttavia, Stillio potrebbe essere utile in alcuni casi, come ad esempio servire come strumento di gestione e monitoraggio del marchio. Ad esempio, è possibile catturare screenshot dei siti concorrenti o dei risultati dei motori di ricerca. È anche ottimo per la verifica dei contenuti.

Il prezzo di Stillio parte da 29 dollari al mese e sale attraverso quattro livelli fino a 299 dollari al mese. È una grande richiesta, soprattutto quando ci sono alternative gratuite con caratteristiche più potenti. Ma se si adatta perfettamente al vostro caso d’uso, allora vale la pena dare un’occhiata!

6. Pagefreezer

Il sito web Pagefreezer.
Il sito web Pagefreezer.

La nostra soluzione finale è un altro strumento automatizzato. Pagefreezer offre molti degli stessi vantaggi di Stillio, ma archivia anche contenuti dei social media, messaggi di testo, siti completi e piattaforme di collaborazione a livello aziendale.

In superficie, Pagefreezer sembra una soluzione più robusta di Stillio e avrebbe un valore maggiore in vari casi d’uso.

Per esempio, quando siete obbligati per legge ad archiviare completamente un sito, Pagefreezer si adatta allo scopo. Permette di automatizzare il numero di istantanee e di rivederle usando un browser di archivio del sito e uno strumento di confronto.

Nel complesso, Pagefreezer è una grande soluzione a livello aziendale per l’archiviazione di Workplace. Le aziende che usano Yammer o Chatter di Salesforce graviteranno verso questo tipo di soluzione, così come gli utenti di Workplace.

Cos’È il Formato di File Web Archive (WARC)?

Se state cercando come archiviare un sito web, vi imbatterete nel formato Web Archive (WARC). Si tratta di una combinazione confezionata dei vari file dell’archivio del vostro sito in modo che sia portabile e autonomo.

L’Internet Archive ha creato WARC per conservare i dati web a lungo termine. L’International Internet Preservation Consortium (IIPC) ha pubblicato le specifiche complete del formato di file. Memorizzerà immagini, metadati e praticamente tutto ciò di cui il vostro sito ha bisogno per funzionare su una base autonoma.

Mentre all’inizio era solo un comodo formato di file, WARC è ora uno standard internazionale ISO per gli archivi digitali. Come tale, è stato adottato da governi e altri enti ufficiali. Ci sono infatti diversi casi d’uso in cui un file WARC è vitale:

  • E-discovery: È il processo durante il contenzioso in cui i documenti digitali sono ricercati e presentati per l’inclusione in un processo. Per le registrazioni dei social media, un file WARC soddisfa lo standard legale di E-discovery.
  • Freedom of Information (FOI): Ci sono molti governi ed enti ufficiali che usano gli atti FOI e Open Records per offrire un servizio “Right to Know” (RTK) agli elettori dello stato. Il formato WARC è ideale nei casi che coinvolgono i documenti digitali.

WARC è usato da molte diverse soluzioni di archiviazione e crawler, come StormCrawler e Apache Nutch. Potete anche modificare le impostazioni di uno strumento a riga di comando come Wget per recuperare e confezionare le richieste come file WARC. Ne parleremo più in dettaglio tra poco.

Ci sono anche molti altri strumenti che possono generare file WARC. Per esempio, lo strumento open source di salvataggio delle pagine web wallabag può farlo.

In alternativa, grab-site è un’applicazione web che aiuta il crawling degli archivi come file WARC.

L’apertura di un file WARC dipende dallo strumento che state usando. Indipendentemente dalla soluzione che preferite, tenete presente che alcuni di questi strumenti non sono stati aggiornati da un po’.

Per questo, assicuratevi che la soluzione scelta funzioni con il vostro sistema attuale e che sia disponibile per l’uso in futuro. Vi risparmierete un sacco di mal di testa se eviterete uno strumento che potrebbe finire fuori produzione o abbandonato mentre siete nel mezzo di un progetto di archiviazione.

Suggerimenti per Gestire i Vostri Archivi Offline

Prima di entrare nel merito di come archiviare un sito web, ci vogliamo prendere qualche minuto per aiutarvi a organizzare i vostri archivi esistenti. Abbiamo già toccato l’argomento, ma avere un approccio solido su questo aspetto renderà i vostri archivi più gestibili. Gli utenti del vostro sito trarranno anche maggiori benefici da un archivio ben organizzato.

Ci sono tre elementi chiave da tenere a mente:

  • Frequenza: Decidete quanto spesso volete archiviare un sito. Siti enormi, dinamici e complessi che cambiano quasi quotidianamente avranno bisogno di istantanee più frequenti dei siti statici.
  • Posizione: Proprio come i backup, dovreste salvare gli archivi in diversi luoghi, incluso il cloud. Seguite la regola del 3-2-1 per una maggiore sicurezza. Se volete catturare in profondità tutto il contenuto del vostro sito, vi consigliamo di abbondare.
  • Struttura: Come le directory del vostro computer, dovreste cercare di usare cartelle esplicite, suddivise in nomi degli archivi dei siti e la data in cui un sito specifico è stato archiviato.

Anche se si potrebbe espandere ulteriormente l’amministrazione dell’archivio, questi tre consigli vi faranno approcciare l’archiviazione con il piede giusto.

5 Modi per Archiviare un Sito Web

Di seguito, suggeriamo cinque modi diversi per archiviare un sito web. Abbiamo ordinato le soluzioni in base alla loro difficoltà relativa. Tuttavia, se individuate una soluzione che pensate possa funzionare per i vostri bisogni attuali, sentitevi liberi di tuffarvi e trovarne altre.

1. Salvare una Singola Pagina sul Vostro Computer Locale

Prima di tutto, discutiamo la soluzione più diretta. È ottima se avete bisogno di archiviare una singola pagina, e ancora meglio, la funzionalità è già presente praticamente in ogni browser.

Per iniziare, aprite il vostro browser preferito e andate al sito web che vorreste archiviare. Una volta che la pagina è stata caricata, andate alla voce di menu File nel vostro browser e trovate l’opzione Salva pagina con nome:

Il menu File di Firefox contiene le funzionalità necessarie per salvare una singola pagina web.
Il menu File di Firefox contiene le funzionalità necessarie per salvare una singola pagina web.

Poi fate clic sull’opzione per salvare la pagina: a questo punto il browser vi mostrerà una finestra di dialogo.

Qui, scegliete un nome per la vostra pagina (anche se quello di default va bene). Inoltre, assicuratevi di salvare l’intera pagina piuttosto che solo l’HTML. Questo conserverà il sito con la maggior funzionalità possibile.

2. Usare DevKinsta per Archiviare il Vostro Sito WordPress

DevKinsta può anche aiutarvi ad archiviare un sito web.
DevKinsta può anche aiutarvi ad archiviare un sito web.

Pensiamo che DevKinsta sia uno strumento essenziale per creare e distribuire siti web WordPress. Tuttavia, ha anche un’altra freccia nel suo arco: vi aiuta ad archiviare i vostri siti web ospitati da Kinsta.

In uno dei nostri articoli della knowledgebase, abbiamo mostrato l’intero processo di estrazione di un backup esterno di MyKinsta in DevKinsta. Per riassumere:

  • Create e scaricate un backup in MyKinsta.
  • Create un nuovo sito con DevKinsta.
  • Importate il vostro contenuto e il vostro database.
  • Eseguite una ricerca e sostituzione sul vostro database per cambiare il nome dell’URL dal vostro sito live con il vostro nuovo archivio locale.

A questo punto, potete aprire il vostro sito in DevKinsta e usarlo come se fosse live.

3. Usare un Archivio Online (Come la Wayback Machine)

Nessun tutorial sarebbe completo senza mostrarvi come funziona la Wayback Machine. Fortunatamente, il processo è semplice. Detto questo, notate che questo metodo vi permette di archiviare solo singole pagine (anche se il servizio di abbonamento Archive-It vi permette di archiviare siti completi).

Per questo approccio, andate alla homepage della Wayback Machine e controllate il modulo Save Page Now:

Il modulo Save Page Now sul sito web della Wayback Machine.
Il modulo Save Page Now sul sito web della Wayback Machine.

Per archiviare una pagina, aggiungete semplicemente l’URL che volete salvare in questo modulo, poi fate clic su Save Page. A seconda di quanto è grande o complessa la pagina, potrebbe essere necessario attendere qualche minuto mentre il crawler e il motore fanno il loro lavoro. A volte potrebbe sembrare che pagina sembri essersi bloccata. Nei nostri test ci siamo trovati di fronte a una schermata bianca della morte (o White Screen of Death – WSoD) per un po’.

Tuttavia, una volta che la pagina è stata archiviata, la Wayback Machine vi reindirizzerà alla nuova pagina dedicata.

Una pagina di Kinsta archiviata sulla Wayback Machine.
Una pagina di Kinsta archiviata sulla Wayback Machine.

Considerate che è anche possibile usare un bookmarklet e un’estensione del browser per archiviare un sito web. Infatti, la maggior parte dei browser attuali includono queste opzioni, tra cui Google Chrome, Firefox e Safari.

4. Installare il Web Archiving Integration Layer (WAIL)

Il vostro primo passo con questo approccio è scaricare WAIL stesso e installarlo. Fortunatamente, c’è un programma di installazione dedicato per lo strumento (anche se, poiché il programma è scritto in Python, usa il modulo PyInstaller).

Il processo di installazione è molto semplice. Indipendentemente dal vostro sistema operativo (OS), potete proseguire così:

  • Navigate sul sito web di WAIL e scaricate il programma di installazione appropriato per il vostro sistema operativo.
  • O decomprimete il file per la versione Windows, o montate l’immagine DMG per macOS.
  • Nella schermata di dialogo risultante per macOS, trascinate l’icona dell’app nella vostra cartella Applicazioni. Per gli utenti Windows, trascinate semplicemente la cartella decompressa sulla vostra unità principale C:\.
  • Lanciate WAIL.app o WAIL.exe (a seconda del vostro sistema operativo).

Una volta che WAIL è aperto, vedrete la sua interfaccia minimale:

L'interfaccia WAIL offre tre opzioni.
L’interfaccia WAIL offre tre opzioni.

Ora vi vengono presentate tre opzioni tra cui scegliere: visualizzare un archivio, controllare il suo stato o archiviare un sito web. I pulsanti sono leggermente confusi, dato che la vostra inclinazione naturale potrebbe essere quella di leggere da sinistra a destra. Tuttavia, al primo lancio, non avrete nulla nei vostri archivi.

Inserite invece l’URL del sito che volete archiviare e fateclic su Archive Now! Vedrete che WAIL inizia a scansionare il sito web. Potete controllare lo stato della scansione nella scheda Advanced > Heritrix:

WAIL che mostra lo stato attuale del lavoro di crawl.
WAIL che mostra lo stato attuale del lavoro di crawl.

Quando avete finito, vedrete un messaggio che conferma il successo dell’operazione. A questo punto, potete fare clic sul pulsante View Archive nella scheda Basic. Questo aprirà il vostro sito archiviato in un browser, pronto per essere visualizzato.

5. Usate Wget Se Siete a Vostra Agio con la Riga di Comando

Per il nostro metodo finale di archiviazione di un sito web, avrete bisogno di alcune cose prima di iniziare:

  • Accesso alla riga di comando del vostro computer
  • Uno strumento a riga di comando adatto come il Prompt dei comandi di Windows o il Terminale su macOS e Linux
  • Wget installato sul vostro computer

Probabilmente avrete già i primi due.

Su macOS, è possibile installare Wget attraverso Homebrew con il comando brew install wget. Si noti che è anche necessario installare Homebrew, ma ci vogliono solo pochi secondi. Su Linux, Wget è preinstallato sulla maggior parte delle principali distribuzioni.

Se siete utenti Windows, potreste avere più difficoltà a installare Wget sul vostro computer. Ci sono tutorial disponibili sul web, ma la loro guida non sembra coerente tra le varie macchine. Vi raccomandiamo invece di andare sul sito ufficiale di Wget e controllare alcuni dei binari disponibili per Windows, perché è più probabile che questi funzionino.

In ogni caso, una volta installato Wget, usarlo è semplice. Per prima cosa, navigate in una directory in una nuova finestra del terminale. Qui stiamo anche creando la directory, ma questo passo è opzionale:

cd documents && mkdir archive && cd archive

Notate che Wget farà un pull di tutti i download nella directory di lavoro, qualsiasi essa sia. In questo caso, abbiamo specificato una cartella per i nostri file.

Successivamente, fate il crawling di un sito ed estraete i file. Ogni azione è invocata usando il comando wget, e vi consigliamo di usare il seguente formato:

wget "https://kinsta.com/" --warc-file="kins"

Premendo il tasto Enter inizierà il download di kinsta.com in un file index.html e creerà un file WARC chiamato kins-00000.warc.gz.

Un sito archiviato come file WARC.
Un sito archiviato come file WARC.

Wget è potente, e ci sono molti comandi e opzioni che potete usare. Per esempio, potete usare il comando --mirror per creare un file WARC contenente un’immagine speculare completa del vostro sito. Potete anche usare il comando --no-warc-compression per scrivere file non compressi, anche se questo ovviamente richiederà più spazio per ogni download. Usare il compressore integrato è l’approccio ottimale.

Riepilogo

L’archiviazione web nasce dalla necessità di documentare la rapida evoluzione della forma di internet. Ora ha molteplici applicazioni valide come per esempio nel caso di file e requisiti legali. Indipendentemente dal vostro bisogno, avere un archivio ben strutturato e organizzato può completare la vostra strategia generale di backup.

Fortunatamente, ci sono molte soluzioni disponibili che vi aiutano. La maggior parte dei browser offre la possibilità di salvare una pagina web sul computer, anche se soluzioni come DevKinsta sono strumenti utili per fare lo stesso lavoro. Tuttavia, gli strumenti di archiviazione dedicati come la Wayback Machine, Heritrix, WAIL e Wget sono tutte soluzioni particolarmente robuste e offrono formati di file standardizzati per lavorare.

Questo articolo vi ha portato a voler archiviare un sito web tutto vostro? Fateci conoscere le vostre opinioni nella sezione commenti qui sotto!

Salman Ravoof

Salman Ravoof é uno sviluppatore web autodidatta, uno scrittore, un creatore e un grande ammiratore del Free and Open Source Software (FOSS). Oltre alla tecnologia, è appassionato di scienza, filosofia, fotografia, arte, gatti e cibo. Per saperne di più su di lui, visitate il suo sito web o contattate Salman su X.