Goed onderhoud van je site, betekent ook het hebben van een goede strategie voor back-ups. Back-ups zijn essentieel, maar niet de enige manier om je website te bewaren. De logische vervolgstap op een back-up is het archiveren van een website, ook al kunnen ze uiteraard ook in aanvulling op elkaar worden gebruikt.

Er zijn verschillende flexibele manieren om een website te archiveren. Het goede nieuws is dat al deze manieren toegankelijk en gebruiksvriendelijk zijn. Je hoeft alleen maar de oplossing te kiezen die het beste past bij jouw behoeften en eisen.

In dit artikel gaan we kijken naar hoe je een website kan archiveren. We bekijken de verschillende soorten archivering die je kan vinden, bespreken een aantal van de bekendste tools voor het archiveren van websites, en geven we je tips voor het archiveren van je website.

Een introductie over het archiveren van je website

Het archiveren van een website betekent het opslaan van de content, data en media voor later gebruik. Door een speciale service te gebruiken, zoals de Wayback Machine (we zullen ook andere oplossingen bekijken), kan je oudere versies van een website bekijken.

Zo zag de Kinsta website er uit in 2015, flink veranderd inmiddels!
Zo zag de Kinsta website er uit in 2015, flink veranderd inmiddels!

Technisch gezien maken ook crawlers momentopnames van een website, wat dus ook een soort archief is. Je kan die bekijken via een eenvoudige kalender, waarbij je elke herhaling op een tijdlijn kan zetten.

Het Wayback Machine kalender archief voor de Kinsta website.
Het Wayback Machine kalender archief voor de Kinsta website.

Het antwoord op waarom oplossingen zoals de Wayback Machine bestaan, vinden we aan het begin van dit millennium. De dot-com bubbel was net gebarsten, en veel bedrijven gingen failliet. Er werden een aantal populaire websites offline gehaald of gewoon achtergelaten, met alle bijbehorende herinneringen die mensen van de site hadden.

Net zoals met andere media formats, zoals muziek en televisie, hebben websites een bepaalde historische en nostalgische waarde. Door die websites te bewaren voor het collectief geheugen kunnen toekomstige internetgebruiker zien hoe ver het huidige internet zich ontwikkeld heeft.

Het Internet Archive startte de Wayback Machine om websites te bewaren. Wanneer een website erop gearchiveerd wordt, kan je zien hoe de site zich in de loop van de tijd heeft ontwikkeld.

Er zijn veel crawlers nodig om een website te archiveren, inclusief enorme individuele crawls die jaren kunnen duren tot ze afgerond zijn. Er is een hoop moeite nodig om dit te doen, en om de resulterende momentopnamen op te slaan die eruit voortkomen.

Zo kwam de eerste 100 Terabyte (TB) server van de Wayback Machine al online in 2004. Aan het eind van 2020 had de Wayback Machine al meer dan 70 Petabytes (PB) aan data opgeslagen. Dat is meer dan 70.000 Terabytes.

Maar niet iedereen is blij met het werk van de Internet Archive. Er is een hoop getouwtrek en juridische discussies over of het archiveren van een website het bijbehorende copyright overtreedt.

Maar gezien het groeiende aantal archiveren dat opgeslagen wordt, is er een duidelijke behoefte aan het bewaren van websites.

Waarom je een website zou willen archiveren

Er zijn allerlei redenen waarom je een website zou willen archiveren, naast pure nostalgie. Voor een praktijkvoorbeeld, kan je naar GitHub kijken.

De infrastructuur van Github lijkt sterk op een internetarchief.
De infrastructuur van Github lijkt sterk op een internetarchief.

GitHub slaat repository’s op van een project, samen met alle “commits”. Die repository’s kan je zien als een volledig archief, waarbij de commits te vergelijken zijn met de momentopnamen in dat archief.

Net zoals Git repository’s erg waardevol zijn, is een archief dat ook. Je kan bijvoorbeeld naar vorige versies van je website kijken, zelfs van vele jaren geleden, om je huidige ontwerp op te inspireren.

Ook kan het zijn dat je juridisch verplicht bent om je website te archiveren, zeker als je binnen de financiële of juridische sector zit.

En wanneer je onverhoopt in rechtszaken terecht zou komen rondom je website, dan kunnen je archieven belangrijk bewijs worden. Als je duidelijke en complete archieven van je website kan aanleveren, kun je allerlei discussies al beslechten voordat ze zelfs maar bij de rechtbank uitkomen.

Het verschil tussen een back-up en archivering

Voordat we de verschillende soorten archivering gaan bekijken, moeten we nog even een stapje terug doen. Op papier zien de back-up van een website en het archief ervan er nagenoeg hetzelfde uit. Maar ze vervullen heel andere taken, die elkaar aanvullen. In het kort:

  • Back-ups draaien vooral om data. Hiermee bewaar je dus vooral de data van je website. Aangezien back-ups erg belangrijk zijn om je website te kunnen herstellen, is het belangrijk om een volledige back-up van je data te hebben.
  • Archieven bewaren vooral ook de context om de data heen. Wanneer je het archief van je favoriete website eens bekijkt, zal je zien dat de functionaliteit vaak vrij matig is. Maar het ontwerp en de statische content is meestal perfect bewaard gebleven.

Daarnaast is het ook belangrijk om op te merken dat archivering ook helemaal niet bedoeld is om het bewaren van data te vervangen. Het grote voordeel van archivering is juist dat gebruikers de site weer net zo zouden kunnen gebruiken alsof het gewoon een live website was. Aangezien websites zoals de Wayback Machine bestaan als een soort digitaal foto-album, is het bewaren van de visuals belangrijker dan het bewaren van de backend functionaliteit.

Kort gezegd wil je dus zowel back-ups als archieven maken van je website, het eerste als dagelijkse bescherming voor het ergste geval van een groot probleem met je website, en daarnaast de archivering voor het documenteren van de ontwikkeling van je website.

De verschillende soort webarchivering die je tegen kan komen

Webarchivering is in verschillende smaken te vinden. Er zijn verschillende typen die je vaak ziet. Een overzicht van alle typen:

  • Client-side: Hierbij slaat de eindgebruiker een versie van de website op. Dit is simpel, schaalbaar, en je kan een website zonder moeite archiveren.
  • Server-side: De aanpak van de Wayback Machine en soortgelijke diensten wordt server-side archivering genoemd. Hierbij worden crawlers en andere technologieën gebruikt om een website te archiveren, maar daar is ook een bepaalde toestemming voor nodig, wat bij client-side archivering niet nodig is.
  • Transaction-based: Alhoewel dit gebaseerd is op server-side archivering, is het complexer en vereist het expliciete toestemming van de eigenaar van de website. Dit type archiveert in feite alle transacties tussen de eindgebruiker en de server.

Voor eenvoudige websites met statische data, zou client-side archivering genoeg moeten zijn, in combinatie met een georganiseerde archiveringsstrategie. Maar veel websites zullen liever kiezen voor server-side archivering, en transaction-based archivering is voor de meeste websites niet nodig.

Ter conclusie is het belangrijk hoe en waar je archieven worden opgeslagen, iets wat we verder zullen bespreken gedurende het artikel. Zo is een lokaal archief bijvoorbeeld niet per se een slechte keuze, maar er is een goede kans dat dit verdwijnt wanneer je computer crasht. Aan de andere kant heb je bij een externe oplossing weer minder controle over wat er precies gearchiveerd wordt.

Zoals je wellicht zou verwachten, is de ideale oplossing dus een aanpak die verschillende strategieën combineert. We raden je aan om archieven net zo te zien als je back-ups, waarbij je drie verschillende kopieën op aparte locaties bewaard en regelmatig synchroniseert.

Zo kan je ook één van deze archieven live maken, zodat je ook de voordelen van server-side functionaliteit kan gebruiken. Het resultaat is dan een website met een robuust strategie voor back-ups en archivering, die ook nuttig is voor anderen.

Een uitleg voor beginners over tools en websites voor internet archivering

Er zijn allerlei oplossingen voor het archiveren van een website. We zullen een aantal populaire opties bespreken, samen met onze aanbevelingen waarom dit wel of niet bij je zou kunnen passen.

1. Wayback Machine

The Wayback Machine.
The Wayback Machine.

Laten we beginnen met de Wayback Machine. Het is de eerste in z’n soort, en heeft dus de standaard bepaald.

Dit is dan ook de eerste plaats waar de meeste mensen kijken als ze een website willen archiveren. Ze bieden allerlei manieren om archieven te maken en uploaden, en zelfs een speciale API die je kan gebruiken. Het is trouwens ook een server-side archiefoplossing.

Desalniettemin kan de Wayback Machine mogelijk niet alle functionaliteit van je website bewaren, door de manier waarop het websites opslaat en archiveert. Toch is het de standaard binnen de sector, en ook nog eens helemaal gratis. We zullen je zometeen laten zien hoe je een website kan archiveren via de Wayback Machine.

2. Archive.today

De Archive.today website.
De Archive.today website.

De volgende oplossing is Archive.today. Het lijkt op veel manieren op de Wayback Machine, inclusief het ontwerp van de website. De dataservers bevinden zich in Europa, maar de aanpak voor het archiveren is anders dan die van de Wayback Machine.

Om te beginnen is Archive.today niet gebaseerd op crawlers. In plaats daarvan stuur je een URL in en geef je toestemming voor opname in het archief. Daarnaast is de lijst met features ook wat meer compact dan andere oplossingen. Er is geen robuust beleid over verwijdering, en het archiveringsproces sluit bepaalde soorten bestanden en media uit.

Maar het is wel gratis, en ideaal als je een extra plek wil om archieven op te slaan. De website heeft zelfs een zoekfunctie als je eerder gearchiveerde websites wil zoeken.

3. Heritrix

De Heritrix website.
De Heritrix website.

We hebben het Internet Archive en de Wayback Machine tot nu toe eigenlijk door elkaar gebruikt. Maar de Wayback Machine is slechts één van hun diensten, en de Internet Archive biedt ook een aantal andere archiveringsproducten. Heritrix is een gratis open source tool dat het product is van de samenwerking tussen het Internet Archive en een aantal Scandinavische bibliotheken.

Het is in feite een webcrawler, niet een complete archiveringstool met allerlei tools. Maar je kan alle resultaten van de crawlers in één pakket stoppen. Alhoewel dit eerder niet zo was, gebruikt de Wayback Machine inmiddels Heritrix om websites te crawlen. Daarnaast gebruikt een groot aantal bibliotheken en instituten Heritrix om hun archieven te bouwen.

Het installeren van Heritrix vereist echter wel wat technische kennis. Er is geen gebruiksvriendelijke interface die dit voor je regelt, dus je moet Git, GitHub en de opdrachtregel kunnen gebruiken.

Net als soortgelijke oplossingen, is ook Heritrix volledig gratis te gebruiken, dus het een kosteneffectieve oplossing als je zelf je website wil archiveren.

4. Web Archiving Integration Layer (WAIL)

De Web Archiving Integration Layer (WAIL) website.
De Web Archiving Integration Layer (WAIL) website.

Wanneer je Heritrix overweegt om je website te archiveren, maar alle technische kennis niet hebt om de software te installeren, dan is er een mogelijke oplossing. De Web Archiving Integration Layer (WAIL) is een gratis en open-source cross-platform desktop app waarmee je een Graphical User Interface (GUI) kan gebruiken, samen met een installer.

Het mooie hieraan is dat Heritrix de crawling engine van WAIL is. Hierdoor krijg je dus alle voordelen van Heritrix, zonder dat je bezig moet met GitHub en de opdrachtregel. Daarnaast gebruikt WAIL de OpenWayback engine om webarchieven te herhalen.

Daardoor krijg je dus een volledige webarchiveringstool op je computer. We zullen je precies laten zien hoe WAIL werkt, verderop in dit artikel.

5. Stillio

De Stillio website.
De Stillio website.

Onze één-na-laatste archiveringstool wordt gepromoot als geautomatiseerde oplossing, die automatisch momentopnamen maakt op ingestelde momenten. Stillio is een premium service die er anders uitziet dan de andere oplossingen.

De website is strak en geeft je allerlei opties om een archief te maken die precies voldoet aan je eisen. Zo kan je bijvoorbeeld tags en custom titels toevoegen aan je URL’s.

Daarnaast kan je ervoor kiezen om archieven op te slaan in bijvoorbeeld Dropbox, Google Drive, en andere externe services.

Maar Stillio heeft ook één heel groot nadeel: ze ondersteunen geen back-end archivering. Je kan dus eigenlijk alleen screenshots maken van je website, in plaats van een volledig archief met data. Voor veel toepassingen is dit gewoon niet voldoende.

Maar Stillio kan alsnog handig zijn, bijvoorbeeld voor het volgen en beheren van je merk. Zo kan je ook screenshots maken van de websites van je concurrenten of de resultaten van zoekmachines. Het is ook erg handig voor het verifiëren van content.

De prijzen van Stillio beginnen bij $29 per maand en lopen via vier niveaus door tot $299 per maand. Dat is vrij fors, zeker wanneer er gratis alternatieven zijn met meer functionaliteit. Maar als het goed bij je use case past, moet je er zeker eens kijken.

6. Pagefreezer

De Pagefreezer website.
De Pagefreezer website.

Ook onze laatste oplossing is een geautomatiseerde tool. Pagefreezer biedt veel van dezelfde voordelen als Stillio, maar archiveert ook social media content, tekstberichten, complete websites en enterprise-level samenwerkingsplatforms.

Op het eerste gezicht lijkt Pagefreezer een robuustere oplossing dan Stillio, en is in veel use cases waarschijnlijk waardevoller.

Wanneer je bijvoorbeeld wettelijk verplicht bent om een website volledig te archiveren, kan Pagefreezer een goede oplossing zijn. Hiermee kan je het aantal snapshots automatiseren en ze bekijken via een browser voor website archieven en vergelijkingstool.

Kortom, Pagefreezer is een mooie oplossing voor het archiveren van bedrijfsomgevingen, ook bij grote bedrijven. Bedrijven die Yammer of Salesforce’s Chatter gebruiken zullen dit een interessante oplossing vinden, net zoals Workplace gebruikers.

Wat is het Web Archive (WARC) bestandsformat?

Als je aan het onderzoeken bent hoe je een website kan archiveren, zul je vast het Web Archive (WARC) format tegengekomen zijn. Dit is een ingepakte combinatie van de verschillende bestanden van het archief van je website, zodat je dit allemaal bij elkaar hebt, en op zichzelf te gebruiken is.

Het Internet Archive heeft WARC gemaakt om webdata ook op lange termijn te kunnen bewaren. Het International Internet Preservation Consortium (IIPC) heeft de volledige specificatie van het bestandsformaat gepubliceerd. Het zal afbeeldingen opslaan, metadata en eigenlijk alles dat je website nodig heeft om onafhankelijk van andere bronnen te kunnen draaien.

Alhoewel het origineel bedoeld was als handig bestandsformaat, is WARC nu een internationale ISO standaard voor digitale archieven. Daarin is het inmiddels ook in gebruik door overheden en andere officiële instituties. Er zijn zelfs meerdere use cases waarbij een WARC bestand van vitaal belang is:

  • E-discovery: Dit is het proces tijdens een rechtszaak waarbij digitale gegevens worden onderzocht en gepresenteerd als bewijs in een rechtszaak. Voor social media records voldoet een WARC bestand aan de juridische eisen van E-discovery.
  • Freedom of Information (FOI):Er zijn een hoop decentrale Amerikaanse overheden en officiële instituten die de FOI en Open Records wetten gebruiken om een “Right to Know” (RTK) dienst aan inwoners van hun inwoners te kunnen bieden. Het WARC format is ideaal voor zaken rondom digitale gegevens.

WARC wordt gebruikt door allerlei archiveringsoplossingen en crawlers, zoals de StormCrawler en Apache Nutch. Je kan ook de instellingen van een opdrachtregel tool zoals Wget veranderen om verzoeken uit te voeren als WARC bestanden. Daar zullen we zometeen dieper op ingaan.

Er zijn ook allerlei andere tools die hun output als WARC bestanden kunnen produceren. Zo is er bijvoorbeeld een open source tool voor het opslaan van webpagina’s, wallabag, dat dit format kan gebruiken.

Als alternatief is er grab-site, een web-based app die archieven als WARC bestand kan crawlen.

Het openen van een WARC bestand hangt af van de tool die je gebruikt. Welke oplossing je ook kiest, onthoud dat sommige van deze tools al een poos niet vernieuwd zijn.

Zorg er dus voor dat je gewenste oplossing met je huidige systeem werkt, en dat het ook bruikbaar blijft in de toekomst. Je bespaart jezelf een hoop kopzorgen door ervoor te zorgen dat je een tool gebruikt die in de toekomst niet gestopt of vergeten wordt, terwijl jij midden in een archiveringsproject zit.

Tips voor het beheren van je offline archieven

Voordat we uitleggen hoe je een website precies kan archiveren, kijken we even hoe je je bestaande archieven goed kan organiseren. We hebben dit al zijdelings genoemd, maar het gebruik van een goede en doordachte aanpak zal je archieven aanzienlijk makkelijker te beheren maken. De gebruikers van je site zullen ook veel meer hebben aan een goed georganiseerd archief.

Er zijn drie belangrijke elementen die je daarbij in je achterhoofd moet houden.

  • Frequentie: Bepaal hoe vaak je een website wil archiveren. Grote, dynamische en complexe websites met dagelijkse wijzigingen zullen vaker gearchiveerd moeten worden dan statische websites met weinig updates.
  • Locatie: Net als back-ups moet je je archieven op verschillende plekken opslaan, waaronder in de cloud. Volg de 3-2-1 regel voor optimale veiligheid. We raden je aan om nog verder te gaan als je echt je volledige website wil bewaren.
  • Structuur: Net als de mappen in je computer, kan je het beste expliciete mappen gebruiken, die onderverdeeld zijn in de namen van je archieven en de datum waarop een bepaalde site is gearchiveerd.

Alhoewel je het beheer van je website nog verder zou kunnen professionaliseren, zul je met deze drie tips al een goed eind op weg zijn.

5 manieren om een website te archiveren

Hieronder gaan we je vijf verschillende manieren laten zien om een website te archiveren. We hebben de oplossingen gerangschikt op basis van moeilijkheid. Maar als je een oplossing ziet waarvan je denkt dat die perfect past bij wat je wil, ga daar dan vooral mee aan de slag.

1. Sla een individuele pagina op in je eigen computer

Laten we eerst de eenvoudigste oplossing bekijken. Dit is ideaal als je maar één pagina hoeft te archiveren, en nog idealer is dat je deze functie in eigenlijk elke browser kan vinden.

Om te beginnen open je je normale browser en ga je naar de website die je wil archiveren. Nadat de pagina geladen is, ga je naar het File menu van je browser, en zoek je de optie Save Page As:

Het File menu van Firefox biedt de functionaliteit die je nodig hebt om een individuele webpagina op te slaan.
Het File menu van Firefox biedt de functionaliteit die je nodig hebt om een individuele webpagina op te slaan.

Vervolgens klik je op de optie om de pagina op te slaan, waardoor je een dialoogvenster van de browser te zien krijgt.

Hierin kies je een logische naam voor je pagina (de standaardnaam is meestal prima). Let er even op dat je de hele pagina opslaat, niet alleen de HTML. Hierdoor wordt je website opgeslagen met zoveel mogelijk functionaliteit.

2. Gebruik DevKinsta om je WordPress website te archiveren

DevKinsta kan je ook helpen om je website te archiveren.
DevKinsta kan je ook helpen om je website te archiveren.

We zien DevKinsta als essentiële tool voor het maken en implementeren van WordPress websites. Maar er zit nog een mooi extraatje bij: het kan je ook helpen om websites te archiveren die door Kinsta gehost worden.

We hebben het hele proces beschreven hoe je een externe MyKinsta back-up naar DevKinsta kan sturen, in één van de artikelen in onze knowledgebase. Om dit artikel kort samen te vatten:

  • Maak en download een back-up in MyKinsta.
  • Maak een nieuwe website met DevKinsta.
  • Importeer je content en database.
  • Doe zoeken-en-vervangen binnen je database om de URL naam van je live website te veranderen naar je nieuwe lokale archief.

Nu zou je de website moeten kunnen open in DevKinsta, waarbij je het ziet alsof het een live website is.

3. Gebruik een online archief (zoals de Wayback Machine)

Geen enkele tutorial over archivering is volledig als er niet in staat hoe de Wayback Machine werkt. Gelukkig is dat ook ontzettend makkelijk. Let er wel op dat je met deze methode alleen individuele pagina’s kan archiveren (alhoewel je met het Archive-It abonnement ook volledige website kan archiveren).

Voor deze methode ga je naar de startpagina van de Wayback Machine, en bekijk je het Save Page Now formulier:

Het Save Page Now formulier op de Wayback Machine website.
Het Save Page Now formulier op de Wayback Machine website.

Om een pagina te archiveren voeg je gewoon de URL toe die je wil opslaan, en klik je op Save Page. Afhankelijk van hoe groot of complex de pagina is, moet je mogelijk een paar minuten wachten tot de engine en crawler klaar zijn. Het kan zijn dat het er even uitziet alsof de pagina gecrasht is. We zagen zelf tijdens het testen ook even een White Screen of Death (WSoD).

Maar zodra de pagina is gearchiveerd, zal de Wayback Machine je doorsturen naar de speciale nieuwe pagina.

Een Kinsta pagina gearchiveerd op de Wayback Machine.
Een Kinsta pagina gearchiveerd op de Wayback Machine.

Let op dat je ook een bookmarklet en browser extensie kan gebruiken om een website te archiveren. Het is zelfs zo dat de meeste huidige browsers deze opties tegenwoordig standaard aanbieden, waaronder ook Google Chrome, Firefox en Safari.

4. Installeer de Web Archiving Integration Layer (WAIL)

Je eerste stap voor deze methode is het downloaden en installeren van WAIL zelf. Gelukkig is er een speciale installer voor de tool, al gebruikt dit de PyInstaller module, aangezien het programma in Python is geschreven.

Het installeren zou vrij soepel moeten gaan. Onafhankelijk van je besturingssysteem, kan je de volgende dingen doen:

  • Ga naar de WAIL website en download de relevante installer voor jouw besturingssysteem.
  • Pak het bestand uit voor Windows, of mount de DMG afbeelding voor macOS.
  • Op het venster dat nu op macOS verschijnt, sleep je het app icoontje naar je Applications Windows gebruikers kunnen de uitgepakte map gewoon naar de root C:\ map slepen.
  • Start app of WAIL.exe (afhankelijk van je besturingssysteem).

Zodra WAIL open is, zul je de minimalistische interface zien.

De WAIL interface geeft je drie opties.
De WAIL interface geeft je drie opties.

Je krijgt nu drie opties om uit te kiezen: bekijk een archief, controleer de status van een archief, of archiveer een nieuwe website. De knoppen zijn soms wat verwarrend, aangezien je meestal geneigd bent om van links naar rechts te lezen. Maar wanneer je het programma voor het eerst start, heb je nog niks in je archieven staan.

Vul daarom de URL in van de website die je wil archiveren en druk op Archive Now! WAIL zal de website nu gaan crawlen. Je kan de status van de crawl bekijken op het tabblad Advanced >Heritrix:

WAIL toont de huidige status van de crawl.
WAIL toont de huidige status van de crawl.

Wanneer het klaar is, zie je een melding met “Success”. Nu kan je op de knop View Archive drukken in het tabblad Basic. Je gearchiveerde website zal dan openen in een browser, klaar om te bekijken.

5. Gebruik een widget als je de opdrachtregel durft te gebruiken

Onze laatste manier om een website te archiveren, vereist dat je een paar dingen hebt voordat je aan de slag gaat.

  • Toegang tot je computer via de opdrachtregel
  • Een goede Command Line tool, zoals Windows Command Prompt of de Terminal op macOS en Linux
  • Wget moet geïnstalleerd zijn op je computer

De eerste twee zijn meestal niet zo’n probleem.

Op macOS kan je Wget installeren via Homebrew, met de brew install wget opdracht. Je zal dus ook Homebrew nodig hebben, maar dat duurt maar een paar seconden om te installeren. Op Linux is Wget over het algemeen standaard al geïnstalleerd.

Ben je een Windows gebruiker, dan kan het wat lastiger zijn om Wget op je computer te installeren. Alhoewel er zeker tutorials te vinden zijn online, lijken de aanwijzingen per computer te verschillen. We raden je dus aan om gewoon naar de officiële Wget website te gaan en de beschikbare Windows binaries te bekijken, aangezien die waarschijnlijk prima zullen werken.

Nadat je Wget eenmaal geïnstalleerd hebt, is het gebruiken ervan vrij eenvoudig. Je gaat eerst naar een map in een nieuw venster. In het voorbeeld maken we ook een map aan, maar dat is optioneel.

cd documents && mkdir archive && cd archive

Let op dat Wget alle downloads zal plaatsen in de working directory (werkmap) die op dat moment is ingesteld. In dit geval hebben wij dus een speciale map aangewezen voor de bestanden.

Vervolgens kan je een website crawlen en alle bestanden verzamelen. Elke actie wordt via de wget opdracht uitgevoerd, waarbij je dit format gebruikt:

wget "https://kinsta.com/" --warc-file="kins"

Door op Enter te drukken start het downloaden van kinsta.com naar een index.html bestand en wordt een WARC bestand aangemaakt met de naam kins-00000.warc.gz.

Een website gearchiveerd als WARC bestand.
Een website gearchiveerd als WARC bestand.

Wget is erg krachtig, en je kan allerlei verschillende opdrachten en opties gebruiken. Zo kan je bijvoorbeeld de opdracht -mirror gebruiken om een WARC bestand te maken met de complete mirror van je website. Je kan ook de opdracht --no-warc-compression gebruiken om ongecomprimeerde bestanden te maken, alhoewel dit natuurlijk aanzienlijk meer ruimte per download kost. Het gebruiken van de ingebouwde compressor is ideaal.

Samenvatting

Webarchivering is voortgekomen uit de behoefte om het snel veranderende internet te documenteren voor de toekomst. Maar er zijn nu allerlei goede toepassingen, bijvoorbeeld voor het nakomen van wettelijke verplichtingen, of het gebruik in rechtszaken. Wat je behoefte ook is, door een goed gestructureerd en georganiseerd archief te hebben, kan je hele back-up strategie aanzienlijk sterker worden.

Gelukkig zijn er allerlei oplossingen beschikbaar om je daarbij te helpen. De meeste browsers bieden je de mogelijkheid om een webpagina op te slaan op je computer, alhoewel oplossingen zoals DevKinsta ook erg handige tools zijn. Maar speciale archiveringstool zoals de Wayback Machine, Heritrix, WAIL, en Wget zijn allemaal speciale robuuste oplossingen en bieden gestandaardiseerde bestandstypen om mee te werken.

Heeft dit artikel ervoor gezorgd dat je zelf ook een website wil archiveren? Deel jouw gedachten en meningen in de reacties hieronder!

Salman Ravoof

Salman Ravoof is a self-taught web developer, writer, creator, and a huge admirer of Free and Open Source Software (FOSS). Besides tech, he's excited by science, philosophy, photography, arts, cats, and food. Learn more about him on his website, and connect with Salman on Twitter.