Um deine Webseite aufrechtzuerhalten, musst du eine Backup-Strategie haben. Während Backups essentiell sind, sind sie nicht der einzige Weg, um deine Webseite zu schützen. Die natürliche Erweiterung des Backups ist die Archivierung einer Webseite – obwohl es sich um komplementäre Prozesse handelt.

Es gibt mehrere flexible Möglichkeiten, eine Webseite zu archivieren. Die gute Nachricht ist, dass sie alle benutzerfreundlich und zugänglich sind. Du musst nur die richtige Lösung für deine Bedürfnisse und Anforderungen auswählen.

In diesem Beitrag werden wir uns ansehen, wie man eine Webseite archiviert. Wir werden auch die verschiedenen Archivierungsarten untersuchen, die dir begegnen können, einige der bekanntesten Tools für die Archivierung deiner Webseite vorstellen und einige Tipps für die Archivierung deiner Webseite diskutieren.

Eine Einleitung zur Archivierung von Webseiten

Eine Webseite zu archivieren bedeutet, den Inhalt, die Daten und die Medien für eine spätere Verwendung zu bewahren. Mit Hilfe eines speziellen Dienstes wie der Wayback Machine (zu anderen Lösungen kommen wir später) kannst du dir ältere Versionen einer Webseite ansehen.

So sah die Webseite von Kinsta im Jahr 2015 aus - wir haben einen weiten Weg zurückgelegt!
So sah die Webseite von Kinsta im Jahr 2015 aus – wir haben einen weiten Weg zurückgelegt!

Auf technischer Ebene nehmen Crawler Schnappschüsse einer Webseite auf, die das eigentliche Archiv bilden. Du kannst es mit Hilfe eines einfachen Kalenders abrufen und jede Iteration in einem Timeline-Format betrachten, wenn du möchtest.

Das Wayback Machine Kalenderarchiv für die Webseite von Kinsta
Das Wayback Machine Kalenderarchiv für die Webseite von Kinsta

Um zu verstehen, warum es Lösungen wie die Wayback Machine gibt, müssen wir in die frühen 2000er Jahre zurückgehen. Die Dot-Com-Blase war so gut wie geplatzt; viele Unternehmen gingen unter. Einige beliebte Webseiten wurden stillgelegt oder aufgegeben, wobei nur wenige Erinnerungen zurückblieben.

Ähnlich wie andere Medienformate vor dem Internet, wie Musik und Fernsehen, hatten diese Webseiten einen historischen und nostalgischen Wert. Sie zu retten bedeutete, zukünftigen Internetnutzern einen Einblick zu geben, wie weit wir uns von der früheren Technologie entfernt hatten.

Das Internet Archive hat die Wayback Machine ins Leben gerufen, um Webseiten zu erhalten. Wenn eine Webseite dort archiviert wurde, kannst du sehen, wie sich eine Webseite über die Jahre entwickelt hat.

Um eine Webseite zu archivieren, sind viele Crawler nötig, einschließlich riesiger einzelner Crawls, die Jahre dauern können. Der Aufwand, der nötig ist, um Crawling-„Expeditionen“ durchzuführen und die resultierenden Snapshots zu speichern, ist immens.

Der erste 100 Terabyte (TB) große Server von Wayback Machine wurde beispielsweise 2004 in Betrieb genommen. Bis Ende 2020 hatte Wayback Machine über 70 Petabyte (PB) an Daten gespeichert. Das sind über 70.000 Terabyte.

Doch nicht jeder ist mit der Arbeit des Internet Archive zufrieden. Es gab mehrere Diskussionen und rechtliche Anfechtungen, die darauf basierten, ob ein Archiv einer Webseite bestehende Urheberrechtsfragen bricht.

Dennoch, angesichts des beträchtlichen Wachstums der Anzahl der gespeicherten Archive, gibt es einen klaren Wunsch, Webseiten zu erhalten.

Warum du eine Webseite archivieren möchtest

Es gibt viele Gründe, warum man eine Webseite archivieren möchte, nicht nur aus nostalgischen Gründen. Für eine Analogie aus der realen Welt, schau dir GitHub an.

Die Infrastruktur von GitHub ist ähnlich wie ein Internetarchiv.
Die Infrastruktur von GitHub ist ähnlich wie ein Internetarchiv.

Github speichert Repositories eines Projekts, zusammen mit jedem „Commit“, der gemacht wird. Um dies mit der Archivierung im Internet zu vergleichen, stellen die Repositories das gesamte Archiv dar, und die Commits sind die Schnappschüsse.

Genauso wie Git Repositories wertvoll sind, ist es auch ein Archiv. Du kannst dir zum Beispiel frühere Versionen deiner Webseite ansehen – sogar von vor vielen Jahren – um deine aktuellen Designentscheidungen zu beeinflussen.

Außerdem bist du vielleicht gesetzlich verpflichtet, deine Webseite zu archivieren, besonders wenn du in der Finanz- oder Rechtsbranche tätig bist.

Solltest du das Pech haben, in einen Rechtsstreit um deine Webseite verwickelt zu werden, können deine Archive wertvolle Beweise sein. Wenn du ein klares und vollständiges Archiv deiner Webseite vorweisen kannst, kannst du Streitigkeiten abwenden, noch bevor die Gerichte eingeschaltet werden.

Der Unterschied zwischen Backups und Archivierung

Bevor wir über die verschiedenen Arten der Web-Archivierung sprechen, lohnt es sich, auf ein Thema zurückzukommen, das wir bereits angesprochen haben. Auf dem Papier sehen ein Backup deiner Webseite und ein Archiv ähnlich aus. Sie erfüllen jedoch unterschiedliche Aufgaben, die sich gegenseitig ergänzen. In aller Kürze:

  • Backups sind datenbasiert. Es geht darum, die Daten deiner Webseite zu bewahren. Da Backups lebenswichtig sind, wenn du deine Webseite wiederherstellen musst, ist ein komplettes Backup deiner Daten das A und O.
  • Archive bewahren den Kontext über die Daten. Wenn du das Archiv deiner bevorzugten Webseite durchstöberst, wirst du feststellen, dass die Funktionalität oft lückenhaft ist. Das Design der Webseite und der statische Inhalt sind jedoch meist intakt.

Es ist erwähnenswert, dass die Archivierung nicht so aussieht, als würde sie die Datenerhaltung komplett ausschließen. In der Tat ist einer der Vorteile, dass die Nutzer auf deiner Webseite navigieren können, als wäre sie live. Wenn man bedenkt, dass Webseiten wie die Wayback Machine als virtuelle „Erinnerungsspur“ existieren, hat die Beibehaltung der Optik eine höhere Priorität als die Erhaltung der Backend-Funktionalität.

Kurz gesagt, du solltest sowohl Backups als auch Archive für deine Webseite verwenden – erstere als tägliche Absicherung für den Fall, dass das Schlimmste passiert, und letztere als zusätzliche Möglichkeit, die Entwicklung deiner Webseite zu dokumentieren.

Die verschiedenen Arten der Web-Archivierung, die du kennenlernen wirst

Web-Archivierung gibt es nicht nur in einer Variante. Es gibt ein paar verschiedene Arten, die du kennenlernen wirst. Hier ist eine Aufschlüsselung:

  • Client-seitig: Es geht darum, dass der Endnutzer eine Version der Webseite speichert. Es ist einfach, skalierbar und lässt dich eine Webseite ohne viel Aufhebens archivieren.
  • Server-seitig: Der Ansatz der Wayback Machine und anderer wird als serverseitige Archivierung bezeichnet. Es nutzt Crawler und andere Technologien, um eine Webseite zu archivieren, aber es erfordert auch ein Maß an Zustimmung, das bei der clientseitigen Archivierung nicht gegeben ist.
  • Transaktionsbasiert: Während dies immer noch auf der serverseitigen Archivierung basiert, ist es komplexer und erfordert die ausdrückliche Zustimmung des Betreibers der Webseite. Im Wesentlichen archiviert es die Transaktionen zwischen dem Endnutzer und dem Server auf deiner Webseite.

Für einfache Webseiten mit statischen Daten, gepaart mit einer organisierten Archivierungsstrategie, sollte die clientseitige Archivierung ausreichen. Die meisten anderen Webseiten werden jedoch serverseitige Archive bevorzugen – eine transaktionsbasierte Archivierung ist für die meisten Webseiten nicht notwendig.

Zu guter Letzt – und darauf werden wir im Laufe des Beitrags noch genauer eingehen – solltest du dir auch überlegen, wo und wie deine Archive gespeichert werden. Ein lokales Archiv ist zum Beispiel keine schlechte Wahl, aber es könnte verschwinden, wenn du einen Computerausfall hast. Auf der anderen Seite hast du weniger Kontrolle darüber, was archiviert wird, wenn du dich für eine Drittanbieter-Lösung entscheidest.

Wie zu erwarten, ist die Antwort hier ein vielseitiger Ansatz, um eine Webseite zu archivieren. Wir schlagen vor, Archive wie Backups zu behandeln: drei verschiedene Kopien an verschiedenen Orten und irgendwie synchronisiert.

Vielleicht möchtest du eines der Archive auch live schalten, damit du alle serverseitigen Funktionen auf deiner Webseite nutzen kannst. Das Ergebnis ist eine Webseite mit einer robusten Backup- und Archivierungsstrategie, die für andere nützlich bleibt.

Ein Leitfaden für Anfänger zu Internet Archiv Tools und Webseiten

Es gibt eine Fülle von Lösungen, um eine Webseite zu archivieren. Wir stellen dir ein paar der beliebtesten vor, zusammen mit unserer Meinung, wie es für dich geeignet sein könnte.

1. Wayback Machine

The Wayback Machine
The Wayback Machine

Als erstes wollen wir über die Wayback Machine sprechen. Sie war die erste ihrer Art und hat damit den Maßstab für andere Archivierungs-Tools gesetzt.

Daher wird es wahrscheinlich die erste Anlaufstelle sein, wenn du eine Webseite archivieren willst. Es gibt viele Möglichkeiten, Archive zu erstellen und hochzuladen, und sogar eine eigene API, um die Funktionen zu nutzen. Es ist erwähnenswert, dass es sich um eine serverseitige Archivlösung handelt.

Aufgrund der Art und Weise, wie Webseiten gecrawlt und archiviert werden, kann es sein, dass die Wayback Machine nicht alle Funktionen deiner Webseite bewahren kann. Nichtsdestotrotz gilt es als der Industriestandard für Web-Archivierer und ist obendrein kostenlos. Wir zeigen dir später in diesem Artikel, wie du eine Webseite mit der Wayback Machine archivieren kannst.

2. Archive.today

Die Webseite von Archive.today.
Die Webseite von Archive.today.

Als nächstes ist Archive.today an der Reihe. Es ist in vielerlei Hinsicht der Wayback Machine ähnlich – sogar bis hin zum fast „Retro“-Design der Webseite. Die Datenserver befinden sich in Europa, aber es geht anders an die Archivierung heran als die Wayback Machine.

Zunächst einmal basiert Archive.today nicht auf Crawlern, die über das Web laufen. Stattdessen übermittelst du deine URLs und stimmst der Aufnahme in das Archiv zu. Außerdem ist die Liste der Funktionen kürzer als bei anderen Lösungen. Es gibt zum Beispiel keine robuste Löschpolitik und der Archivierungsprozess schließt bestimmte Medien und Dateitypen aus.

Dennoch ist es kostenlos und geeignet, wenn du einen kostenlosen Ort zum Speichern von Archiven suchst. Die Webseite verfügt sogar über eine Suchfunktion, um bereits archivierte Webseiten zu finden.

3. Heritrix

Die Heritrix Webseite
Die Heritrix Webseite

Wir haben das Internet Archive und die Wayback Machine in diesem Post bisher fast austauschbar erwähnt. Die Wayback Machine ist jedoch nur ein Dienst und das Internet Archive bietet neben ihr noch einige andere Archivierungsprodukte an. Heritrix ist ein kostenloses Open Source Tool, das aus einer Zusammenarbeit zwischen dem Internet Archive und nordischen Bibliotheken entstanden ist.

Es ist im Wesentlichen ein Webcrawler und kein vollwertiges Archivierungs Tool. Allerdings kannst du alle gecrawlten Ergebnisse zusammenpacken. Während dies in der Vergangenheit nicht der Fall war, nutzt die Wayback Machine nun Heritrix, um Webseiten zu crawlen, die auf ihrer eigenen Webseite aufgenommen werden sollen. Darüber hinaus nutzen viele Bibliotheken und Institutionen Heritrix, um Archive aufzubauen.

Trotz seiner beeindruckenden Funktionen erfordert das Installieren von Heritrix ein gewisses technisches Know-how. Es gibt kein benutzerfreundliches Interface, um es für dich zu installieren, also brauchst du Kenntnisse über Git, GitHub und die Kommandozeile.

Wie bei anderen ähnlichen Lösungen auch, ist Heritrix komplett kostenlos, sodass es sich als kostengünstige Lösung zur Selbstarchivierung eignet.

4. Web Archiving Integration Layer (WAIL)

Die Webseite des Web Archiving Integration Layer (WAIL).
Die Webseite des Web Archiving Integration Layer (WAIL).

Wenn du Heritrix in Betracht ziehst, um eine Webseite zu archivieren, aber von den technischen Kenntnissen abgeschreckt wirst, die erforderlich sind, um die Software einfach zu installieren, gibt es eine mögliche Lösung für dich. Der Web Archiving Integration Layer (WAIL) ist eine kostenlose und Open Source plattformübergreifende Desktop-Applikation, die dir eine funktionale grafische Benutzeroberfläche (GUI) zur Verfügung stellt, die du zusammen mit einem Installationsprogramm nutzen kannst.

Die gute Nachricht ist, dass Heritrix die Crawling Engine von WAIL ist. Es bedeutet, dass du die Leistung von Heritrix nutzen kannst, ohne GitHub und die Kommandozeile durchqueren zu müssen. Außerdem nutzt WAIL die OpenWayback-Engine, um Web-Archive „wiederzugeben“.

So hast du ein vollwertiges Tool für die Web-Archivierung auf deinem Rechner. Wie WAIL genau funktioniert, zeigen wir dir im weiteren Verlauf des Artikels.

5. Stillio

Die Webseite von Stillio
Die Webseite von Stillio

Unser vorletztes Tool zur Archivierung wird als automatisierte Lösung angepriesen, die in festgelegten Intervallen Snapshots macht. Stillio ist ein Premium-Service, der sich von anderen Archivierungslösungen unterscheidet.

Die Webseite sieht schick aus und gibt dir unzählige Optionen, um ein Archiv zu erstellen, das genau deinen Anforderungen entspricht. Du kannst zum Beispiel Tags und eigene Titel zu deinen URLs hinzufügen.

Außerdem kannst du deine Archive in Dropbox, Google Drive und anderen Diensten speichern.

Stillio hat jedoch einen großen Nachteil: Es unterstützt keine Backend-Archivierung. Du bist auf Screenshots deiner Webseite beschränkt und nicht auf ein komplettes Archiv der Daten. Für viele Anwendungen ist das nicht genug.

Dennoch kann Stillio in einigen Fällen nützlich sein, wie z.B. als Markenmanagement und Tracking Tool. Zum Beispiel kannst du Screenshots von deinen Webseiten oder von Suchmaschinenergebnissen machen. Es ist auch großartig für die Überprüfung von Inhalten.

Der Preis von Stillio beginnt bei $29 pro Monat und steigt über vier Stufen bis zu $299 pro Monat. Es ist eine große Herausforderung, besonders wenn es kostenlose Alternativen mit leistungsfähigeren Funktionen gibt. Aber wenn es perfekt zu deinem Anwendungsfall passt, dann ist es einen Blick wert!

6. Pagefreezer

Die Pagefreezer Website
Die Pagefreezer Website

Unsere letzte Lösung ist ein weiteres automatisiertes Tool. Pagefreezer bietet viele der gleichen Vorteile wie Stillio, aber es archiviert auch Social Media Inhalte, Textnachrichten, ganze Webseiten und Kollaborationsplattformen auf Unternehmensebene.

Oberflächlich betrachtet scheint Pagefreezer eine robustere Lösung zu sein als Stillio und würde in verschiedenen Anwendungsfällen einen größeren Wert haben.

Wenn du zum Beispiel gesetzlich verpflichtet bist, deine Webseite vollständig zu archivieren, ist Pagefreezer die richtige Wahl. Es erlaubt dir, die Anzahl der Snapshots zu automatisieren und sie mit einem Browser und einem Tool zum Vergleich von Webseitenarchiven zu überprüfen.

Insgesamt ist Pagefreezer eine großartige, unternehmensweite Lösung für die Archivierung von Arbeitsplätzen. Unternehmen, die Yammer oder Salesforce’s Chatter nutzen, werden sich zu dieser Art von Lösung hingezogen fühlen, ebenso wie die Workplace-Nutzer.

Was ist das Web Archive (WARC) Dateiformat?

Wenn du recherchierst, wie du eine Webseite archivieren kannst, wirst du auf das Webarchiv (WARC) Format stoßen. Es ist eine Kombination aus den verschiedenen Dateien deines Webseiten-Archivs, so dass es übertragbar und in sich geschlossen ist.

Das Internet Archive hat WARC entwickelt, um Webdaten langfristig zu erhalten. Das International Internet Preservation Consortium (IIPC) hat die vollständige Spezifikation des Dateiformats veröffentlicht. Es speichert Bilder, Metadaten und praktisch alles, was deine Webseite braucht, um eigenständig zu laufen.

Während es ursprünglich nur ein praktisches Dateiformat war, ist WARC nun ein internationaler ISO-Standard für digitale Archive. Als solcher wurde es von Regierungen und anderen offiziellen Stellen übernommen. In der Tat gibt es mehrere Anwendungsfälle, in denen eine WARC-Datei unerlässlich ist:

  • E-Discovery: Es ist der Prozess während eines Rechtsstreits, bei dem digitale Aufzeichnungen recherchiert und für die Einbeziehung in einen Prozess präsentiert werden. Für Social-Media-Aufzeichnungen erfüllt eine WARC-Datei den rechtlichen Standard der E-Discovery.
  • Freedom of Information (FOI): Es gibt viele Regierungen und Behörden, die die FOI- und Open-Records-Gesetze nutzen, um einen „Right to Know“-Service (RTK) für staatliche Wähler anzubieten. Das WARC-Format ist ideal in Fällen, die digitale Aufzeichnungen beinhalten.

WARC wird von vielen verschiedenen Archivierungslösungen und Crawlern verwendet, wie z.B. StormCrawler und Apache Nutch. Du kannst auch die Einstellungen eines Kommandozeilentools wie Wget so anpassen, dass es Anfragen als WARC-Dateien holt und verpackt. Wir werden dies in Kürze genauer besprechen.

Es gibt eine Menge anderer Tools, die ebenfalls WARC-Dateien ausgeben können. Das Open Source Tool wallabag zum Speichern von Webseiten kann dies zum Beispiel.

Eine Alternative ist grab-site, eine webbasierte Anwendung, die beim Crawlen von Archiven als WARC-Dateien hilft.

Das Öffnen einer WARC-Datei hängt von dem Tool ab, das du verwendest. Unabhängig davon, welche Lösung du bevorzugst, solltest du bedenken, dass einige dieser Tools seit einiger Zeit nicht mehr aktualisiert wurden.

Daher solltest du sicherstellen, dass die von dir gewählte Lösung mit deinem aktuellen System funktioniert und dass es auch in Zukunft verfügbar sein wird. Du ersparst dir eine Menge Kopfschmerzen, wenn du ein Tool vermeidest, das nicht mehr weiterentwickelt wird, während du mitten in einem Archivierungsprojekt steckst.

Tipps für die Verwaltung deiner Offline-Archive

Bevor wir uns damit beschäftigen, wie man eine Webseite archiviert, wollen wir uns ein paar Minuten Zeit nehmen, um dir bei der Organisation deiner bestehenden Archive zu helfen. Wir haben das Thema bereits angesprochen, aber eine solide Herangehensweise wird deine Archive überschaubarer machen. Auch die Nutzer deiner Webseite werden einen größeren Nutzen aus einem gut organisierten Archiv ziehen.

Es gibt drei Schlüsselelemente, die du im Auge behalten musst:

  • Frequenz: Entscheide, wie oft du eine Webseite archivieren möchtest. Riesige, dynamische, komplexe Webseiten mit fast täglichen Änderungen benötigen häufigere Snapshots als statische Webseiten.
  • Ort: Genau wie bei Backups solltest du Archive an verschiedenen Orten speichern, auch in der Cloud. Befolge die 3-2-1 Regel für zusätzliche Sicherheit. Wir würden auch mehr als das vorschlagen, wenn du die volle Tiefe deiner Webseite erfassen willst.
  • Struktur: Wie bei den Verzeichnissen deines Computers solltest du darauf achten, explizite Ordner zu verwenden, die in die Namen der Webseiten-Archive und das Datum, an dem eine bestimmte Webseite archiviert wurde, unterteilt sind.

Während du deine Archivverwaltung weiter ausbauen könntest, werden diese drei Tipps deine Archivierung auf dem richtigen Fuß beginnen.

5 Wege, eine Webseite zu archivieren

Im Folgenden schlagen wir dir fünf verschiedene Möglichkeiten vor, eine Webseite zu archivieren. Wir haben die Lösungen nach ihrem relativen Schwierigkeitsgrad geordnet. Wenn du jedoch eine Lösung entdeckst, von der du denkst, dass sie für deine aktuellen Bedürfnisse geeignet ist, kannst du gerne eintauchen und mehr herausfinden.

1. Speichere eine einzelne Seite auf deinem lokalen Computer

Als erstes wollen wir die einfachste Lösung besprechen. Es ist großartig, wenn du eine einzelne Seite archivieren musst, und noch besser, die Funktionalität ist bereits in praktisch jedem Browser vorhanden.

 

Um zu beginnen, öffne deinen Lieblingsbrowser und gehe zu der Webseite, die du archivieren möchtest. Sobald die Seite geladen ist, navigiere zum Dateimenü deines Browsers und suche die Option Seite speichern unter:

Das Dateimenü von Firefox enthält die Funktionalität, die du brauchst, um eine einzelne Webseite zu speichern.
Das Dateimenü von Firefox enthält die Funktionalität, die du brauchst, um eine einzelne Webseite zu speichern.

Als nächstes klickst du auf die Option zum Speichern der Seite, woraufhin der Browser dir ein Dialogfeld anzeigt.

Hier wählst du einen Namen für deine Seite aus (der Standardname ist jedoch in Ordnung). Achte außerdem darauf, dass du die gesamte Seite speicherst und nicht nur den HTML-Code. Es wird deine Webseite mit der größtmöglichen Funktionalität erhalten.

2. Verwende DevKinsta zum Archivieren deiner WordPress Webseite

DevKinsta kann dir auch dabei helfen, eine Webseite zu archivieren.
DevKinsta kann dir auch dabei helfen, eine Webseite zu archivieren.

Wir denken, dass DevKinsta ein unverzichtbares Tool für die Erstellung und Bereitstellung von WordPress Webseiten ist. Es hat aber noch einen weiteren Vorteil: Es hilft dir auch bei der Archivierung deiner von Kinsta gehosteten Webseiten.

Wir haben den gesamten Prozess, ein externes MyKinsta-Backup in DevKinsta zu ziehen, in einem unserer Knowledgebase-Artikel beschrieben. Um es zusammenzufassen:

  • Erstelle und lade ein Backup in MyKinsta herunter.
  • Erstelle eine neue Webseite mit DevKinsta.
  • Importiere deinen Inhalt und deine Datenbank.
  • Führe ein Suchen und Ersetzen in deiner Datenbank durch, um den URL-Namen von deiner Webseite in dein neues lokales Archiv zu ändern.

An diesem Punkt kannst du deine Webseite in DevKinsta öffnen und es so nutzen, als ob sie live wäre.

3. Verwende ein Online-Archiv (wie die Wayback Machine)

Kein Tutorial wäre vollständig, ohne dir zu zeigen, wie die Wayback Machine funktioniert. Glücklicherweise ist der Prozess sehr einfach. Beachte jedoch, dass du mit dieser Methode nur einzelne Seiten archivieren kannst (obwohl der abonnierte Archive-It Service es dir ermöglicht, ganze Webseiten zu archivieren).

Für diese Methode gehst du auf die Wayback Machine Homepage und schaust dir das Save Page Now Formular an:

Das Save Page Now Formular auf der Wayback Machine Webseite.
Das Save Page Now Formular auf der Wayback Machine Webseite.

Um eine Seite zu archivieren, füge einfach die URL, die du speichern möchtest, in dieses Formular ein und klicke dann auf Seite speichern. Je nachdem, wie groß oder komplex die Seite ist, kann es sein, dass du ein paar Minuten warten musst, während der Crawler und die Engine ihr Ding machen. Es könnte sein, dass die Seite so aussieht, als ob sie abgestürzt wäre. Bei unseren Tests wurden wir eine Zeit lang mit einem White Screen of Death (WSoD) konfrontiert.

Sobald die Seite jedoch archiviert wurde, leitet dich Wayback Machine auf die neue, dedizierte Seite weiter.

Eine Kinsta Seite archiviert auf der Wayback Machine.
Eine Kinsta Seite archiviert auf der Wayback Machine.

Beachte, dass du auch ein Bookmarklet und eine Browsererweiterung verwenden kannst, um eine Webseite zu archivieren. In der Tat haben die meisten aktuellen Browser diese Optionen von Haus aus, einschließlich Google Chrome, Firefox und Safari.

4. Installiere den Web Archiving Integration Layer (WAIL)

Dein erster Schritt bei diesem Ansatz ist es, WAIL selbst herunterzuladen und zu installieren. Glücklicherweise gibt es ein spezielles Installationsprogramm für das Tool (da das Programm in Python geschrieben ist, verwendet es das PyInstaller Modul).

Der Installationsprozess ist ein Kinderspiel. Unabhängig von deinem Betriebssystem (OS) kannst du die folgenden Schritte durchführen:

  • Navigiere zur WAIL Webseite und lade den passenden Installer für dein Betriebssystem herunter.
  • Entweder entpackst du die Datei für die Windows-Version oder du mountest das DMG-Image für macOS.
  • Auf dem resultierenden Dialogfenster für macOS ziehst du das App-Symbol in deinen Programme-Ordner. Für Windows-Benutzer ziehst du den entpackten Ordner einfach auf dein Stammlaufwerk C:\.
  • Starte entweder WAIL.app oder WAIL.exe (abhängig von deinem Betriebssystem).

Sobald WAIL geöffnet ist, siehst du sein minimales Interface:

Das WAIL Interface gibt dir drei Optionen
Das WAIL Interface gibt dir drei Optionen

Du hast nun drei Möglichkeiten zur Auswahl: ein Archiv ansehen, seinen Status überprüfen oder eine Webseite archivieren. Die Schaltflächen sind etwas verwirrend, da deine natürliche Neigung sein kann, von links nach rechts zu lesen. Wie auch immer, beim ersten Start wirst du nichts in deinem Archiv haben.

Gib stattdessen die URL deiner Webseite ein, die du archivieren möchtest, und klicke auf Jetzt archivieren! Du wirst sehen, wie WAIL beginnt, die Webseite zu crawlen. Du kannst den Status deines Crawls auf der Registerkarte Erweitert > Heritrix überprüfen:

WAIL zeigt den aktuellen Status des Crawl-Jobs an.
WAIL zeigt den aktuellen Status des Crawl-Jobs an.

Wenn es fertig ist, zeigt es dir eine „Success“-Meldung an. An diesem Punkt kannst du auf den View Archive Button im Basic Tab klicken. Dies öffnet deine archivierte Webseite in einem Browser, damit du sie dir ansehen kannst.

5. Wget verwenden, wenn du mit der Kommandozeile vertraut bist

Für unsere letzte Methode, eine Webseite zu archivieren, brauchst du ein paar Dinge, bevor du beginnst:

  • Kommandozeilenzugriff auf Ihren Computer
  • Ein geeignetes Kommandozeilen-Tool wie die Windows-Eingabeaufforderung oder Terminal unter macOS und Linux
  • Wget auf Ihrem Computer installiert

Die ersten beiden wirst du wahrscheinlich schon haben.

Unter macOS kannst du Wget über Homebrew mit dem Befehl brew install wget installieren. Beachte, dass du auch Homebrew installieren musst, aber es dauert nur ein paar Sekunden. Unter Linux ist Wget auf den meisten großen Distros vorinstalliert.

Wenn du ein Windows-Benutzer bist, kann es schwieriger sein, Wget auf deinem Computer zu installieren. Es gibt zwar Tutorials im Internet, aber die Anleitungen sind nicht einheitlich für alle Rechner. Stattdessen empfehlen wir dir, die offizielle Webseite von Wget zu besuchen und die verfügbaren Windows-Binärdateien auszuprobieren, da diese mit größerer Wahrscheinlichkeit für dich funktionieren.

Sobald du Wget installiert hast, ist es ganz einfach zu benutzen. Zuerst navigierst du in einem neuen Terminalfenster zu einem Verzeichnis. Hier legen wir das Verzeichnis auch an, aber dieser Schritt ist optional:

cd documents && mkdir archive && cd archive

Beachte, dass Wget alle Downloads in das Arbeitsverzeichnis zieht, welches auch immer dieses ist. In diesem Fall haben wir einen Ordner für unsere Dateien angegeben.

Als nächstes musst du eine Webseite crawlen und die Dateien abrufen. Jede Aktion wird mit dem wget-Befehl aufgerufen, und du solltest das folgende Format verwenden:

wget "https://kinsta.com/" --warc-file="kins"

Wenn du die Eingabetaste drückst, wird der Download von kinsta.com in eine indexieren.html Datei gestartet und eine WARC Datei mit dem Namen kins-00000.warc.gz erstellt.

Eine Webseite, die als WARC-Datei archiviert wurde
Eine Webseite, die als WARC-Datei archiviert wurde

Wget ist mächtig, und es gibt viele Befehle und Optionen, die du verwenden kannst. Zum Beispiel kannst du den Befehl --mirror verwenden, um eine WARC-Datei zu erstellen, die den kompletten Mirror deiner Webseite enthält. Du kannst auch den --no-warc-compression Befehl verwenden, um unkomprimierte Dateien zu schreiben, obwohl dies natürlich mehr Platz pro Download beanspruchen wird. Die Verwendung des eingebauten Kompressors ist der optimale Ansatz.

Zusammenfassung

Die Web-Archivierung ist aus der Notwendigkeit entstanden, die sich schnell verändernde Form des Internets zu dokumentieren. Es hat jetzt mehrere gültige Anwendungen – zum Beispiel im Fall von juristischen Dateien und Anforderungen. Unabhängig von deinem Bedarf, kann ein gut strukturiertes und organisiertes Archiv deine gesamte Backup-Strategie ergänzen.

Glücklicherweise gibt es eine Vielzahl von Lösungen, die dir dabei helfen. Die meisten Browser bieten die Möglichkeit, eine Webseite auf deinem Computer zu speichern, obwohl Lösungen wie DevKinsta auch fähige Tools für diese Aufgabe sind. Dedizierte Archivierungstools wie die Wayback Machine, Heritrix, WAIL und Wget sind jedoch alle besonders robuste Lösungen und bieten standardisierte Dateiformate zum Arbeiten.

Hat dieser Artikel dazu geführt, dass du eine eigene Webseite archivieren möchtest? Teile deine Gedanken und Meinungen unten in den Kommentaren mit!

Salman Ravoof

Salman Ravoof ist ein autodidaktischer Webentwickler, Autor, Kreativer und ein großer Bewunderer von Free and Open Source Software (FOSS). Neben Technik begeistert er sich für Wissenschaft, Philosophie, Fotografie, Kunst, Katzen und Essen. Erfahre mehr über ihn auf seiner Website und trete mit Salman auf X in Kontakt.