La maintenance de votre site web implique de disposer d’une stratégie de sauvegarde dédiée. Si les sauvegardes sont essentielles, elles ne sont pas le seul moyen de préserver votre site. Le prolongement naturel de la sauvegarde est l’archivage d’un site web, bien qu’il s’agisse de processus complémentaires.

Il existe plusieurs façons flexibles d’archiver un site web. La bonne nouvelle est qu’elles sont toutes conviviales et accessibles. Il vous suffit de choisir la solution qui convient le mieux à vos besoins et à vos exigences.

Dans cet article, nous allons voir comment archiver un site web. Nous explorerons également les différents types d’archivage que vous pourrez rencontrer, nous ferons le tour de quelques-uns des outils d’archivage de sites les plus connus et nous discuterons de quelques conseils pour archiver votre site.

Une introduction à l’archivage des sites web

L’archivage d’un site web consiste à préserver le contenu, les données et les médias pour une consultation ultérieure. En utilisant un service dédié tel que la Wayback Machine (mais nous aborderons d’autres solutions plus tard), vous pouvez visualiser les anciennes versions d’un site web.

À quoi ressemblait le site web de Kinsta en 2015 - nous avons parcouru un long chemin !
À quoi ressemblait le site web de Kinsta en 2015 – nous avons parcouru un long chemin !

D’un point de vue technique, les crawlers prennent des instantanés d’un site web, ce qui constitue l’archive elle-même. Vous pouvez y accéder à l’aide d’un simple calendrier et visualiser chaque itération dans un format chronologique si vous le souhaitez.

L'archive du calendrier Wayback Machine pour le site web de Kinsta.
L’archive du calendrier Wayback Machine pour le site web de Kinsta.

Quant à savoir pourquoi des solutions telles que la Wayback Machine existent, il faut remonter au début des années 2000. La bulle Internet avait pratiquement éclaté et de nombreuses entreprises étaient en train de disparaître. Certains sites web populaires ont été fermés ou abandonnés, laissant peu de souvenirs derrière eux.

Tout comme d’autres formats de médias avant l’internet, telles que la musique et la télévision, ces sites web avaient une valeur historique et nostalgique. Les enregistrer signifiait donner aux futurs utilisateurs d’Internet un aperçu du chemin parcouru par rapport à la technologie antérieure.

L’Internet Archive a lancé la Wayback Machine pour aider à préserver les sites web. Si un site y a été archivé, vous pouvez voir comment un site a évolué au fil des ans.

L’archivage d’un site web nécessite de nombreux crawlers, y compris d’énormes crawls individuels dont la réalisation peut prendre des années. Le travail nécessaire pour effectuer les « expéditions » d’exploration et stocker les instantanés qui en résultent est immense.

Par exemple, le premier serveur de 100 téraoctets (To) de Wayback Machine est devenu opérationnel en 2004. À la fin de 2020, Wayback Machine avait stocké plus de 70 pétaoctets (Po) de données. Cela représente plus de 70.000 téraoctets.

Cependant, tout le monde n’est pas à l’aise avec le travail d’Internet Archive. Plusieurs discussions et contestations juridiques ont eu lieu pour savoir si l’archivage d’un site web enfreignait les droits d’auteur existants.

Pourtant, compte tenu de l’augmentation considérable du nombre d’archives stockées, la volonté de préserver les sites web est manifeste.

Pourquoi vouloir archiver un site web

Il existe de nombreuses raisons de vouloir archiver un site web, autres que de simples raisons nostalgiques. Pour une analogie avec le monde réel, regardez GitHub.

L'infrastructure de GitHub ressemble beaucoup à une archive Internet.
L’infrastructure de GitHub ressemble beaucoup à une archive Internet.

Github stocke les dépôts d’un projet, ainsi que chaque « commit » effectué. Pour comparer cela à l’archivage sur Internet, les dépôts représentent l’archive entière, et les commits sont les instantanés.

De la même manière que les dépôts Git sont précieux, les archives le sont aussi. Par exemple, vous pouvez consulter les itérations précédentes de votre site, même si elles datent de plusieurs années, pour influencer vos choix de conception actuels.

Par ailleurs, il se peut que vous soyez légalement obligé d’archiver votre site, surtout si vous êtes dans le secteur financier ou juridique.

Enfin, si vous avez le malheur d’être impliqué dans un litige concernant votre site, vos archives seront des preuves précieuses. Si vous pouvez présenter des archives de site claires et complètes, vous pouvez éviter les litiges avant même que les tribunaux ne s’en mêlent.

La différence entre les sauvegardes et l’archivage

Avant de parler des différents types d’archivage web disponibles, il convient de revenir sur un sujet que nous avons abordé précédemment. Sur le papier, la sauvegarde et l’archivage d’un site web semblent similaires. Cependant, elles accomplissent des tâches différentes qui se complètent. En bref :

  • Les sauvegardes sont basées sur les données. Elles visent davantage à préserver les données de votre site. Étant donné que les sauvegardes sont essentielles si vous devez restaurer votre site, il est primordial de disposer d’une sauvegarde complète de vos données.
  • Les archives préservent le contexte plutôt que les données. Si vous parcourez les archives de votre site web préféré, vous remarquerez que les fonctionnalités sont souvent inégales. Cependant, la conception du site et son contenu statique sont généralement intacts.

Il convient de noter que l’archivage ne cherche pas à éviter complètement les efforts de préservation des données. En effet, l’un de ses avantages est de permettre aux utilisateurs de naviguer sur votre site comme s’il était en ligne. Néanmoins, étant donné que des sites tels que la Wayback Machine existent en tant que « voie de mémoire » virtuelle, la préservation de l’aspect visuel est plus importante que la préservation de la fonctionnalité backend.

En bref, vous voudrez utiliser à la fois des sauvegardes et des archives pour votre site – les premières comme protection quotidienne au cas où le pire se produirait, et les secondes comme moyen supplémentaire de documenter l’évolution de votre site.

Les différents types d’archivage web que vous rencontrerez

L’archivage web n’a pas qu’une seule saveur. Vous en rencontrerez plusieurs types différents. Voici une description de chacun d’entre eux :

  • Côté client : l’utilisateur final sauvegarde une version du site web en question. C’est une méthode simple, évolutive et qui permet d’archiver un site web sans problème.
  • Côté serveur : l’approche de Wayback Machine et d’autres est classée dans la catégorie de l’archivage côté serveur. Elle utilise des robots d’exploration et d’autres technologies pour archiver un site web, mais elle exige également un niveau de consentement qui n’existe pas dans l’archivage côté client.
  • Basé sur des transactions : bien que cette méthode soit toujours basée sur l’archivage côté serveur, elle est plus complexe et nécessite le consentement explicite du propriétaire du site. Essentiellement, elle archive les transactions du site entre l’utilisateur final et le serveur.

Pour les sites web simples avec des données statiques, associés à une stratégie d’archivage organisée, l’archivage côté client devrait convenir. Cependant, la plupart des autres sites privilégieront l’archivage côté serveur – l’archivage basé sur les transactions n’est pas nécessaire pour la plupart des sites web.

Enfin – et nous en parlerons plus en détail tout au long de cet article – vous devrez également réfléchir à l’endroit et à la manière dont vos archives sont stockées. Par exemple, une archive locale n’est pas un mauvais choix, mais vous pourriez la voir disparaître si vous avez une panne d’ordinateur. D’un autre côté, vous avez moins de contrôle sur ce qui est archivé si vous optez pour une solution tierce.

Comme on peut s’y attendre, la solution consiste à utiliser une approche à plusieurs facettes pour archiver un site web. Nous suggérons de traiter les archives comme des sauvegardes : conservez trois copies différentes dans des endroits distincts et synchronisées d’une manière ou d’une autre.

Vous pouvez également faire en sorte que l’une des archives soit active, afin de pouvoir tirer parti de toute fonctionnalité côté serveur sur votre site. Le résultat est un site web doté d’une solide stratégie de sauvegarde et d’archivage qui reste utile aux autres.

Guide des outils et sites d’archive Internet pour les débutants

Il existe une pléthore de solutions pour archiver un site web. Nous allons vous présenter quelques-unes des plus populaires, ainsi que notre opinion sur la façon dont elles pourraient vous convenir.

1. Wayback Machine

Wayback Machine.
Wayback Machine.

Tout d’abord, parlons de Wayback Machine. C’était la première de son genre, elle a donc servi de référence pour les autres outils d’archivage.

En tant que tel, il est probable que ce soit le premier endroit où l’on se rende lorsqu’on cherche à archiver un site web. Il propose de nombreux moyens de créer et de téléverser des archives, et même une API dédiée pour accéder à ses fonctionnalités. Il convient de noter qu’il s’agit également d’une solution d’archivage côté serveur.

Cela dit, en raison de la manière dont elle explore et archive les sites web, la Wayback Machine peut ne pas être en mesure de préserver toutes les fonctionnalités de votre site. Néanmoins, elle est considérée comme la norme industrielle pour les archivistes web, et elle est entièrement gratuite. Nous vous montrerons plus en détail plus loin dans ce t article comment archiver un site web à l’aide de Wayback Machine.

2. Archive.today

Le site Archive.today.
Le site Archive.today.

Le site suivant est Archive.today. Il ressemble en de nombreux points à Wayback Machine, jusqu’au design presque « rétro » du site. Ses serveurs de données sont basés en Europe, mais son approche de l’archivage est différente de celle de Wayback Machine.

Pour commencer, Archive.today n’est pas basé sur des robots d’exploration parcourant le web. Au lieu de cela, vous soumettez vos URL et acceptez de les inclure dans les archives. En outre, sa liste de fonctions est plus sommaire que celle des autres solutions. Il n’y a pas de politique de suppression robuste, par exemple, et le processus d’archivage exclut certains médias et types de fichiers.

Néanmoins, il est gratuit et convient si vous souhaitez disposer d’un endroit gratuit pour stocker des archives. Le site dispose même d’une fonctionnalité de recherche pour retrouver des sites précédemment archivés.

3. Heritrix

Le site web Heritrix.
Le site web Heritrix.

Jusqu’à présent, nous avons mentionné Internet Archive et Wayback Machine de manière presque interchangeable dans cet article. Wayback Machine n’est pourtant qu’un service parmi d’autres, et Internet Archive propose quelques autres produits d’archivage en dehors de celui-ci. Heritrix est un outil gratuit et open-source né d’une collaboration entre Internet Archive et les bibliothèques Nordic.

Il s’agit essentiellement d’un robot d’exploration du web et non d’un outil d’archivage complet. Cependant, vous pouvez regrouper tous les résultats de l’exploration. Bien que cela n’ait pas été le cas dans le passé, Wayback Machine utilise désormais Heritrix pour explorer les sites à inclure sur son propre site. Qui plus est, un grand nombre de bibliothèques et d’institutions utilisent Heritrix pour constituer des archives.

Malgré ses fonctionnalités impressionnantes, l’installation de Heritrix nécessite un certain savoir-faire technique. Il n’existe pas d’interface conviviale pour l’installer à votre place, vous devrez donc connaître Git, GitHub et la ligne de commande.

Comme d’autres solutions similaires, Heritrix est entièrement gratuit à utiliser, ce qui en fait une solution d’auto-archivage rentable.

4. Web Archiving Integration Layer (WAIL)

Le site Web Archiving Integration Layer (WAIL).
Le site Web Archiving Integration Layer (WAIL).

Si vous envisagez d’utiliser Heritrix pour archiver un site web, mais que les connaissances techniques requises pour installer simplement le logiciel vous rebutent, il existe une solution potentielle pour vous. Web Archiving Integration Layer (WAIL) est une application de bureau multi-plateforme gratuite et open-source qui vous offre une interface utilisateur graphique (GUI) fonctionnelle à utiliser, ainsi qu’un installateur.

La bonne nouvelle est qu’Heritrix est le moteur d’exploration de WAIL. Cela signifie que vous pouvez profiter de la puissance de Heritrix sans avoir à passer par GitHub et la ligne de commande. Par ailleurs, WAIL utilise le moteur OpenWayback pour « rejouer » les archives web.

Ainsi, vous disposez d’un outil d’archivage web complet, prêt à fonctionner sur votre machine. Nous vous montrerons également le fonctionnement exact de WAIL plus loin dans l’article.

5. Stillio

Le site web de Stillio.
Le site web de Stillio.

Notre avant-dernier outil d’archivage est présenté comme une solution automatisée qui prend des instantanés à intervalles réguliers. Stillio est un service premium qui se distingue des autres solutions d’archivage par son aspect et sa convivialité.

Le site web est élégant et vous offre une multitude d’options pour créer des archives qui répondent exactement à vos besoins. Par exemple, vous pouvez ajouter des balises et des titres personnalisés à vos URL.

De plus, vous pouvez choisir de stocker les archives dans Dropbox, Google Drive et d’autres services tiers.

Cependant, Stillio présente un énorme inconvénient : il ne prend pas en charge l’archivage en arrière-plan. Vous êtes limité à des captures d’écran de votre site web plutôt qu’à une archive complète des données. Pour de nombreuses applications, ce n’est pas suffisant.

Toutefois, Stillio pourrait être utile dans certains cas, notamment en tant qu’outil de gestion et de suivi de la marque. Par exemple, vous pouvez faire des captures d’écran des sites concurrents ou des résultats des moteurs de recherche. Il est également très utile pour la vérification du contenu.

Le prix de Stillio commence à 29 $ par mois et passe par quatre niveaux jusqu’à 299 $ par mois. C’est beaucoup demander, surtout quand il existe des alternatives gratuites avec des fonctionnalités plus puissantes. Mais s’il correspond parfaitement à votre cas d’utilisation, cela vaut la peine d’y jeter un œil !

6. Pagefreezer

Le site web de Pagefreezer.
Le site web de Pagefreezer.

Notre dernière solution est un autre outil automatisé. Pagefreezer offre bon nombre des mêmes avantages que Stillio, mais il permet également d’archiver le contenu des réseaux sociaux, les messages textuels, les sites complets et les plate-formes de collaboration au niveau de l’entreprise.

À première vue, Pagefreezer semble être une solution plus robuste que Stillio et aurait plus de valeur dans divers cas d’utilisation.

Par exemple, lorsque vous êtes légalement tenu d’archiver un site dans son intégralité, Pagefreezer fait l’affaire. Il vous permet d’automatiser le nombre d’instantanés et de les examiner à l’aide d’un navigateur d’archives de sites et d’un outil de comparaison.

Dans l’ensemble, Pagefreezer est une excellente solution d’entreprise pour l’archivage des documents professionnels. Les entreprises qui utilisent Yammer ou Chatter de Salesforce seront attirées par ce type de solution, tout comme les utilisateurs de Workplace.

Qu’est-ce que le format de fichier des archives web (WARC) ?

Si vous recherchez comment archiver un site web, vous rencontrerez le format Web Archive (WARC). Il s’agit d’une combinaison de divers fichiers d’archives de votre site, qui est portable et autonome.

L’Internet Archive a créé WARC pour préserver les données du web à long terme. L’International Internet Preservation Consortium (IIPC) a publié les spécifications complètes du format de fichier. Il permet de stocker des images, des métadonnées et pratiquement tout ce dont votre site a besoin pour fonctionner de manière autonome.

Alors qu’il s’agissait à l’origine d’un simple format de fichier pratique, WARC est aujourd’hui une norme ISO internationale pour les archives numériques. En tant que tel, il a été adopté par des gouvernements et d’autres organismes officiels. En fait, il existe plusieurs cas d’utilisation où un fichier WARC est vital :

  • E-discovery : Il s’agit du processus de litige au cours duquel les documents numériques sont recherchés et présentés pour être inclus dans un procès. Pour les enregistrements de réseaux sociaux, un fichier WARC répond à la norme juridique E-discovery.
  • Liberté d’information (FOI) : De nombreux gouvernements et organismes officiels utilisent les lois sur la liberté d’information et les archives ouvertes pour offrir un service de « droit de savoir » à leurs administrés. Le format WARC est idéal pour les enregistrements numériques.

WARC est utilisé par de nombreuses solutions d’archivage et de robots d’exploration, comme StormCrawler et Apache Nutch. Vous pouvez également modifier les réglages d’un outil en ligne de commande tel que Wget pour récupérer et empaqueter les requêtes sous forme de fichiers WARC. Nous y reviendrons plus en détails dans un instant.

Il y a beaucoup d’autres outils qui peuvent aussi produire des fichiers WARC. Par exemple, l’outil open source de sauvegarde des pages web wallabag peut le faire.

En guise d’alternative, grab-site est une application web qui permet d’explorer les archives sous forme de fichiers WARC.

L’ouverture d’un fichier WARC dépend de l’outil que vous utilisez. Quelle que soit la solution que vous préférez, n’oubliez pas que certains de ces outils n’ont pas été mis à jour depuis un certain temps.

Vous devez donc vous assurer que la solution que vous avez choisie fonctionne avec votre système actuel et qu’elle sera disponible à l’avenir. Vous vous épargnerez de nombreux maux de tête si vous évitez un outil qui pourrait être abandonné ou supprimé alors que vous êtes au milieu d’un projet d’archivage.

Conseils pour la gestion de vos archives hors ligne

Avant de voir comment archiver un site web, prenons quelques minutes pour vous aider à organiser vos archives existantes. Nous avons déjà abordé le sujet, mais la mise en place d’une approche solide rendra vos archives plus faciles à gérer. Les utilisateurs de votre site tireront également un meilleur parti d’une archive bien organisée.

Il y a trois éléments clés que vous devez garder à l’esprit :

  • Fréquence : Décidez de la fréquence à laquelle vous souhaitez archiver un site. Les sites gigantesques, dynamiques et complexes, avec des modifications quasi quotidiennes, nécessiteront des instantanés plus fréquents que les sites statiques.
  • Emplacement : Tout comme les sauvegardes, vous devez sauvegarder les archives dans plusieurs endroits différents, y compris dans le cloud. Suivez la règle du 3-2-1 pour une assurance supplémentaire. Nous vous suggérons également d’en faire plus si vous souhaitez capturer toute la profondeur de votre site.
  • Structure : À l’instar des répertoires de votre ordinateur, vous devriez envisager d’utiliser des répertoires explicites, subdivisés en fonction du nom des archives du site et de la date à laquelle un site spécifique a été archivé.

Bien que vous puissiez développer davantage l’administration de vos archives, ces trois conseils vous permettront de démarrer votre archivage du bon pied.

5 façons d’archiver un site web

Ci-dessous, nous allons vous proposer cinq façons différentes d’archiver un site web. Nous avons classé les solutions en fonction de leur difficulté relative. Toutefois, si vous repérez une solution qui vous semble adaptée à vos besoins actuels, n’hésitez pas à vous lancer et à en savoir plus.

1. Enregistrer une page unique sur votre ordinateur local

Tout d’abord, abordons la solution la plus simple. Elle est idéale si vous avez besoin d’archiver une seule page et, mieux encore, cette fonctionnalité est déjà présente dans pratiquement tous les navigateurs.

Pour commencer, ouvrez votre navigateur préféré et rendez-vous sur le site web que vous souhaitez archiver. Une fois la page chargée, accédez au menu Fichier de votre navigateur et trouvez l’option Enregistrer la page sous :

Le menu Fichier de Firefox contient la fonctionnalité dont vous avez besoin pour enregistrer une seule page web.
Le menu Fichier de Firefox contient la fonctionnalité dont vous avez besoin pour enregistrer une seule page web.

Ensuite, cliquez sur l’option permettant d’enregistrer la page, et le navigateur vous montrera alors une boîte de dialogue.

Ici, choisissez un nom pour votre page (bien que la valeur par défaut convienne). Assurez-vous également que vous enregistrez l’ensemble de la page plutôt que juste le HTML. Cela permettra de préserver le site avec le plus de fonctionnalités possibles.

2. Utiliser DevKinsta pour archiver votre site web WordPress

DevKinsta peut également vous aider à archiver un site web.
DevKinsta peut également vous aider à archiver un site web.

Nous pensons que DevKinsta est un outil essentiel pour créer et déployer des sites WordPress. Cependant, il a aussi une autre corde à son arc : il vous aide à archiver vos sites web hébergés par Kinsta.

Nous avons couvert l’ensemble du processus d’extraction d’une sauvegarde externe de MyKinsta dans DevKinsta dans l’un de nos articles de la base de connaissances. Pour résumer :

  • Créez et téléchargez une sauvegarde dans MyKinsta.
  • Créez un nouveau site avec DevKinsta.
  • Importez votre contenu et votre base de données.
  • Effectuez une recherche et un remplacement sur votre base de données pour changer le nom de l’URL de votre site en production vers votre nouvelle archive locale.

À ce stade, vous pouvez ouvrir votre site dans DevKinsta et l’utiliser comme s’il était en ligne.

3. Utiliser une archive en ligne (comme Wayback Machine)

Aucun tutoriel ne serait complet sans vous montrer comment fonctionne Wayback Machine. Heureusement, le processus est simple. Cela dit, notez que cette méthode ne vous permet d’archiver que des pages individuelles (bien que le service d’abonnement d’Archive-It vous permette d’archiver des sites complets).

Pour cette approche, rendez-vous sur la page d’accueil de Wayback Machine et consultez le formulaire Enregistrer la page maintenant :

Le formulaire Enregistrer la page maintenant sur le site de la Wayback Machine.
Le formulaire Enregistrer la page maintenant sur le site de Wayback Machine.

Pour archiver une page, il suffit d’ajouter l’URL que vous souhaitez enregistrer dans ce formulaire, puis de cliquer sur Enregistrer la page. En fonction de la taille ou de la complexité de la page, il se peut que vous deviez attendre quelques minutes pendant que le robot d’exploration et le moteur font leur travail. Il se peut que la page ait l’air de s’être écrasée. Lors de nos tests, nous avons été confrontés à un écran blanc de la mort (WSoD) pendant un certain temps.

Cependant, une fois que la page a été archivée, Wayback Machine vous redirigera vers la nouvelle page dédiée.

Une page Kinsta archivée sur la Wayback Machine.
Une page Kinsta archivée sur la Wayback Machine.

Notez que vous pouvez également utiliser un marque-page et une extension de navigateur pour archiver un site web. En fait, la plupart des navigateurs actuels disposent de ces options, notamment Google Chrome, Firefox et Safari.

4. Installer Web Archiving Integration Layer (WAIL)

Votre première étape avec cette approche est de télécharger WAIL et de l’installer. Heureusement, il y a un installateur dédié pour l’outil (bien que, comme le programme est écrit en Python, il utilise le module PyInstaller).

Le processus d’installation est un jeu d’enfant. Quel que soit votre système d’exploitation (OS), vous pouvez effectuer les opérations suivantes :

  • Rendez-vous sur le site web de WAIL et téléchargez le programme d’installation approprié pour votre système d’exploitation.
  • Décompressez le fichier pour la version Windows, ou montez l’image DMG pour macOS.
  • Dans la boîte de dialogue qui s’affiche pour macOS, faites glisser l’icône de l’application vers votre répertoire Applications. Pour les utilisateurs de Windows, faites simplement glisser le dossier décompressé vers votre lecteur racine C:\.
  • Lancez soit WAIL.app soit WAIL.exe (selon votre système d’exploitation).

Une fois que WAIL est ouvert, vous verrez son interface :

L'interface WAIL vous offre trois options.
L’interface WAIL vous offre trois options.

Vous avez maintenant le choix entre trois options : voir une archive, vérifier son état ou archiver un site web. Les boutons sont légèrement déroutants, car votre penchant naturel est de lire de gauche à droite. Cependant, au premier lancement, vous n’aurez rien dans vos archives.

Au lieu de cela, saisissez l’URL du site que vous voulez archiver, et cliquez sur Archiver maintenant ! Vous verrez WAIL commencer à explorer le site web. Vous pouvez vérifier l’état de votre exploration dans l’onglet Avancé > Heritrix :

WAIL montrant le statut actuel de la tâche de crawl.
WAIL montrant le statut actuel de la tâche de crawl.

Une fois que c’est fait, un message « Success » s’affiche. À ce stade, vous pouvez cliquer sur le bouton Voir l’archive dans l’onglet Basique. Votre site archivé s’ouvrira alors dans un navigateur, prêt à être consulté.

5. Utilisez Wget si vous êtes à l’aise avec la ligne de commande

Pour notre dernière méthode d’archivage d’un site web, vous aurez besoin de quelques éléments avant de commencer :

  • Un accès en ligne de commande pour votre ordinateur
  • Un outil de ligne de commande approprié, tel que Windows Command Prompt ou Terminal sur macOS et Linux.
  • Wget installé sur votre ordinateur

Vous avez probablement déjà les deux premiers.

Sur macOS, vous pouvez installer Wget via Homebrew avec la commande brew install wget. Notez que vous devez également installer Homebrew, mais cela ne prend que quelques secondes. Sous Linux, Wget est préinstallé sur la plupart des principales distributions.

Si vous êtes un utilisateur de Windows, vous aurez peut-être plus de mal à installer Wget sur votre ordinateur. Bien qu’il existe des tutoriels, leurs conseils ne semblent pas cohérents d’une machine à l’autre. Nous vous recommandons plutôt de vous rendre sur le site officiel de Wget et de vérifier certains des binaires Windows disponibles, car ils sont plus susceptibles de fonctionner pour vous.

Quoi qu’il en soit, une fois que vous avez installé Wget, son utilisation est simple. Tout d’abord, rendez-vous dans un répertoire dans une nouvelle fenêtre de terminal. Ici, nous créons également le répertoire, mais cette étape est facultative :

cd documents && mkdir archive && cd archive

Notez que Wget placera tous les téléchargements dans le répertoire de travail, quel qu’il soit. Dans ce cas, nous avons spécifié un répertoire pour nos fichiers.

Ensuite, vous voudrez explorer un site et extraire les fichiers. Chaque action est invoquée à l’aide de la commande wget, et vous voudrez utiliser le format suivant :

wget "https://kinsta.com/" --warc-file="kins"

En appuyant sur la touche Entrée, le téléchargement de kinsta.com vers un fichier index.html commencera et un fichier WARC nommé kins-00000.warc.gz sera créé.

Un site archivé sous forme de fichier WARC.
Un site archivé sous forme de fichier WARC.

Wget est puissant, et il existe de nombreuses commandes et options que vous pouvez utiliser. Par exemple, vous pouvez utiliser la commande --mirror pour créer un fichier WARC contenant le miroir complet de votre site. Vous pouvez également utiliser la commande --no-warc-compression pour écrire des fichiers non compressés, bien que cela prenne évidemment plus d’espace par téléchargement. L’utilisation du compresseur intégré est l’approche optimale.

Résumé

L’archivage web est né du besoin de documenter l’évolution rapide de l’Internet. Il a maintenant de multiples applications valables – par exemple, dans le cas de dossiers et d’exigences juridiques. Quel que soit votre besoin, disposer d’archives bien structurées et organisées peut compléter votre stratégie globale de sauvegarde.

Heureusement, il existe de nombreuses solutions pour vous aider. La plupart des navigateurs offrent la possibilité d’enregistrer une page web sur votre ordinateur, bien que des solutions telles que DevKinsta soient également capables de faire ce travail. Cependant, les outils d’archivage dédiés tels que Wayback Machine, Heritrix, WAIL et Wget sont tous des solutions particulièrement robustes et offrent des formats de fichiers standardisés pour travailler.

Cet article vous a-t-il donné envie d’archiver votre propre site web ? Partagez vos pensées et opinions dans la section des commentaires ci-dessous !

Salman Ravoof

Salman Ravoof est un développeur web autodidacte, un écrivain, un créateur et un grand admirateur des logiciels libres. Outre la technologie, il est passionné par la science, la philosophie, la photographie, les arts, les chats et la nourriture. Apprenez-en plus sur son site web, et connectez-vous avec Salman sur X.