[Linux] Copier un site web avec HTTrack

Si comme moi vous souhaitez héberger votre propre copie de WikiLeaks sans pour autant laisser un accès (même minimal) à votre serveur, cet article est fait pour vous! Cette fois ci, nous n’allons pas utiliser Wget mais HTTrack. HTTrack est aspirateur de site web: c’est à dire qu’il va créer une copie locale du site web souhaité.

1. Installation

C’est sans doute l’étape la plus simple. Ouvrez un terminal et exécutez-y cette commande:

sudo apt-get install httrack

C’est tout.

2. Copier un site web

Dans le cas de WikiLeaks, HTTrack génère un lien .html pour la page d’accueil de WikiLeaks.

1. Première copie

Cette étape est un peu longue mais ne sera à faire qu’une seule fois. Toujours dans le terminal, exécutez cette commande:

httrack --mirror --path /le/chemin/vers/le/repertoire/souhaite wikileaks.ch

Patientez. Le miroir est à présent créé!

2. Mettre à jour un miroir

La mise à jour d’un miroir est beaucoup moins longue et s’exécute toujours grâce à une simple ligne de commande:

httrack --update --path /le/chemin/vers/le/repertoire/du/miroir

3. Mise à jour automatique d’un miroir

Mettre à jour un miroir quotidiennement n’est pas toujours facile! Heureusement, la mise en place d’un système de mise à jour automatique est très simple à mettre en place. Commencez par éditer le fichier des tâches cron:

crontab -e

Puis ajoutez cette ligne autant de fois que nécessaire (si comme moi vous voulez récupérer une copie 4 fois par jour, répétez-la 3 fois): où 00 représente les minutes et 12 l’heure (de 00 à 23).

00 12 * * * httrack --update --path /le/chemin/vers/le/repertoire/du/miroir >>/le/chemin/vers/le/fichier/de.log