Copier un site avec HTTrack

le 15/09/2011 dans Linux #Linux#réseau#web

HTTrack est un logiciel libre sous licence GNU GPL, développé essentiellement par Xavier Roche, qui permet d'aspirer des sites web, c'est-à-dire de copier l'ensemble d'un site (pages html, images, autres fichiers) sur votre disque dur tout en conservant l'organisation des répertoires et en réécrivant les liens en relatif pour que vous puissiez naviguer au sein de votre copie comme vous le feriez sur le site original. Si HTTrack est à la base un logiciel en ligne de commande, il existe également une version avec une interface graphique ; HTTtrack est également disponible sous Windows. Je me contenterai dans cet article de présenter la version en ligne de commande.

Installation

Avant de pouvoir utiliser HTTrack, il faut l'installer :

$ sudo aptitude install httrack

Pour accéder au mode interactif de HTTrack, lancez la commande :

$ httrack

À propos de la version avec interface graphique

Si vous souhaitez d'une version « graphique », en réalité sous GNU Linux une application web-based, il vous faut installer le paquet webhttrack :

$ sudo aptitude install webhttrack

Pour le lancer :

$ webhttrack

La commande webhttrack fait appel à la variable x-www-browser qui définit le navigateur par défaut du système ; si celui-ci ne vous convient pas, vous pouvez en modifier la valeur en lançant la commande suivante :

$ sudo update-alternatives --config x-www-browser

Le mode interactif

Après avoir lancé la commande httrack, vous vous retrouvez dans le mode interactif de HTTrack et il n'y a plus qu'à vous laissez guider mais si vous voulez faire une simple copie, mis à part les trois premières questions auxquelles il vous faut répondre (ou pour la seconde directement valider si le chemin vous satisfait) :

Enter project name :NOM_PROJET
 
Base path (return=/home/$USER/websites/) :
 
Enter URLs (separated by commas or blank spaces) :URL_SITE URL_SITE2

il vous suffit ensuite de valider pour toutes les autres demandes, sauf bien sûr si vous avez des besoins spécifiques auquel cas je vous conseille de consulter l'aide de HTTrack :

$ man httrack

HTTrack sans le mode interactif

La commande httrack peut également être utilisée avec des arguments ; ainsi, si l'on souhaite créer une copie du site de HTTrack, nous commençons par créer un répertoire :

$ mkdir httrack_site

Puis, nous pouvons lancer une seule ligne de commande la copie du site en précisant le chemin vers lequel doit se faire la copie :

$ httrack http://www.httrack.com -O httrack_site/

Lors de la copie, si vous appuyez sur la touche Entrée, vous obtenez plus de détails (nom des fichiers en cours de copie, vitesse de transfert…).

Pour faire une mise à jour de votre miroir, il suffit de se placer dans le répertoire et de lancer HTTrack avec l'option --update :

$ cd httrack_site/
$ httrack --update