Um Webseiten oder komplette Internetauftritte zu archivieren, kann man auf verschiedene Tools zurückgreifen. Für die Linux-Kommandoziele existiert seit vielen Jahren das Tool wget.
Verwenden von wget zur Archivierung von Webseiten:
wget --mirror --page-requisites --adjust-extension --convert-links --no-parent --restrict-file-names=ascii -e robots=off -P <Speicherort> <URL>
--mirror
: Dieser Schalter erstellt ein Spiegelbild der Webseite.--page-requisites
: Lädt alle notwendigen Dateien, wie Bilder und Stylesheets, herunter.--adjust-extension
: Ändert die Dateinamen, um die Dateierweiterungen korrekt abzubilden.--convert-links
: Konvertiert die Verknüpfungen, damit sie lokal auf die heruntergeladenen Dateien zeigen.--no-parent
: Verhindert das Herunterladen von Dateien, die über das ursprüngliche Verzeichnis der Webseite hinausgehen.- –restrict-file-names=ascii: Der „ASCII“-Modus wird hier für die Dateinamen verwendet, um anzugeben, dass alle Bytes, deren Werte außerhalb des ASCII-Zeichenbereichs liegen (d. h. größer als 127), maskiert werden sollen. Dies kann beim Speichern von Dateinamen nützlich sein, deren Kodierung nicht mit der lokal verwendeten übereinstimmt.
-e robots=off
: Ignoriert Anweisungen vom Server aus der Datei robots.txt-P <Speicherort>
: Legt den Speicherort für das Webseitenarchiv fest.<URL>
: Die URL der Webseite, die du archivieren möchtest.
Nachdem der Befehl ausgeführt wurde, hat wget die Webseite herunterladen und ein Archiv erstellt.