Zum offline Browsen

Mit wget vollständige Webseite herunterladen

Mit wget kann man einen vollständigen, statischen Abzug einer Webseite erstellen. Auf diesem Wege ist es zum Beispiel möglich eine Webseite für die offline Nutzung zu archivieren.

Voraussetzung ist die Verwendung des Kommandozeilen-Tools "wget" das Bestandteil jeder Linux Distribution und von Mac OS ist. Mit folgender Eingabe lässt sich eine komplette Webseite herunterladen (zum Beispiel diese hier).

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --domains www.zechendorf.com https://www.zechendorf.com/

Erklärung der Optionen

--recursive
Lädt Seiten rekursiv herunter und folgt somit allen Links.

--no-clobber
Falls der Download unterbrochen wurde, werden bereits heruntergeladene Seiten nicht erneut heruntergeladen.

--page-requisites
Lädt auch die für die Anzeige der Seite benötigten Inhalte (Bilder, Scripte) herunter.

--html-extension
Speichert alle Seiten als HTML-Dateien

--convert-links
Konvertiert die Links so, dass die heruntergeladenen Dateien sich untereinander verlinken (statt die original Quelle im Internet).

--domains zechendorf.com
Lädt ausschließlich Seiten der hier spezifizierten Domains herunter

Tipps für besonders umfangreiche Seiten

Bei besonders großen Webseiten kann das Herunterladen aller Seiten lange dauern und vor allen Dingen den Webserver belasten oder dafür sorgen, dass der crawlende Rechner geblacklistet wird. Um dies zu vermeiden können folgende beiden Optionen verwendet werden:

--wait=20
Wartet zwischen den Seitenaufrufen 20 Sekunden (kann natürlich auch geringer gesetzt werden).

--limit-rate=20k
Begrenzt die Downloadgeschwindigkeit auf 20K (was sehr defensiv wäre).