Statisches HTML aus dynamischer Webseite (Wordpress) erzeugen/crawlen

GDV Jahrbuch 2011

Für ein Projekt war es notwendig die dynamische, wordpress-basierte Webseite des Kunden als HTML auf eine CD zu brennen. Da Wordpress als PHP-basierte Software das Programm PHP benötigt (das natürlich auf fast keinem Desktop/Notebook zu finden ist), musste eine statische HTML-Version der Webseite erzeugt werden.

Dies war Serverseitig mittels wget und folgendem Aufruf möglich:

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains [domainnamme].[tld] --no-parent [http]://[domainname].[tld]

Hierdurch wurden -- angefangen von der Startseite -- alle Links der Webseite durchlaufen und die entsprechenden Seiten als HTML gespeichert. 

Tipp: Da über den HTML-Tag <base href="http://[domain.tld]"> bei dynamischen Seiten mit suchmaschinenfreundlichen URLs meist die Ursprungs-URL gesetzt ist (da sich z.B. CSS-Dateien und Bilder ja nicht relativ zu den suchmaschinenfreundlichen URLs befinden) sollten suchmaschinenfreundliche URLs deaktiviert und das BASE-Tag entfernt werden (da man ja später nicht weiß, wie z.B. das Verzeichnis auf dem Client-Rechner heißt, der die CD wiedergibt).

Erfahrungsgemäß kann man so nicht einfach ohne weitere Vorbereitung einen umfassenden Abzug erzeugen, es ist aber ein guter Ausgangspunkt. Bevor man über den oben stehenden Aufruf eine Seite vollständig und korrekt sichern und auf ein Offline-Medium bringen kann müssen in der Regel noch Anpassungen am Theme vorgenommen werden (um z.B. aufrufe externer Scripte zu unterbinden). Es dürfen in den so gecrawlten Daten keine Links oder Referenzen zu Seiten im Internet enthalten sein. Da Wordpress grade bei Verlinkung von Bildern in Blog-Beiträgen immer die absolute URL angibt, muss vor dem Crawlen einiges aufgeräumt werden.

© 1999 - 2014  | Login | Blog | Impressum