Hallo, Bernd Brodesser:
Wenn alle Seiten, die ich haben möchte, sich auf einem Host befindet, so ist es eine schöne Funktion von wget. Aber wenn sich die Seiten auf verschiedene Hosts, (oder Hostadressen) befinden, dann wird es problematisch. Man kann zwar mit wget auch alle Links folgen einstellen, aber dann zieht man sich das komplette Internetangebot herunter, weil dann auch alle Werbebanner und sonstige Links gefolgt wird.
Bestimmt gibt es eine elegante Lösung mit prima Haltungsnoten. Ich hatte neulich in so einem Fall Erfolg mit einem etwas uneleganten Vorgehen: wget mit einem restriktiven Pfad starten. Beispiel: index.html mit einer Doku liegt in http://server.foo/dokumentation/ Zugehörige Bilder liegen in http://server.foo/images/ Soweit kein Problem, nur leider gibt es noch http://server.foo/reklame/ http://server.foo/werbung/ http://server.foo/nervkram/ Das heisst: Erlaube ich alles in http://server.foo/dokumentation/ , dann fehlen mir die Bilder. Erlaube ich http://server.foo , dann bekomme ich viel zuviel. Meine Lösung: Man kann wget ja verbieten, bereits gesaugte Dateien nicht nochmal zu saugen. Ich starte ihn einfach zweimal. Beim ersten mal erlaube ich nur /dokumentation , beim zweiten mal gebe ich ebenfalls /dokumentation/index.html als Startdatei vor, erlaube aber nur /images . Er frisst das, obwohl die Startdatei selbst ja eigentlich verboten ist (Vielleicht, weil schon lokal vorhanden). Prinzipiell unterstützt er glaubich auch Textdateien mit erlaubt/verboten-Listen, aber da die Problematik ohnhin jedesmal etwas anders liegt, verzichte ich auf Haltungsnoten und mache es so halbmanuell. Gruß, Ratti P.S.: Geniales Tool. -- http://www.gesindel.de | Fontlinge | Die Schriftenverwaltung für Windows