Re: Kniffliges Tool gesucht

3 Jun 2002

      Hallo,

Bernd Brodesser:
...
Wenn alle Seiten, die ich haben möchte, sich auf einem Host
befindet, so ist es eine schöne Funktion von wget. Aber wenn sich
die Seiten auf verschiedene Hosts, (oder Hostadressen) befinden,
dann wird es problematisch. Man kann zwar mit wget auch alle Links
folgen einstellen, aber dann zieht man sich das komplette
Internetangebot herunter, weil dann auch alle Werbebanner und
sonstige Links gefolgt wird.
Bestimmt gibt es eine elegante Lösung mit prima Haltungsnoten.
Ich hatte neulich in so einem Fall Erfolg mit einem etwas uneleganten
Vorgehen:

wget mit einem restriktiven Pfad starten. Beispiel:

index.html mit einer Doku liegt in

http://server.foo/dokumentation/

Zugehörige Bilder liegen in

http://server.foo/images/

Soweit kein Problem, nur leider gibt es noch

http://server.foo/reklame/
http://server.foo/werbung/
http://server.foo/nervkram/

Das heisst: 
Erlaube ich alles in
http://server.foo/dokumentation/ ,
dann fehlen mir die Bilder.

Erlaube ich 
http://server.foo ,
dann bekomme ich viel zuviel.

Meine Lösung:
Man kann wget ja verbieten, bereits gesaugte Dateien nicht nochmal zu
saugen. Ich starte ihn einfach zweimal. Beim ersten mal erlaube ich nur
/dokumentation , beim zweiten mal gebe ich ebenfalls
/dokumentation/index.html als Startdatei vor, erlaube aber nur /images .

Er frisst das, obwohl die Startdatei selbst ja eigentlich verboten ist
(Vielleicht, weil schon lokal vorhanden).

Prinzipiell unterstützt er glaubich auch Textdateien mit
erlaubt/verboten-Listen, aber da die Problematik ohnhin jedesmal etwas
anders liegt, verzichte ich auf Haltungsnoten und mache es so
halbmanuell.

Gruß, Ratti

P.S.: Geniales Tool.

-- 
http://www.gesindel.de | Fontlinge | Die Schriftenverwaltung für Windows

Re: Kniffliges Tool gesucht

ratti