Mailinglist Archive: opensuse-de (5887 mails)

< Previous Next >
Re: Kniffliges Tool gesucht
Hallo,

Bernd Brodesser:
> Wenn alle Seiten, die ich haben möchte, sich auf einem Host
> befindet, so ist es eine schöne Funktion von wget. Aber wenn sich
> die Seiten auf verschiedene Hosts, (oder Hostadressen) befinden,
> dann wird es problematisch. Man kann zwar mit wget auch alle Links
> folgen einstellen, aber dann zieht man sich das komplette
> Internetangebot herunter, weil dann auch alle Werbebanner und
> sonstige Links gefolgt wird.

Bestimmt gibt es eine elegante Lösung mit prima Haltungsnoten.
Ich hatte neulich in so einem Fall Erfolg mit einem etwas uneleganten
Vorgehen:

wget mit einem restriktiven Pfad starten. Beispiel:

index.html mit einer Doku liegt in

http://server.foo/dokumentation/

Zugehörige Bilder liegen in

http://server.foo/images/

Soweit kein Problem, nur leider gibt es noch

http://server.foo/reklame/
http://server.foo/werbung/
http://server.foo/nervkram/


Das heisst:
Erlaube ich alles in
http://server.foo/dokumentation/ ,
dann fehlen mir die Bilder.

Erlaube ich
http://server.foo ,
dann bekomme ich viel zuviel.

Meine Lösung:
Man kann wget ja verbieten, bereits gesaugte Dateien nicht nochmal zu
saugen. Ich starte ihn einfach zweimal. Beim ersten mal erlaube ich nur
/dokumentation , beim zweiten mal gebe ich ebenfalls
/dokumentation/index.html als Startdatei vor, erlaube aber nur /images .

Er frisst das, obwohl die Startdatei selbst ja eigentlich verboten ist
(Vielleicht, weil schon lokal vorhanden).

Prinzipiell unterstützt er glaubich auch Textdateien mit
erlaubt/verboten-Listen, aber da die Problematik ohnhin jedesmal etwas
anders liegt, verzichte ich auf Haltungsnoten und mache es so
halbmanuell.

Gruß, Ratti

P.S.: Geniales Tool.


--
http://www.gesindel.de | Fontlinge | Die Schriftenverwaltung für Windows


< Previous Next >