Mailinglist Archive: opensuse-de (5887 mails)
| < Previous | Next > |
Re: Kniffliges Tool gesucht
- From: ratti <ratti@xxxxxxxxxxx>
- Date: 03 Jun 2002 21:08:10 +0200
- Message-id: <1023131290.1191.28.camel@ratti>
Hallo,
Bernd Brodesser:
> Wenn alle Seiten, die ich haben möchte, sich auf einem Host
> befindet, so ist es eine schöne Funktion von wget. Aber wenn sich
> die Seiten auf verschiedene Hosts, (oder Hostadressen) befinden,
> dann wird es problematisch. Man kann zwar mit wget auch alle Links
> folgen einstellen, aber dann zieht man sich das komplette
> Internetangebot herunter, weil dann auch alle Werbebanner und
> sonstige Links gefolgt wird.
Bestimmt gibt es eine elegante Lösung mit prima Haltungsnoten.
Ich hatte neulich in so einem Fall Erfolg mit einem etwas uneleganten
Vorgehen:
wget mit einem restriktiven Pfad starten. Beispiel:
index.html mit einer Doku liegt in
http://server.foo/dokumentation/
Zugehörige Bilder liegen in
http://server.foo/images/
Soweit kein Problem, nur leider gibt es noch
http://server.foo/reklame/
http://server.foo/werbung/
http://server.foo/nervkram/
Das heisst:
Erlaube ich alles in
http://server.foo/dokumentation/ ,
dann fehlen mir die Bilder.
Erlaube ich
http://server.foo ,
dann bekomme ich viel zuviel.
Meine Lösung:
Man kann wget ja verbieten, bereits gesaugte Dateien nicht nochmal zu
saugen. Ich starte ihn einfach zweimal. Beim ersten mal erlaube ich nur
/dokumentation , beim zweiten mal gebe ich ebenfalls
/dokumentation/index.html als Startdatei vor, erlaube aber nur /images .
Er frisst das, obwohl die Startdatei selbst ja eigentlich verboten ist
(Vielleicht, weil schon lokal vorhanden).
Prinzipiell unterstützt er glaubich auch Textdateien mit
erlaubt/verboten-Listen, aber da die Problematik ohnhin jedesmal etwas
anders liegt, verzichte ich auf Haltungsnoten und mache es so
halbmanuell.
Gruß, Ratti
P.S.: Geniales Tool.
--
http://www.gesindel.de | Fontlinge | Die Schriftenverwaltung für Windows
Bernd Brodesser:
> Wenn alle Seiten, die ich haben möchte, sich auf einem Host
> befindet, so ist es eine schöne Funktion von wget. Aber wenn sich
> die Seiten auf verschiedene Hosts, (oder Hostadressen) befinden,
> dann wird es problematisch. Man kann zwar mit wget auch alle Links
> folgen einstellen, aber dann zieht man sich das komplette
> Internetangebot herunter, weil dann auch alle Werbebanner und
> sonstige Links gefolgt wird.
Bestimmt gibt es eine elegante Lösung mit prima Haltungsnoten.
Ich hatte neulich in so einem Fall Erfolg mit einem etwas uneleganten
Vorgehen:
wget mit einem restriktiven Pfad starten. Beispiel:
index.html mit einer Doku liegt in
http://server.foo/dokumentation/
Zugehörige Bilder liegen in
http://server.foo/images/
Soweit kein Problem, nur leider gibt es noch
http://server.foo/reklame/
http://server.foo/werbung/
http://server.foo/nervkram/
Das heisst:
Erlaube ich alles in
http://server.foo/dokumentation/ ,
dann fehlen mir die Bilder.
Erlaube ich
http://server.foo ,
dann bekomme ich viel zuviel.
Meine Lösung:
Man kann wget ja verbieten, bereits gesaugte Dateien nicht nochmal zu
saugen. Ich starte ihn einfach zweimal. Beim ersten mal erlaube ich nur
/dokumentation , beim zweiten mal gebe ich ebenfalls
/dokumentation/index.html als Startdatei vor, erlaube aber nur /images .
Er frisst das, obwohl die Startdatei selbst ja eigentlich verboten ist
(Vielleicht, weil schon lokal vorhanden).
Prinzipiell unterstützt er glaubich auch Textdateien mit
erlaubt/verboten-Listen, aber da die Problematik ohnhin jedesmal etwas
anders liegt, verzichte ich auf Haltungsnoten und mache es so
halbmanuell.
Gruß, Ratti
P.S.: Geniales Tool.
--
http://www.gesindel.de | Fontlinge | Die Schriftenverwaltung für Windows
| < Previous | Next > |