Re: The art of Unix programming als pdf/html download

18 Jan 2005


      Am Dienstag, 18. Januar 2005 16:49 schrieb Andreas Loesch:
...
Am Dienstag, 18. Januar 2005 16:08 schrieb Torsten E.:
...
...
...
Ich kann aber doch die Seiten ganz normal anschauen (Konqueror,
Firefox), was ist denn da verboten?
Dann probiere doch einmal:
wget -r -x --user-agent=Mozilla http://www.faqs.org/docs/artu/
...
p.s. es gibt dort ein robots.txt. Soweit ich das verstanden habe,
soll das ein freundliches "Hier bitte nicht mit automatischen
Abfragen weiter grasen!" heißen...
dann ist es aber auch mehr als nett, wenn man zusätzlich noch ein -w
X mit X als Zeit in Sekunden hinzufügt, um die Zugriffe etwas mehr zu
verteilen ;) denn das er keinen Robot will sollte man an sich schon
akzeptieren.
Deswegen hatte ich Ulrich den Tipp mit wget/KWebGet schon als PM 
zukommen lassen.... Ich kann sein Interesse ja durchaus verstehen, 
wollte aber nicht unbedingt jedem Mitleser zum "unerwünschten Kopierer" 
ausbilden ;-)
...
BTW: ich glaube, dass er nicht mit einem robot sondern mit htaccess
und entsprechender Rewrite-Rule arbeitet, denn auch ein -e robots=off
bringt nichts.
Wie gesagt: ich habe wget erst vor 3 Tagen selber entdeckt weil ich 
bisher mit HTTrack unter Windows gearbeitet hatte. Verwendet habe ich 
es bisher nur mit KWebGet, weil es mal wieder schnell gehen mußte... 
Aber ich habe 2-3 Websites unserer Firma, die ein gelegentliches Backup 
nötig haben. Da werde ich mir doch mal einen Batch basteln und die 
Kommandozeilen-Optionen sowie das ganze Gebiet erforschen.

Gruß,
Michael

-- 
   ____        
  / / / / /__/           Michael Höhne /
 /   / / /  /  mih-hoehne@t-online.de /
_____________________________________/

Re: The art of Unix programming als pdf/html download

Michael Hoehne