Am Dienstag, 18. Januar 2005 16:49 schrieb Andreas Loesch:
Am Dienstag, 18. Januar 2005 16:08 schrieb Torsten E.:
Ich kann aber doch die Seiten ganz normal anschauen (Konqueror, Firefox), was ist denn da verboten?
Dann probiere doch einmal: wget -r -x --user-agent=Mozilla http://www.faqs.org/docs/artu/
p.s. es gibt dort ein robots.txt. Soweit ich das verstanden habe, soll das ein freundliches "Hier bitte nicht mit automatischen Abfragen weiter grasen!" heißen...
dann ist es aber auch mehr als nett, wenn man zusätzlich noch ein -w X mit X als Zeit in Sekunden hinzufügt, um die Zugriffe etwas mehr zu verteilen ;) denn das er keinen Robot will sollte man an sich schon akzeptieren.
Deswegen hatte ich Ulrich den Tipp mit wget/KWebGet schon als PM zukommen lassen.... Ich kann sein Interesse ja durchaus verstehen, wollte aber nicht unbedingt jedem Mitleser zum "unerwünschten Kopierer" ausbilden ;-)
BTW: ich glaube, dass er nicht mit einem robot sondern mit htaccess und entsprechender Rewrite-Rule arbeitet, denn auch ein -e robots=off bringt nichts.
Wie gesagt: ich habe wget erst vor 3 Tagen selber entdeckt weil ich bisher mit HTTrack unter Windows gearbeitet hatte. Verwendet habe ich es bisher nur mit KWebGet, weil es mal wieder schnell gehen mußte... Aber ich habe 2-3 Websites unserer Firma, die ein gelegentliches Backup nötig haben. Da werde ich mir doch mal einen Batch basteln und die Kommandozeilen-Optionen sowie das ganze Gebiet erforschen. Gruß, Michael -- ____ / / / / /__/ Michael Höhne / / / / / / mih-hoehne@t-online.de / _____________________________________/