Moin, versuche mich gerade daran, mit wget die News von Slashdot im PDA-Format herunter zu laden. Aber irgendwie möchte wget gar nicht so wie ich! Also nachdem mein Vorhaben nicht auf anhieb funktioniert hat, wollte ich mich ganz langsam an mein Ziel herantasten. Also ersteinmal: wget http://slashdot.org/palm/headlines_1.shtml Ok, wenigstens das funtkioniert. Dann aber: wget -r http://slashdot.org/palm/headlines_1.shtml Geht nicht! Dabei ist das doch eine ganz einfach gestrickte Seite! Oder liegt das an shtml? Also wenn ich wget -r www.heise.de probiere, legt wget los wie blöd. Irgendwie stehe ich da jetzt auf dem Schlauch. Gruß & Danke Thilo
Hi On Thursday 10 July 2003 11:12, Thilo A. Coblenzer wrote:
Also ersteinmal: wget http://slashdot.org/palm/headlines_1.shtml Ok, wenigstens das funtkioniert. Dann aber: wget -r http://slashdot.org/palm/headlines_1.shtml Geht nicht!
Ich habe nochmal die manpage durchforstet. Offenbar haben die Programmierer von wget daran gedacht, dass man wget auch missbrauchen könnte. <========== ..... Wget can follow links in HTML pages and create local ver sions of remote web sites, fully recreating the directory structure of the original site. This is sometimes referred to as ``recursive downloading.'' While doing that, Wget respects the Robot Exclusion Standard (/robots.txt). Wget can be instructed to convert the links in downloaded HTML files to the local files for offline viewing. ============> Dann brauchst du die eigentlich nur noch die Datei slashdot.org/robots.txt, die du nach dem Aufruf von wget -r auf deiner Platte findest, anzuschauen und du weißt bescheid. Die wollen offenbar nicht, dass man die Seite komplett zieht :-( mfg Axel
Am Donnerstag, 10. Juli 2003 13:35 schrieb Axel Heinrici:
On Thursday 10 July 2003 11:12, Thilo A. Coblenzer wrote:
Also ersteinmal: wget http://slashdot.org/palm/headlines_1.shtml Ok, wenigstens das funtkioniert. Dann aber: wget -r http://slashdot.org/palm/headlines_1.shtml Geht nicht!
Ich habe nochmal die manpage durchforstet. Offenbar haben die Programmierer von wget daran gedacht, dass man wget auch missbrauchen könnte. [...] Dann brauchst du die eigentlich nur noch die Datei slashdot.org/robots.txt, die du nach dem Aufruf von wget -r auf deiner Platte findest, anzuschauen und du weißt bescheid. Die wollen offenbar nicht, dass man die Seite komplett zieht :-( Daran habe ich gar nicht gedacht. Ist zwar schade, daß ich mir die News dann nicht im Zug durchlesen kann, aber wenigstens lag's nicht an meiner Dummheit :-)
Gruß Thilo
Thilo A. Coblenzer wrote:
Also ersteinmal: wget http://slashdot.org/palm/headlines_1.shtml Ok, wenigstens das funtkioniert.
Dann aber: wget -r http://slashdot.org/palm/headlines_1.shtml Geht nicht!
Dann benutz die im vorherigen Schritt erzeugte HTML-Datei doch mal als "--input-file" (und nimm dann nicht die '-r' Option). -- Have fun, Peter
Thilo A. Coblenzer wrote:
Also ersteinmal: wget http://slashdot.org/palm/headlines_1.shtml Ok, wenigstens das funtkioniert.
Dann aber: wget -r http://slashdot.org/palm/headlines_1.shtml Geht nicht!
Dann benutz die im vorherigen Schritt erzeugte HTML-Datei doch mal als "--input-file" (und nimm dann nicht die '-r' Option).
Oder einfacher robots = off in .wgetrc und ab geht's! Und nicht vergessen wieder robots = on, wenn man mit shashdot fertig ist! -- Konstantin Malakhanov -- +++ GMX - Mail, Messaging & more http://www.gmx.net +++ Jetzt ein- oder umsteigen und USB-Speicheruhr als Prämie sichern!
Vielen Dank für die Tips! Am Donnerstag, 10. Juli 2003 15:21 schrieb Konstantin Malakhanov:
Thilo A. Coblenzer wrote:
Dann aber: wget -r http://slashdot.org/palm/headlines_1.shtml Geht nicht!
Dann benutz die im vorherigen Schritt erzeugte HTML-Datei doch mal als "--input-file" (und nimm dann nicht die '-r' Option). Ich habe das Probiert und es hat funktioniert. Dann kam aber der nächste Tip und das sah ersteinmal einfacher aus, da ich da nicht "selbst rekursiv tätig" werden muß.
Oder einfacher robots = off in .wgetrc und ab geht's! Und das hat auch gut und schnell funktioniert!
Also vielen Dank für die Hilfe! Gruß Thilo
participants (4)
-
Axel Heinrici
-
Konstantin Malakhanov
-
Peter Wiersig
-
Thilo A. Coblenzer