Re: Das erste graue Haar bekommt den Namen wget
Ralph Müller wrote:
Hallo Jan,
Danke für Deine Mail.
Am Montag, den 02.04.2007, 10:29 +0200 schrieb Jan Handwerker:
Weder ein wget -r -k http://wiki.ubuntuusers.de/Hardwaredatenbank/ noch ein wget -m -k http://wiki.ubuntuusers.de/Hardwaredatenbank/ veranlasst wget auch die verlinkten Seiten mit downzuloaden, wie z.B. http://wiki.ubuntuusers.de/Hardwaredatenbank/Peripherie/
Hat dazu wer einen Tip? Danke im voraus! willst Du wget -rmk http:... probieren?
Leider dasselbe frustrierende Ergebnis. Wget will auch mit -rmk nicht.
ist zwischen Dir und wiki.ubintuuserse.de ein Proxy? Gruß Jan -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
[ Seltsame Probleme mit wget, rekursiv ] Am Montag, den 02.04.2007, 12:26 +0200 schrieb Jan Handwerker:
Ralph Müller wrote:
Am Montag, den 02.04.2007, 10:29 +0200 schrieb Jan Handwerker:
Weder ein wget -r -k http://wiki.ubuntuusers.de/Hardwaredatenbank/ noch ein wget -m -k http://wiki.ubuntuusers.de/Hardwaredatenbank/ veranlasst wget auch die verlinkten Seiten mit downzuloaden, wie z.B. http://wiki.ubuntuusers.de/Hardwaredatenbank/Peripherie/
Hat dazu wer einen Tip? Danke im voraus! willst Du wget -rmk http:... probieren?
Leider dasselbe frustrierende Ergebnis. Wget will auch mit -rmk nicht.
ist zwischen Dir und wiki.ubintuuserse.de ein Proxy?
Hmm, eigentlich nur ein Router. Per Browser komme ich an alle einzelne Seiten ran. Dann müßte doch eigentlich auch wget an alles ran können? Glaube daher daß das Problem eher woanders liegt. Vielleicht hat wget ein Problem damit genau diese Seiten korrekt zu parsen? Kann nur den Grund nicht finden was an diesen Seiten anders ist als bei anderen. LG, Ralph -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Hallo Ralph! Am 02.04.2007 um 13:15 Uhr schrieb Ralph Müller:
Hmm, eigentlich nur ein Router. Per Browser komme ich an alle einzelne Seiten ran. Dann müßte doch eigentlich auch wget an alles ran können? Glaube daher daß das Problem eher woanders liegt. Vielleicht hat wget ein Problem damit genau diese Seiten korrekt zu parsen? Kann nur den Grund nicht finden was an diesen Seiten anders ist als bei anderen.
Im Kopf der Seite steht folgendes: <meta name="robots" content="index,nofollow"> Was das wohl bedeutet? cu Peter -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Peter Geerds schrieb:
Hallo Ralph!
Am 02.04.2007 um 13:15 Uhr schrieb Ralph Müller:
Hmm, eigentlich nur ein Router. Per Browser komme ich an alle einzelne Seiten ran. Dann müßte doch eigentlich auch wget an alles ran können? Glaube daher daß das Problem eher woanders liegt. Vielleicht hat wget ein Problem damit genau diese Seiten korrekt zu parsen? Kann nur den Grund nicht finden was an diesen Seiten anders ist als bei anderen. Im Kopf der Seite steht folgendes:
<meta name="robots" content="index,nofollow">
das ist nur für Robots (Suchmaschinen)
Was das wohl bedeutet?
cu Peter
Fred -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Montag, 2. April 2007 15:32 schrieb Fred Ockert:
Peter Geerds schrieb:
Hallo Ralph!
Am 02.04.2007 um 13:15 Uhr schrieb Ralph Müller:
Hmm, eigentlich nur ein Router. Per Browser komme ich an alle einzelne Seiten ran. Dann müßte doch eigentlich auch wget an alles ran können? Glaube daher daß das Problem eher woanders liegt. Vielleicht hat wget ein Problem damit genau diese Seiten korrekt zu parsen? Kann nur den Grund nicht finden was an diesen Seiten anders ist als bei anderen.
Im Kopf der Seite steht folgendes:
<meta name="robots" content="index,nofollow">
das ist nur für Robots (Suchmaschinen)
leider (oder zum Glück) flasch. Siehe z.B. [1] Wenn Du die Seite wirklich spiegeln willst, kriegst Du das mit: wget -e robots=off -m ... auch hin. Kurzfassung: wget wertet die robots.txt aus. Langfassung siehe [1]. [...] Grüße Philipp [1] http://www.gnu.org/software/wget/manual/html_node/Robot-Exclusion.html respektive Sektion 9.1 von info wget -- "Life, loathe it or ignore it, you can't like it." -- Marvin, "Hitchhiker's Guide to the Galaxy" ###signature by fortune### -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Jan Handwerker schrieb:
Ralph Müller wrote:
Hallo Jan,
Danke für Deine Mail.
Am Montag, den 02.04.2007, 10:29 +0200 schrieb Jan Handwerker:
Weder ein wget -r -k http://wiki.ubuntuusers.de/Hardwaredatenbank/ noch ein wget -m -k http://wiki.ubuntuusers.de/Hardwaredatenbank/ veranlasst wget auch die verlinkten Seiten mit downzuloaden, wie z.B. http://wiki.ubuntuusers.de/Hardwaredatenbank/Peripherie/
Hat dazu wer einen Tip? Danke im voraus! willst Du wget -rmk http:... probieren? wget -rmk darf nicht gehen! weil -r ist in -m mit drin! 2 mal -r ist Unfug !
komisch .. hier hat wget noch nie gemault ... kriegt aber Option -c mit (falls Abbruch) und am Ende auch ein Zielverzeichnis! also wget -c -? -? http...woher /wohin/denn/ letzteres ist hilfreich für die Struktur... also.... wget -r -k http://wiki.ubuntuusers.de/Hardwaredatenbank/ /testverzeichnis sollte gehen..wenn Platz ist... -c waere besser noch mit drin... Gruss Fred -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
participants (5)
-
Fred Ockert
-
Jan Handwerker
-
Peter Geerds
-
Philipp Zacharias
-
Ralph Müller