Am Montag, 2. April 2007 15:32 schrieb Fred Ockert:
Peter Geerds schrieb:
Hallo Ralph!
Am 02.04.2007 um 13:15 Uhr schrieb Ralph Müller:
Hmm, eigentlich nur ein Router. Per Browser komme ich an alle einzelne Seiten ran. Dann müßte doch eigentlich auch wget an alles ran können? Glaube daher daß das Problem eher woanders liegt. Vielleicht hat wget ein Problem damit genau diese Seiten korrekt zu parsen? Kann nur den Grund nicht finden was an diesen Seiten anders ist als bei anderen.
Im Kopf der Seite steht folgendes:
<meta name="robots" content="index,nofollow">
das ist nur für Robots (Suchmaschinen)
leider (oder zum Glück) flasch. Siehe z.B. [1] Wenn Du die Seite wirklich spiegeln willst, kriegst Du das mit: wget -e robots=off -m ... auch hin. Kurzfassung: wget wertet die robots.txt aus. Langfassung siehe [1]. [...] Grüße Philipp [1] http://www.gnu.org/software/wget/manual/html_node/Robot-Exclusion.html respektive Sektion 9.1 von info wget -- "Life, loathe it or ignore it, you can't like it." -- Marvin, "Hitchhiker's Guide to the Galaxy" ###signature by fortune### -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org