Re: Das erste graue Haar bekommt den Namen wget

2 Apr 2007

      Am Montag, 2. April 2007 15:32 schrieb Fred Ockert:
...
Peter Geerds schrieb:
...
Hallo Ralph!
Am 02.04.2007 um 13:15 Uhr schrieb Ralph Müller:
...
Hmm, eigentlich nur ein Router. Per Browser komme ich an alle
einzelne Seiten ran. Dann müßte doch eigentlich auch wget an
alles ran können? Glaube daher daß das Problem eher woanders
liegt. Vielleicht hat wget ein Problem damit genau diese
Seiten korrekt zu parsen? Kann nur den Grund nicht finden was
an diesen Seiten anders ist als bei anderen.
Im Kopf der Seite steht folgendes:
<meta name="robots" content="index,nofollow">
das ist nur für Robots (Suchmaschinen)
leider (oder zum Glück) flasch. Siehe z.B. [1]

Wenn Du die Seite wirklich spiegeln willst, kriegst Du das mit:

wget -e robots=off -m ...
auch hin.

Kurzfassung: wget wertet die robots.txt aus. Langfassung siehe [1].

[...]

Grüße
Philipp

[1] 
http://www.gnu.org/software/wget/manual/html_node/Robot-Exclusion.html
respektive Sektion 9.1 von info wget

-- 
"Life, loathe it or ignore it, you can't like it."
		-- Marvin, "Hitchhiker's Guide to the Galaxy"
###signature by fortune###
-- 
Um die Liste abzubestellen, schicken Sie eine Mail an:
    opensuse-de+unsubscribe@opensuse.org
Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken
Sie eine Mail an: opensuse-de+help@opensuse.org

Re: Das erste graue Haar bekommt den Namen wget

Philipp Zacharias