Am Mittwoch, 18. Juli 2007 17:05 schrieb Werner Merz: Hallo Werner,
Keine Ahnung wie ich das beim Hoster eintragen soll. Ich habe zwar ssh-Zugang, aber ich finde nicht die Datei, wo ich per cpanel und den IP-Deny-Manager eine IP-Adresse gesperrt habe. Jedenfalls finde ich keine robots.txt. Aber irgendwo muß doch konfiguriert sein, dass eine bestimmte IP-Adresse keinen Zugriff hat.
Die Textdatei robots.txt sollte per FTP in dasselbe Verzeichnis geladen werden können, wie das index.html der Webseite.
Das ist nicht das Problem. Ich habe sie schon per vi und ssh angelegt. Wie schon geschrieben, ich habe leider schon öfters die Erfahrung gemacht, dass die Konfiguration des Servers so gestaltet ist, dass Dinge über cpanel funktionieren, aber zB Login per Keys, sowie es lokal problemlos funktioniert, dort nicht, wenn man einfach die entsprechenden Dateien anlegt. Daher auch meine etwas emotionale Frage. In diesem Fall sehe ich eher keinen Grund, warum die robots.txt von der Rechner-Konfiguration abhängig sein sollte, andernfalls habe ich nicht mehr viel Bandbreite für dieses Monat um zu testen.
Die seriösen Suchmaschinen halten sich an die Regeln, die in der robots.txt eingetragen sind. Gegen unseriöse hilft es nicht, gewisse IPs abzublocken, da diese Massnahme sehr einfach ausgehebelt werden kann. Ausserdem würdest Du so auch normale Benutzer ausschliessen.
Das ist ja das Problem. Es soll niemand ausgeschlossen werden. Ich frage mich was diese Bots davon haben, dass sie Traffic produzieren. 91.121.65.85 hat zB auch einige GB verursacht. Diesen Bot scheine ich nun mit dem IP-Deny-Manager losgeworden zu sein. Bei der Seite handelt es sich um ein Blog meiner Tochter und Einträge werden moderiert und sind auch noch anderweitig geschützt. Da ich dort nicht noch mehr Traffic brauchen kann, gebe ich die URL nur per PM weiter, falls jemand Interesse haben sollte, sich das näher anzusehen, warum sich da ein Bot darauf gestürzt hat.
Ich probiere das jetzt mal testweise. Warum schreibt man Inktomi nicht dazu?
Ist so auf der Inktomi (Yahoo) Seite beschrieben.
Danke!
cat robots.txt User-agent: Slurp Disallow: /
Gibt es eine Möglichkeit den Inktomi Slurp nur beschränkt reinzulassen? ZB 1x pro Woche oder wie auch immer. Das Ergebnis sollte sein, dass nicht einige GB für eine Homepageänderung von ein paar kB verbraucht werden. Die anderen Suchmaschinen wie Google kommen auch mit 100-200MB aus.
Auf http://www.robotstxt.org/ findest Du nähere Angaben
Hmmh, bei http://www.robotstxt.org/wc/faq.html#prevent finde ich nichts, wie man den Zugang zwar erlaubt, aber drastisch einschränkt. Eine große Suchmaschine permanent komplett auszusperren, ist ja auch nicht so klug. Al -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org