
Wie kann ich am besten den Inktomi Slurp aussperren? Der dreht bei manchen Domains durch und vebraucht unnütz Gigabyte an Bandbreite. Das Problem ist, dass der mit den unterschiedlichsten IP-Adressen daherkommt. Al -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Am Mittwoch, 18. Juli 2007 14:34 schrieb Al Bogner:
Wie kann ich am besten den Inktomi Slurp aussperren? Der dreht bei manchen Domains durch und vebraucht unnütz Gigabyte an Bandbreite.
Das Problem ist, dass der mit den unterschiedlichsten IP-Adressen daherkommt.
Hi Al, trag in das robots.txt folgendes ein: User-agent: Slurp Disallow: /* Das sollte den Slurp aussperren. Das robots.txt muss in dem Verzeichnis abgelegt sein, das gesperrt werden soll. Wenn die ganze Site gesperrt werden soll, dann in: http://www.meine-page.com/robots.txt Gruss Werner -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Am Mittwoch, 18. Juli 2007 14:34 schrieb Al Bogner:
Wie kann ich am besten den Inktomi Slurp aussperren? Der dreht bei manchen Domains durch und vebraucht unnütz Gigabyte an Bandbreite.
Das Problem ist, dass der mit den unterschiedlichsten IP-Adressen daherkommt.
In meiner vorigen Mail hat sich ein Fehler eingeschlichen. Es soll natürlich heissen: User-agent: Slurp Disallow: / Gruss Werner -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Am Mittwoch, 18. Juli 2007 15:01 schrieb Werner Merz:
Am Mittwoch, 18. Juli 2007 14:34 schrieb Al Bogner:
Wie kann ich am besten den Inktomi Slurp aussperren? Der dreht bei manchen Domains durch und vebraucht unnütz Gigabyte an Bandbreite.
Das Problem ist, dass der mit den unterschiedlichsten IP-Adressen daherkommt.
In meiner vorigen Mail hat sich ein Fehler eingeschlichen. Es soll natürlich heissen:
User-agent: Slurp Disallow: /
Keine Ahnung wie ich das beim Hoster eintragen soll. Ich habe zwar ssh-Zugang, aber ich finde nicht die Datei, wo ich per cpanel und den IP-Deny-Manager eine IP-Adresse gesperrt habe. Jedenfalls finde ich keine robots.txt. Aber irgendwo muß doch konfiguriert sein, dass eine bestimmte IP-Adresse keinen Zugriff hat. Jetzt wird es leider etwas OT. Ich habe da beim Hoster ein Rechteproblem bzw. negative Erfahrungen, wenn ich etwas händisch konfiguriert habe. Ich muss wahrscheinlich cpanel und den IP-Deny-Manager verwenden und da kann ich nur IP-Adressen oder Domains eintragen. Ich kann mir nicht vorstellen, dass es sinnvoll ist, yahoo.com zu sperren. Allein die Logs der letzten Tage ergeben mehr als 100 verschiedene IP-Adressen. 72.30.177.119 ... 74.6.17.103 ... 74.6.18.10 ... 74.6.19.111 ... 74.6.20.110 ... ... 74.6.87.72 Die Frage ist ob man in diesem IP-Manager einen Bereich so angeben kann: 72.30.177. 74.6. und ob man damit nicht "normale" Surfer auch aussperrt. Ich probiere das jetzt mal testweise. Warum schreibt man Inktomi nicht dazu? cat robots.txt User-agent: Slurp Disallow: / Gibt es eine Möglichkeit den Inktomi Slurp nur beschränkt reinzulassen? ZB 1x pro Woche oder wie auch immer. Das Ergebnis sollte sein, dass nicht einige GB für eine Homepageänderung von ein paar kB verbraucht werden. Die anderen Suchmaschinen wie Google kommen auch mit 100-200MB aus. Al -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Am Mittwoch, 18. Juli 2007 16:13 schrieb Al Bogner:
Am Mittwoch, 18. Juli 2007 15:01 schrieb Werner Merz:
Am Mittwoch, 18. Juli 2007 14:34 schrieb Al Bogner:
Wie kann ich am besten den Inktomi Slurp aussperren? Der dreht bei manchen Domains durch und vebraucht unnütz Gigabyte an Bandbreite.
Das Problem ist, dass der mit den unterschiedlichsten IP-Adressen daherkommt.
In meiner vorigen Mail hat sich ein Fehler eingeschlichen. Es soll natürlich heissen:
User-agent: Slurp Disallow: /
Keine Ahnung wie ich das beim Hoster eintragen soll. Ich habe zwar ssh-Zugang, aber ich finde nicht die Datei, wo ich per cpanel und den IP-Deny-Manager eine IP-Adresse gesperrt habe. Jedenfalls finde ich keine robots.txt. Aber irgendwo muß doch konfiguriert sein, dass eine bestimmte IP-Adresse keinen Zugriff hat. Die Textdatei robots.txt sollte per FTP in dasselbe Verzeichnis geladen werden können, wie das index.html der Webseite.
Die seriösen Suchmaschinen halten sich an die Regeln, die in der robots.txt eingetragen sind. Gegen unseriöse hilft es nicht, gewisse IPs abzublocken, da diese Massnahme sehr einfach ausgehebelt werden kann. Ausserdem würdest Du so auch normale Benutzer ausschliessen.
Jetzt wird es leider etwas OT. Ich habe da beim Hoster ein Rechteproblem bzw. negative Erfahrungen, wenn ich etwas händisch konfiguriert habe. Ich muss wahrscheinlich cpanel und den IP-Deny-Manager verwenden und da kann ich nur IP-Adressen oder Domains eintragen. Ich kann mir nicht vorstellen, dass es sinnvoll ist, yahoo.com zu sperren.
Würde ich auch nicht tun.
Allein die Logs der letzten Tage ergeben mehr als 100 verschiedene IP-Adressen.
72.30.177.119 ... 74.6.17.103 ... 74.6.18.10 ... 74.6.19.111 ... 74.6.20.110 ... ... 74.6.87.72
Die Frage ist ob man in diesem IP-Manager einen Bereich so angeben kann: 72.30.177. 74.6. und ob man damit nicht "normale" Surfer auch aussperrt.
Ich probiere das jetzt mal testweise. Warum schreibt man Inktomi nicht dazu?
Ist so auf der Inktomi (Yahoo) Seite beschrieben.
cat robots.txt User-agent: Slurp Disallow: /
Gibt es eine Möglichkeit den Inktomi Slurp nur beschränkt reinzulassen? ZB 1x pro Woche oder wie auch immer. Das Ergebnis sollte sein, dass nicht einige GB für eine Homepageänderung von ein paar kB verbraucht werden. Die anderen Suchmaschinen wie Google kommen auch mit 100-200MB aus.
Auf http://www.robotstxt.org/ findest Du nähere Angaben Gruss Werni -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Am Mittwoch, 18. Juli 2007 17:05 schrieb Werner Merz: Hallo Werner,
Keine Ahnung wie ich das beim Hoster eintragen soll. Ich habe zwar ssh-Zugang, aber ich finde nicht die Datei, wo ich per cpanel und den IP-Deny-Manager eine IP-Adresse gesperrt habe. Jedenfalls finde ich keine robots.txt. Aber irgendwo muß doch konfiguriert sein, dass eine bestimmte IP-Adresse keinen Zugriff hat.
Die Textdatei robots.txt sollte per FTP in dasselbe Verzeichnis geladen werden können, wie das index.html der Webseite.
Das ist nicht das Problem. Ich habe sie schon per vi und ssh angelegt. Wie schon geschrieben, ich habe leider schon öfters die Erfahrung gemacht, dass die Konfiguration des Servers so gestaltet ist, dass Dinge über cpanel funktionieren, aber zB Login per Keys, sowie es lokal problemlos funktioniert, dort nicht, wenn man einfach die entsprechenden Dateien anlegt. Daher auch meine etwas emotionale Frage. In diesem Fall sehe ich eher keinen Grund, warum die robots.txt von der Rechner-Konfiguration abhängig sein sollte, andernfalls habe ich nicht mehr viel Bandbreite für dieses Monat um zu testen.
Die seriösen Suchmaschinen halten sich an die Regeln, die in der robots.txt eingetragen sind. Gegen unseriöse hilft es nicht, gewisse IPs abzublocken, da diese Massnahme sehr einfach ausgehebelt werden kann. Ausserdem würdest Du so auch normale Benutzer ausschliessen.
Das ist ja das Problem. Es soll niemand ausgeschlossen werden. Ich frage mich was diese Bots davon haben, dass sie Traffic produzieren. 91.121.65.85 hat zB auch einige GB verursacht. Diesen Bot scheine ich nun mit dem IP-Deny-Manager losgeworden zu sein. Bei der Seite handelt es sich um ein Blog meiner Tochter und Einträge werden moderiert und sind auch noch anderweitig geschützt. Da ich dort nicht noch mehr Traffic brauchen kann, gebe ich die URL nur per PM weiter, falls jemand Interesse haben sollte, sich das näher anzusehen, warum sich da ein Bot darauf gestürzt hat.
Ich probiere das jetzt mal testweise. Warum schreibt man Inktomi nicht dazu?
Ist so auf der Inktomi (Yahoo) Seite beschrieben.
Danke!
cat robots.txt User-agent: Slurp Disallow: /
Gibt es eine Möglichkeit den Inktomi Slurp nur beschränkt reinzulassen? ZB 1x pro Woche oder wie auch immer. Das Ergebnis sollte sein, dass nicht einige GB für eine Homepageänderung von ein paar kB verbraucht werden. Die anderen Suchmaschinen wie Google kommen auch mit 100-200MB aus.
Auf http://www.robotstxt.org/ findest Du nähere Angaben
Hmmh, bei http://www.robotstxt.org/wc/faq.html#prevent finde ich nichts, wie man den Zugang zwar erlaubt, aber drastisch einschränkt. Eine große Suchmaschine permanent komplett auszusperren, ist ja auch nicht so klug. Al -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Am Mittwoch, 18. Juli 2007 17:33 schrieb Al Bogner:
Am Mittwoch, 18. Juli 2007 17:05 schrieb Werner Merz:
Hallo Werner,
Keine Ahnung wie ich das beim Hoster eintragen soll. Ich habe zwar ssh-Zugang, aber ich finde nicht die Datei, wo ich per cpanel und den IP-Deny-Manager eine IP-Adresse gesperrt habe. Jedenfalls finde ich keine robots.txt. Aber irgendwo muß doch konfiguriert sein, dass eine bestimmte IP-Adresse keinen Zugriff hat.
Die Textdatei robots.txt sollte per FTP in dasselbe Verzeichnis geladen werden können, wie das index.html der Webseite.
Das ist nicht das Problem. Ich habe sie schon per vi und ssh angelegt. Wie schon geschrieben, ich habe leider schon öfters die Erfahrung gemacht, dass die Konfiguration des Servers so gestaltet ist, dass Dinge über cpanel funktionieren, aber zB Login per Keys, sowie es lokal problemlos funktioniert, dort nicht, wenn man einfach die entsprechenden Dateien anlegt. Daher auch meine etwas emotionale Frage. In diesem Fall sehe ich eher keinen Grund, warum die robots.txt von der Rechner-Konfiguration abhängig sein sollte, andernfalls habe ich nicht mehr viel Bandbreite für dieses Monat um zu testen.
Die seriösen Suchmaschinen halten sich an die Regeln, die in der robots.txt eingetragen sind. Gegen unseriöse hilft es nicht, gewisse IPs abzublocken, da diese Massnahme sehr einfach ausgehebelt werden kann. Ausserdem würdest Du so auch normale Benutzer ausschliessen.
Das ist ja das Problem. Es soll niemand ausgeschlossen werden. Ich frage mich was diese Bots davon haben, dass sie Traffic produzieren. 91.121.65.85 hat zB auch einige GB verursacht. Diesen Bot scheine ich nun mit dem IP-Deny-Manager losgeworden zu sein. Bei der Seite handelt es sich um ein Blog meiner Tochter und Einträge werden moderiert und sind auch noch anderweitig geschützt. Da ich dort nicht noch mehr Traffic brauchen kann, gebe ich die URL nur per PM weiter, falls jemand Interesse haben sollte, sich das näher anzusehen, warum sich da ein Bot darauf gestürzt hat.
Ich probiere das jetzt mal testweise. Warum schreibt man Inktomi nicht dazu?
Ist so auf der Inktomi (Yahoo) Seite beschrieben.
Danke!
cat robots.txt User-agent: Slurp Disallow: /
Gibt es eine Möglichkeit den Inktomi Slurp nur beschränkt reinzulassen? ZB 1x pro Woche oder wie auch immer. Das Ergebnis sollte sein, dass nicht einige GB für eine Homepageänderung von ein paar kB verbraucht werden. Die anderen Suchmaschinen wie Google kommen auch mit 100-200MB aus.
Auf http://www.robotstxt.org/ findest Du nähere Angaben
Hmmh, bei http://www.robotstxt.org/wc/faq.html#prevent finde ich nichts, wie man den Zugang zwar erlaubt, aber drastisch einschränkt. Eine große Suchmaschine permanent komplett auszusperren, ist ja auch nicht so klug.
Die Option "Crawl-delay:" weist die Suchmaschine an, die Site nicht jedes Mal zu durchsuchen. So wird durch: Crawl-delay: 10 die Site nur noch jedes zehnte Mal durchsucht. Eine weitere Möglichkeit wäre es, gewisse Teile der Site zu sperren. Z.B. der erwähnte Blog. Dazu eine weiteres robots.txt ins entsprechende Verzeichnis stellen. Auf: http://help.yahoo.com/help/de/ysearch/slurp/index.html findest Du weitere Angaben zu Slurp. Gruss Werner -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
participants (2)
-
Al Bogner
-
Werner Merz