Server hängt: top = 99,2% idle, w load average = 15.xx 13.xx 14.xx
Hallo, seit einigen Tagen hängt sich unser Server regelmässig auf, solange ich noch reinkomme (ssh) zeigt sich etwa obiges Bild. Sendmail macht natürlich wegen hohem Load-average auch zu, später komme ich gar nicht mehr in die Maschine rein (weder remote noch lokal) und muss den Strom abschalten. In /var/log/mail kann man verfolgen, dass der load-average lt. sendmail bis zu etwa 27 ansteigt (dann habe ich jedesmal hart resettet). Was noch zu erwähnen ist, wir haben den Server von einem ins andere Gebäude umgezogen. Die Kabel scheinen soweit alle fest zu sein. In den Logfiles lässt sich nichts auffälliges finden. Hat jemand eine Idee? Zumindest wie ich was überwachen könnte, um weiter zu kommen? Danke + frohe Ostern Joachim
On Saturday, 30. March 2002 18:26, Joachim Kieferle wrote:
seit einigen Tagen hängt sich unser Server regelmässig auf, solange ich noch reinkomme (ssh) zeigt sich etwa obiges Bild.
top = 99,2% idle, w load average = 15.xx 13.xx 14.xx Die Relationen kommen mir ein bischen komisch vor. Der load ist auch hier ziemlich hoch, aber trotzdem langweilt sich die CPU. Wie sieht die Speicherauslastung aus? Was soll der Server denn so machen? Wofür benutzt Ihr ihn? Nur als Mailserver?
In den Logfiles lässt sich nichts auffälliges finden.
Hat jemand eine Idee? Zumindest wie ich was überwachen könnte, um weiter zu kommen?
Zunächst würde ich erst mal einen Monitor an die Kiste hängen, und auf den verschiedenen Konsolen ein paar Dinge anzeigen lassen. Z.B. top, ein tail auf /var/log/messages (okay, da scheint nicht allzuviel zu passieren), ... Weiter wäre interssant zu wissen, welche Programm zu den verschiedenen Zeitpunkten laufen, und in wieviel Instanzen. Wenn's hart kommt, kannst Du natürlich auch immer noch mal den Netzverkehr mit loggen. Vielleicht hat sich ja jemand eingeschlichen und zieht Dir jetzt Rechenzeit, ... ab. Heiner -- heiner@kflog.org GnuPG - Key: E05AEAFC Fingerprint: 257A DFBF 4977 4585 77A0 3509 973B 92AA E05A EAFC
Hallo Heiner, On Sat, 30 Mar 2002, Heiner Lamprecht wrote:
On Saturday, 30. March 2002 18:26, Joachim Kieferle wrote:
seit einigen Tagen hängt sich unser Server regelmässig auf, solange ich noch reinkomme (ssh) zeigt sich etwa obiges Bild.
top = 99,2% idle, w load average = 15.xx 13.xx 14.xx
Die Relationen kommen mir ein bischen komisch vor. Der load ist auch hier ziemlich hoch, aber trotzdem langweilt sich die CPU. Wie sieht die Speicherauslastung aus?
... das finde ich auch komisch. Was auch zu beobachten ist (bei funktionierender Maschine): bei Top nimmt "mem used" ca. alle 8-10 Sekunden um 8kbit ab, die dann zu "mem buff" zugeschlagen werden. Hat das evtl. etwas zu bedeuten? Bei hohem Load muss ich nochmal nach der Mem-usage schauen, allerdings ist es oft so, dass ich dann kein top mehr starten kann ;-((..
Was soll der Server denn so machen? Wofür benutzt Ihr ihn? Nur als Mailserver?
... für alles: Web, Mail, DNS, ... (nur nicht als Arbeitsplatz). [...]
Weiter wäre interssant zu wissen, welche Programm zu den verschiedenen Zeitpunkten laufen, und in wieviel Instanzen.
Sah bisher immer normal aus, also kein Ausreisserprogramm mit x Instanzen...
Wenn's hart kommt, kannst Du natürlich auch immer noch mal den Netzverkehr mit loggen. Vielleicht hat sich ja jemand eingeschlichen und zieht Dir jetzt Rechenzeit, ... ab.
... welches Programm schlägst Du vor?
Danke + Grüsse Joachim
On Saturday, 30. March 2002 21:09, Joachim Kieferle wrote:
Wenn's hart kommt, kannst Du natürlich auch immer noch mal den Netzverkehr mit loggen. Vielleicht hat sich ja jemand eingeschlichen und zieht Dir jetzt Rechenzeit, ... ab.
... welches Programm schlägst Du vor?
tcpdump > logdatei Heiner -- heiner@kflog.org GnuPG - Key: E05AEAFC Fingerprint: 257A DFBF 4977 4585 77A0 3509 973B 92AA E05A EAFC
Hallo, könnte auch ein fehlerhaftes cgi sein. Kannst du vielleicht mal ein paar Tage auf den Webserver verzichten? Gruß, Ratti
Hallo Ratti, On 30 Mar 2002, Ratti wrote:
Hallo,
könnte auch ein fehlerhaftes cgi sein. Kannst du vielleicht mal ein paar Tage auf den Webserver verzichten?
Gruß, Ratti
hmmmm, meinst Du dass der Server dann wegen des CGI irgendwann "nach oben abhauen" kann? Verzichten wäre nicht so gut, weil Webmail etc. darüber läuft, aber ich denke, die BenutzerInnen sind eher bereit das zu akzeptieren als einen stehenden Server. Mein jetztiges Workaround: Cron-reboot alle paar Stunden. Ist das eigentlich ganz Server-konform ;-)))) ? (und ggf. eine Neuinstallation nach den Feiertagen). Top bzw. ps zeigt nichts besonderes bei httpd (solange ich in die Maschine komme). Hast Du eine Idee, wie ich evtl. amoklaufende CGIs rausfinden kann? Erfolgreiches Eiersuchen Joachim
Hallo, On 30 Mar 2002, Ratti wrote:
könnte auch ein fehlerhaftes cgi sein. Kannst du vielleicht mal ein paar Tage auf den Webserver verzichten?
Am Son, 2002-03-31 um 03.33 schrieb Joachim Kieferle:
hmmmm, meinst Du dass der Server dann wegen des CGI irgendwann "nach oben abhauen" kann?
War eine spontane Eingebung, weil ich mal auf die Weise eine Kiste getötet habe. program.pl rief (durch Tippfehler) program.pl auf, und so gingen die Ressourcen von uns... Gruß, Ratti
On Sunday, 31. March 2002 03:33, Joachim Kieferle wrote:
On 30 Mar 2002, Ratti wrote:
könnte auch ein fehlerhaftes cgi sein. Kannst du vielleicht mal ein paar Tage auf den Webserver verzichten?
hmmmm, meinst Du dass der Server dann wegen des CGI irgendwann "nach oben abhauen" kann?
Durchaus möglich.
Verzichten wäre nicht so gut, weil Webmail etc. darüber läuft, aber ich denke, die BenutzerInnen sind eher bereit das zu akzeptieren als einen stehenden Server. Mein jetztiges Workaround: Cron-reboot alle paar Stunden.
Bevor Du gleich den großen Reboot-Hammer rausholst, versuch doch einfach mal einzelne Dienste automatisch neu zu starten. Oder meinetwegen ein Runlevel-Switch. Geht ausserdem schneller.
(und ggf. eine Neuinstallation nach den Feiertagen).
Damit bekommst Du aber leider nicht raus, wo es klemmt.
Top bzw. ps zeigt nichts besonderes bei httpd (solange ich in die Maschine komme).
Wie gesagt: Häng einen Monitor an die Kiste und schaue, was dann lokal an Ausgaben kommen.
Hast Du eine Idee, wie ich evtl. amoklaufende CGIs rausfinden kann?
Erst mal etwas anderes: Finden kurz vorher denn überhaupt http-Zugriffe statt? Schau doch einfach mal in die Logdateien von Apache, ob da ungewöhnlich viel passiert, oder bestimmte Dateien abgerufen werden, die sonst nicht (so oft) abgerufen werden. Heiner -- heiner@kflog.org GnuPG - Key: E05AEAFC Fingerprint: 257A DFBF 4977 4585 77A0 3509 973B 92AA E05A EAFC
Hallo, * On Sat, Mar 30, 2002 at 06:26 PM (+0100), Joachim Kieferle wrote:
Was noch zu erwähnen ist, wir haben den Server von einem ins andere Gebäude umgezogen.
Vor dem Umzug trat das Problem definitiv nicht auf?
Hat jemand eine Idee? Zumindest wie ich was überwachen könnte, um weiter zu kommen?
Welcher Kernel ist denn auf dieser Maschine im Einsatz? Außerdem: schau Dir doch mal in der Newsgroup "de.comp.os.unix.linux.moderated" das Posting an, das unter der Message-ID: Message-ID: <3c851c754420@ds9.argh.org> und dem Subject: Subject: Load steigt ohne Grund am 06.03.2002 von Sven Hartge abgeschickt wurde. Irgendwie erinnert mich Deine Problembeschreibung zumindest ein wenig an Svens Beobachtung. Wenn der Rechner ohne Änderung der Konfiguration aber vor dem Umzug längere Zeit problemlos lief, wäre eigentlich schon im Netzwerkbereich zu suchen. Hängt der Rechner netzwerktechnisch jetzt an einer anderen "Gegenstelle"? Oder hattest Du vielleicht neue Komponenten (z.B. einen neuen Kernel) installiert, die erst durch den Umzug und den dadurch erfolgten Reboot "aktiv" gesetzt wurden?
Danke
Eine konkrete Idee habe ich leider nicht. Ich hätte spontan von der Be- schreibung her eher an einen Kernel-Bug gedacht.
+ frohe Ostern
Danke, Dir sowie allen Mitgliedern dieser Liste ebenfalls frohe Ostern! Gruß, Steffen
Hallo Steffen, On Sat, 30 Mar 2002, Steffen Moser wrote:
Hallo,
* On Sat, Mar 30, 2002 at 06:26 PM (+0100), Joachim Kieferle wrote:
Was noch zu erwähnen ist, wir haben den Server von einem ins andere Gebäude umgezogen.
Vor dem Umzug trat das Problem definitiv nicht auf?
ACK
Hat jemand eine Idee? Zumindest wie ich was überwachen könnte, um weiter zu kommen?
Welcher Kernel ist denn auf dieser Maschine im Einsatz?
2.4.10-4GB
Außerdem: schau Dir doch mal in der Newsgroup
"de.comp.os.unix.linux.moderated"
das Posting an, das unter der Message-ID:
Message-ID: <3c851c754420@ds9.argh.org>
und dem Subject:
Subject: Load steigt ohne Grund
am 06.03.2002 von Sven Hartge abgeschickt wurde. Irgendwie erinnert mich Deine Problembeschreibung zumindest ein wenig an Svens Beobachtung.
... danke für den Hinweis, bekomme gerade keine News vor 21.3., aber das liegt wahrscheinlich an unserem Newsserver, da schaue ich dann nach.
Wenn der Rechner ohne Änderung der Konfiguration aber vor dem Umzug längere Zeit problemlos lief, wäre eigentlich schon im Netzwerkbereich zu suchen. Hängt der Rechner netzwerktechnisch jetzt an einer anderen "Gegenstelle"?
Wenn Du mit Gegenstelle "an einem anderen Router" meinst: ja.
Oder hattest Du vielleicht neue Komponenten (z.B. einen neuen Kernel) installiert, die erst durch den Umzug und den dadurch erfolgten Reboot "aktiv" gesetzt wurden?
Nein, definitv nicht.
Danke
Eine konkrete Idee habe ich leider nicht. Ich hätte spontan von der Be- schreibung her eher an einen Kernel-Bug gedacht.
... sollte es eigentlich nicht sein, da es bisher problemlos lief. Viel Erfolg beim Eiersuchen Joachim
Hallo Joachim, * On Sun, Mar 31, 2002 at 03:26 AM (+0200), Joachim Kieferle wrote:
On Sat, 30 Mar 2002, Steffen Moser wrote:
Welcher Kernel ist denn auf dieser Maschine im Einsatz?
2.4.10-4GB
Hm, ich würde mal einen 2.4.18 oder einen aktuellen AC-Kernel (z.B. den "2.4.19-pre3-ac4") testen. War 2.4.10 nicht die Zeit, wo z.B. sehr viel an den Hauptbestandteilen des Kernels (Speicherverwaltung) geschraubt wurde? Komisch nur, wenn vorher alles bestens lief... Dann kann's daran ja eigentlich nicht liegen.
... danke für den Hinweis, bekomme gerade keine News vor 21.3., aber das liegt wahrscheinlich an unserem Newsserver, da schaue ich dann nach.
Ok, ansonsten würde es ja noch "news.cis.dfn.de" geben. Bei Bedarf könnte ich auch "human gateway" spielen und Dir die Postings auch forwarden... ;-)
Hängt der Rechner netzwerktechnisch jetzt an einer anderen "Gegenstelle"?
Wenn Du mit Gegenstelle "an einem anderen Router" meinst: ja.
Ja, das hatte ich gemeint. Sollte aber im Normalfall nichts ausmachen. Außer die Maschine ist im neuen Netz irgendwelchen "Attacken" ausgesetzt (was das auch immer sein mag).
Eine konkrete Idee habe ich leider nicht. Ich hätte spontan von der Be- schreibung her eher an einen Kernel-Bug gedacht.
... sollte es eigentlich nicht sein, da es bisher problemlos lief.
Eben. Der Ansatz, wie ihn Heiner beschrieben hat (z.B. mal schauen, ob ein Zusammenhang zwischen HTTP-Zugriffe und Sendmails Load-Meldungen be- steht), wäre ja auch mal interessant. Dass irgendwelche bekannten Sicherheitslücken bestanden haben, die zur Installation von mysteriöser "Root-Kit"-Software geführt haben könnte, kannst Du ausschließen?
Viel Erfolg beim Eiersuchen
:) Grüße, Steffen
Hallo Steffen, Heiner, Ratti und andere Pros: On Sun, 31 Mar 2002, Steffen Moser wrote: [...]
Welcher Kernel ist denn auf dieser Maschine im Einsatz? 2.4.10-4GB
[...]
Komisch nur, wenn vorher alles bestens lief... Dann kann's daran ja eigentlich nicht liegen.
eben. Einen Kernelupdate jetzt auf einer Remote-Maschine würde ich im Moment (in Anbetracht des schönen Wetters ;-)) nur sehr ungerne machen.
... danke für den Hinweis, bekomme gerade keine News vor 21.3., aber das liegt wahrscheinlich an unserem Newsserver, da schaue ich dann nach.
Ok, ansonsten würde es ja noch "news.cis.dfn.de" geben. Bei Bedarf könnte ich auch "human gateway" spielen und Dir die Postings auch forwarden... ;-)
hmmm, wäre nicht schlecht, denn ich komme an beide nicht ran. Oder vielleicht einen Tip, welchen Newsserver ich nehmen sollte. [...] Also - was ich jetzt noch rausgefunden habe: Auf den Webserver gab es einige Zugriffe wie pcp01498533pcs.rte20201.de.comcast.net - - [29/Mar/2002:15:20:05 +0100] "GET /cgi-bin/formmail.cgi?recipient=griffkrn@aol.com&subject=www.igp.uni-stuttgart.de/c gi-bin/formmail.cgi&email=juju@juju.com&=www.igp.uni-stuttgart.de/cgi-bin/formma il.cgi HTTP/1.1" 404 307 Nehme an, das sind Versuche, ob die Maschine undicht ist. Sollte sie aber laut Nessus nicht sein. (You never know). Tcpdump zeigt z.B. 12:53:16.920842 802.1d unknown version ... sowie einen defekten arp-Eintrag (der sich irgendwie nicht löschen lässt), sowie einige DNS-Zugriffe wie 12:57:31.503382 ns3.google.com.domain > plato.igp.uni-stuttgart.de.filenet-tms: 2726*- 0/1/0 (82) 12:57:31.505638 ns3.google.com.domain > plato.igp.uni-stuttgart.de.filenet-tms: 679*- 0/1/0 (82) netstat -s zeigt (ausschnittsweise dargestellt) nach einer uptime von ca. 7 Stunden Ip: 33591 total packets received 0 forwarded 25 incoming packets discarded 34281 incoming packets delivered 32246 requests sent out 2 outgoing packets dropped 2 fragments dropped after timeout 3 reassemblies required 2 packet reassembles failed Icmp: 1202 ICMP messages received 465 input ICMP message failed. ICMP input histogram: destination unreachable: 994 timeout in transit: 1 echo requests: 198 echo replies: 9 1180 ICMP messages sent 0 ICMP messages failed ICMP output histogram: destination unreachable: 982 echo replies: 198 Tcp: 487 active connections openings 0 passive connection openings 465 failed connection attempts 0 connection resets received 5 connections established 26838 segments received 25692 segments send out 483 segments retransmited 0 bad segments received. 10 resets sent Udp: 5099 packets received 47 packets to unknown port received. 0 packet receive errors 5338 packets sent TcpExt: ...... TCPSlowStartRetrans: 4 TCPTimeouts: 477 ...... ... ist hier irgendwo irgendwas komisch? Viele Grüsse Joachim
Hallo zusammen, also - habe nochmals an alle Kabel abgezogen und angesteckt. Ausserdem habe ich die USV (APC), deren Software (eigentlich für RedHat) automatisch gestartet wird, hardwaremässig installiert. Seitdem traten die Probleme nicht mehr auf. D.h. es deutet momentan einiges darauf hin, dass es entweder doch ein Wackelkontakt durch den Umzug des Servers oder eben die Software der USV war. Ich drücke mir die Daumen ;-)), dass damit das Problem gelöst ist. Euch allen schon mal vielen Dank für die vielen Tips, ich habe auf jeden Fall mal wieder viel dazu gelernt. Viele Grüsse Joachim
On Sunday, 31. March 2002 20:09, Joachim Kieferle wrote:
Hallo zusammen,
also - habe nochmals an alle Kabel abgezogen und angesteckt. Ausserdem habe ich die USV (APC), deren Software (eigentlich für RedHat) automatisch gestartet wird, hardwaremässig installiert.
PowerChute ist leider der letzte Dreck. Wenn du wüsstest, wie viel Stress wir schon damit hatten... Tu dir einen gefallen und nimm apcupsd: http://www.apcupsd.org Ist AFAIK auch auf der SuSE DVD drauf
Seitdem traten die Probleme nicht mehr auf. D.h. es deutet momentan einiges darauf hin, dass es entweder doch ein Wackelkontakt durch den Umzug des Servers oder eben die Software der USV war.
Ich drücke mir die Daumen ;-)), dass damit das Problem gelöst ist.
Euch allen schon mal vielen Dank für die vielen Tips, ich habe auf jeden Fall mal wieder viel dazu gelernt.
Viele Grüsse
Joachim
hth, Robert -- Where do you want to be tomorrow? Entracom. Building Linux systems. http://www.entracom.de
Hallo Robert, On Mon, 1 Apr 2002, Robert Szentmihalyi wrote:
On Sunday, 31. March 2002 20:09, Joachim Kieferle wrote:
Hallo zusammen,
also - habe nochmals an alle Kabel abgezogen und angesteckt. Ausserdem habe ich die USV (APC), deren Software (eigentlich für RedHat) automatisch gestartet wird, hardwaremässig installiert.
PowerChute ist leider der letzte Dreck. Wenn du wüsstest, wie viel Stress wir schon damit hatten... Tu dir einen gefallen und nimm apcupsd: http://www.apcupsd.org
Ist AFAIK auch auf der SuSE DVD drauf
Hmmm, dann könnte es also wirklich daran gelegen haben. In einer früheren SuSE-Version (ich glaube 6.x) habe ich mal den apcupsd probiert und es hat nicht funktioniert. Aber - werde ich beim nächsten Update gleich mal testen. Weil - never touch a running system ;-)) Danke für den Tip Joachim
On Monday, 1. April 2002 14:19, Joachim Kieferle wrote:
Hallo Robert,
On Mon, 1 Apr 2002, Robert Szentmihalyi wrote:
On Sunday, 31. March 2002 20:09, Joachim Kieferle wrote:
Hallo zusammen,
also - habe nochmals an alle Kabel abgezogen und angesteckt. Ausserdem habe ich die USV (APC), deren Software (eigentlich für RedHat) automatisch gestartet wird, hardwaremässig installiert.
PowerChute ist leider der letzte Dreck. Wenn du wüsstest, wie viel Stress wir schon damit hatten... Tu dir einen gefallen und nimm apcupsd: http://www.apcupsd.org
Ist AFAIK auch auf der SuSE DVD drauf
Hmmm, dann könnte es also wirklich daran gelegen haben. In einer früheren SuSE-Version (ich glaube 6.x) habe ich mal den apcupsd probiert und es hat nicht funktioniert. Aber - werde ich beim
Da hat sich einiges getan. Es gibt jetzt auch ein nettes Web Interface.
nächsten Update gleich mal testen. Weil - never touch a running system ;-))
Danke für den Tip
Joachim
Robert -- Where do you want to be tomorrow? Entracom. Building Linux systems. http://www.entracom.de
participants (5)
-
Heiner Lamprecht
-
Joachim Kieferle
-
Ratti
-
Robert Szentmihalyi
-
Steffen Moser