unklare wiederkehrende Servercrahes
Hallo, Ich benötige Hilfe bei einigen mir mysteriösen Abstürzen verschiedener Prozesse auf meinem Webserver, auf dem Suse 8.0 läuft. In den vergangenen Wochen stürzten unterschiedliche Proramme ab, darunter bspw. der httpd, mysqld, kswapd ua. Die Logs davon entsprechen alle dem folgenden Muster: Dec 7 19:02:02 simzone kernel: Unable to handle kernel paging request at virtual address 80000004 Dec 7 19:02:02 simzone kernel: printing eip: Dec 7 19:02:02 simzone kernel: c0134818 Dec 7 19:02:02 simzone kernel: *pde = 00000000 Dec 7 19:02:02 simzone kernel: Oops: 0000 Dec 7 19:02:02 simzone kernel: CPU: 0 Dec 7 19:02:02 simzone kernel: EIP: 0010:[get_hash_table+112/148] Tainted: P Dec 7 19:02:02 simzone kernel: EFLAGS: 00010286 Dec 7 19:02:02 simzone kernel: eax: c1920000 ebx: 00000003 ecx: 80000000 edx: 80000000 Dec 7 19:02:02 simzone kernel: esi: 00000009 edi: 00000304 ebp: 00246e51 esp: d85dfea8 Dec 7 19:02:02 simzone kernel: ds: 0018 es: 0018 ss: 0018 Dec 7 19:02:02 simzone kernel: Process httpd (pid: 10858, stackpage=d85df000) Dec 7 19:02:02 simzone kernel: Stack: 00001000 00000000 c1204b00 00000000 000018ab c013542c 00000304 00246e51 Dec 7 19:02:02 simzone kernel: 00001000 00001000 c01356d7 cad222a0 00000000 c1204b00 c1204b00 c18abb5c Dec 7 19:02:02 simzone kernel: c812c000 d85dff00 cad222a0 00001000 00003958 cad222a0 00000286 00000000 Dec 7 19:02:02 simzone kernel: Call Trace: [unmap_underlying_metadata+28/100] [__block_prepare_write+231/728] [block_prepare_write+34/76] [ipv6:__insmod_ipv6_O/lib/modules/2.4.18-4GB/kernel/net/ipv6/ipv6+-72324 832/96] [ipv6:__insmod_ipv6_O/lib/modules/2.4.18-4GB/kernel/net/ipv6/ipv6+-72313 740/96] Dec 7 19:02:02 simzone kernel: [ipv6:__insmod_ipv6_O/lib/modules/2.4.18-4GB/kernel/net/ipv6/ipv6+-72324 832/96] [generic_file_write+1171/1860] [sys_write+146/224] [system_call+51/64] Dec 7 19:02:02 simzone kernel: Dec 7 19:02:02 simzone kernel: Code: 39 6a 04 75 f3 31 c0 66 8b 42 08 3b 44 24 20 75 e7 66 39 7a Es ist immer die rede von irgendeiner virtuellen Adresse überhalb 80000000. In bisher vier Fällen ist der Server vollständig ausgefallen, ließ sich nicht mehr anpingen und musste hart resettet werden. In diesem Fall findet sich auch kein Eintrag in /var/log/messages zu dem Vorfall. Hinzu kommt, dass ich folgende Meldung haufenweise im Log wieder finde (bis zu 4-5 mal pro Stunde, offenbar seltener nachts, wenn der weniger Netzwerk-Traffic besteht): Dec 7 17:34:30 simzone kernel: hw tcp v4 csum failed Seitdem wir diese Probleme haben haben wir zudem beobachtet, dass sich einzelne Zeichen in einigen wenigen Dateien verändert haben ohne dass jemand an der Datei gearbeitet hätte. Wir haben bereits einen Memtest ausgeführt, der keine Fehler meldete. Außerdem habe ich die swap-Partition geprüft (und dabei gleichzeitig neu erstellt), auch hier waren keine Fehler zu finden. Vielleicht ist die folgende Info irgendwie hilfreich: Ich verwende SuSE 8.0 mit 2.4.18er kernel auf einem AMD Athlon 850 MHz, 512 MB RAM, IBM-DTLA-307030 (könnte es vielleicht die Platte sein?) Ich bin völlig ratlos und für jede Hilfe dankbar. Jan Harder
Hallo Jan, hallo Leute, Am Samstag, 14. Dezember 2002 16:50 schrieb Jan Harder:
Ich benötige Hilfe bei einigen mir mysteriösen Abstürzen verschiedener Prozesse auf meinem Webserver, auf dem Suse 8.0 läuft. In den vergangenen Wochen stürzten unterschiedliche Proramme ab, darunter bspw. der httpd, mysqld, kswapd ua. Die Logs davon entsprechen alle dem folgenden Muster:
Dec 7 19:02:02 simzone kernel: Unable to handle kernel paging request at virtual address 80000004 Dec 7 19:02:02 simzone kernel: printing eip: Dec 7 19:02:02 simzone kernel: c0134818 Dec 7 19:02:02 simzone kernel: *pde = 00000000 Dec 7 19:02:02 simzone kernel: Oops: 0000 [...]
Den "Oops" solltest Du mal durch ksymoops jagen und das Ergebnis evtl. hier posten. Dann können Dir einige Spezialisten (wozu ich nicht gehöre ;-) vielleicht weiterhelfen. Der Rest läuft in <voice mode=AFAIK subtype=IMHO> ;-)
[...] Hinzu kommt, dass ich folgende Meldung haufenweise im Log wieder finde (bis zu 4-5 mal pro Stunde, offenbar seltener nachts, wenn der weniger Netzwerk-Traffic besteht):
Dec 7 17:34:30 simzone kernel: hw tcp v4 csum failed
Hmm. hw tcp v4 dürfte aufs Netzwerk bzw. die Netzwerkkarte deuten. csum failed heißt wohl, dass das Datenpaket inkonsistent war/ist (eben eine falsche Checksumme hat) Kann es sein, dass die Netzwerkkarte langsam den Geist aufgibt?
Seitdem wir diese Probleme haben haben wir zudem beobachtet, dass sich einzelne Zeichen in einigen wenigen Dateien verändert haben ohne dass jemand an der Datei gearbeitet hätte.
Seltsam. Hast Du die Dateien übers Netz (z. B. ssh oder über http) oder direkt am Server betrachtet?
Wir haben bereits einen Memtest ausgeführt, der keine Fehler meldete. Außerdem habe ich die swap-Partition geprüft (und dabei gleichzeitig neu erstellt), auch hier waren keine Fehler zu finden.
Soweit, so gut.
Vielleicht ist die folgende Info irgendwie hilfreich: Ich verwende SuSE 8.0 mit 2.4.18er kernel auf einem AMD Athlon 850 MHz, 512 MB RAM,
IBM-DTLA-307030 (könnte es vielleicht die Platte sein?)
Gute Frage. Von IBM-Platten hab ich in der Liste schon des öfteren von Problemen gelesen. Evtl. wäre mal eine Diagnose sinnvoll (z. B. Drive Fitness Test) Was mir gerade einfällt: Hat der Server nur eine (IDE)-Platte oder mehrere? Bei mehreren könnte es am SuSE-Kernel liegen. </voice> Gruß Christian Boltz -- Wenn ich eine SuSE-CD an ein Schwein binde und dieses trete, laufen KDE & Co. auch ohne RAM recht schnell. [Robin S. Socha in de.comp.os.unix.linux.newusers]
Moin,
Den "Oops" solltest Du mal durch ksymoops jagen und das Ergebnis evtl. hier posten. Dann können Dir einige Spezialisten (wozu ich nicht
gehöre ;-) vielleicht weiterhelfen.
Hmm, das ist mir leider nicht gelungen, entweder weil ich mich blöd anstelle oder weil es zu dem Oops keine Infos (mehr) gibt (hab ksymoops mit dem Parameter -A und der Fehlernummer aufgerufen aber nichts gescheites zurückbekommen).
Dec 7 17:34:30 simzone kernel: hw tcp v4 csum failed
Hmm. hw tcp v4 dürfte aufs Netzwerk bzw. die Netzwerkkarte deuten. csum failed heißt wohl, dass das Datenpaket inkonsistent war/ist (eben
eine falsche Checksumme hat) Kann es sein, dass die Netzwerkkarte langsam den Geist aufgibt?
Dieses Problem ist scheinbar gelöst. Ich habe in meiner Verzweiflung einfach den SuSE 2.4.18er Kernel durch einen neuen 2.4.20er ersetzt und seitdem das System damit läuft habe ich diesen Fehler kein einziges mal gesehen. Vielleicht haben sich damit ja auch die anderen Probleme aufgelöst.
Seltsam. Hast Du die [veränderten] Dateien übers Netz (z. B. ssh oder über http) oder direkt am Server betrachtet?
Wir haben das Problem entdeckt nachdem ein PHP-Script aus heiterem Himmel einen Error lieferte - eben weil ein Zeichen darin mutiert war. Vielleicht sind diese Fehler ja bei einem der Crashs enstanden? Na ja, ich hoffe der neue Kernel hat den Server auf wundersame Weise geheilt. Eigentlich ja nicht unbedingt die Standardprozedur bei einem unklaren Problem einen neuen Kernel drüberzubügeln, aber was solls, Hauptsache läuft ;) Jan Harder
participants (2)
-
Christian Boltz
-
Jan Harder