Re: Unerklärlicher Serverabsturz und die Folgen ???

12 Dec 2001


      Hallo Sascha,
...
From the keyboard of Sascha,
...
Hallo miteinander,
wir haben hier offensichtlich ein ernsthafteres Problem
mit unsere Konfiguration. Installiert ist eine original
SuSE 7.3 (Kernel 2.4.10) mit JFS auf einem Software-Raid 5.
Der  Rechner ist im Serverbetrieb und dient als NIS, DNS,
NFS und Samba-Server.
JFS auf einem Produktionssystem, selbst schuld.
Gehörst du zu denjenigen die dem Marketing glauben und vorher
keine Tests machen? Hast du ein ähnliches System vorher so
aufgesetzt und unter Last getestet?
...
Ablauf:
Als ich am Montagmorgen auf den Server zugreifen wollte
ging gar nichts mehr. Es stellte sich schnell heraus,
dass eine der Raid-Platten ausgefallen war und der Server
daraufhin wohl abgestürzt ist und neu gebootet hat.
Sollte zwar eigentlich nicht passieren, ist es aber wohl.
Beim Hochfahren wurden dann einige Services nicht mehr
gestartet.
Folgende Meldungen erschienen im bootlog:
Dec 12 11:02:58 sauerstoff kernel: Is remount racy?
Dec 12 11:02:58 sauerstoff kernel: jfs_dirty inode called on
read-only volume
[..ca. 50-100 mal diese beiden Zeilen..]
Starte den Server am Prompt mit 
init /bin/bash
und jage ein fsck.jfs über die Platten.
...
Running /etc/init.d/boot.local
doneCreating /var/log/boot.msg
done<notice>killproc: kill(33,29)
Enabling syn flood protectiondone
Disabling IP forwardingdone
<notice>killproc: kill(33,3)
Boot logging started on /dev/tty1(/dev/console) at Wed Dec 12
11:02:52 2001
Master Resource Control: previous runlevel: N, switching to
runlevel: 5
<notice>/etc/init.d/rc5.d/S01dummy start
<notice>'/etc/init.d/rc5.d/S01dummy start' exits with status 0
<notice>/etc/init.d/rc5.d/S01random start
Initializing random number generatordone
<notice>'/etc/init.d/rc5.d/S01random start' exits with status 0
<notice>/etc/init.d/rc5.d/S02dhclient start
<notice>'/etc/init.d/rc5.d/S02dhclient start' exits with status 0
<notice>/etc/init.d/rc5.d/S05network start
Setting up network device eth0
done<notice>'/etc/init.d/rc5.d/S05network start' exits with
status 0
[..usw...]
Server im runlevel 5? Läuft da X drauf ? *kopfschüttel*
...
Durch manuelles Starten konnte ich einige Services
wieder zum Laufen bringen, z.B. DNS und Samba. NIS
oder NFS wollten nicht. Ich habe es auch bisher nicht
geschaft die Dienste wieder zu aktivieren...
Fehlermeldungen?
...
Heute, zwei Tage später wieder ein ähnliches Bild:
Server ist offensichtlich in der Nacht abgestürtzt,
gar nichts geht mehr. Rollen und caps-lock blinken,
Bildschirm schwarz.
Das Blinken deutet bei neueren Kernels auf "Kernel panic"
...
Folgende Fehlermeldungen finden sich in
/var/log/messages :
Dec 11 08:59:00 sauerstoff /USR/SBIN/CRON[3591]: (root) CMD ( rm
-f /var/spool/cron/lastrun/cron.hourly)
Dec 11 09:09:29 sauerstoff -- MARK --
Dec 11 09:29:29 sauerstoff -- MARK --
Dec 11 09:30:00 sauerstoff kernel: Unable to handle kernel paging
request at virtual address 006e0125
Dec 11 09:30:00 sauerstoff kernel:  printing eip:
Dec 11 09:30:00 sauerstoff kernel: c023c7dd
Dec 11 09:30:00 sauerstoff kernel: *pde = 00000000
Dec 11 09:30:00 sauerstoff kernel: Oops: 0002
Dec 11 09:30:00 sauerstoff kernel: CPU:    0
Dec 11 09:30:00 sauerstoff kernel: EIP:
0010:[__generic_copy_from_user+85/108]
Dec 11 09:30:00 sauerstoff kernel: EFLAGS: 00010212
Dec 11 09:30:00 sauerstoff kernel: eax: 00000000   ebx:
ffd20f8d   ecx: 3ff483e3   edx: 3fd36f8d
Dec 11 09:30:00 sauerstoff kernel: esi: 40016000   edi:
006e0125   ebp: d8d94000   esp: d8d95f5c
Dec 11 09:30:00 sauerstoff kernel: ds: 0018   es: 0018   ss: 0018
Dec 11 09:30:00 sauerstoff kernel: Process mktemp (pid: 3638,
stackpage=d8d95000)
Dec 11 09:30:00 sauerstoff kernel: Stack: ffd20f8d dab04120
db1d49c0 00000016 c013c19e 006e0125 40016000 ffd20f8d
Dec 11 09:30:00 sauerstoff kernel:        de057140 ffffffea
00000000 00000016 db1d4a28 fffffff2 00000000 00000016
Dec 11 09:30:00 sauerstoff kernel:        c013257b de057140
40016000 00000016 de057160 d8d94000 00000016 40016000
Dec 11 09:30:00 sauerstoff kernel: Call Trace:
[pipe_write+338/628] [sys_write+143/196] [system_call+51/64]
Dec 11 09:30:00 sauerstoff kernel:
Dec 11 09:30:00 sauerstoff kernel: Code: f3 ab f6 c3 02 74 02 66
ab f6 c3 01 74 01 aa 89 d8 5b 5e 5f
[..usw..]
Ach da ist die panic ja schon ;)
...
So, jetzt bin ich ratlos und habe viele Fragen...
- Was bedeuten die Fehlermeldungen vom JFS?
Versucht jfs vielleicht ein Filesystemcheck auf einer read-only
Partition durchzuführen? Liegt / etwa auf JFS?
...
- Warum starten die Services nicht automatisch
  und einige doch manuell?
Korruptes Filesystem? Genau das was du mit deinem feinen Journaling
Filesystem verhindern wolltest.
...
- Warum dieser heftige Absturz mit den Kernel-
  fehlermeldungen?
Kaputte Hardware, Buggy Kernel, ...
...
- Wie den Server wieder funktionsfähig kriegen?
Memtest (30 h), neuer Kernel, bonnie + Kernel kompilieren in ner
while true Schleife, besseres Filesystem ...
...
Hat da jemand Ideen, Tips oder Hilfen? Falls noch
Infos fehlen kann ich die gerne posten...
Vielleicht in den Logs nachvollziehen, was die Kiste gemacht hat
nachdem eine Platte aus dem RAID-Verbund abgesemmelt ist.

viel erfolg
    Waldemar

-- 
Are your questions smart enough?
http://www.tuxedo.org/~esr/faqs/smart-questions.html

Re: Unerklärlicher Serverabsturz und die Folgen ???

Waldemar Brodkorb