Hallo Sascha,
From the keyboard of Sascha,
Hallo miteinander,
wir haben hier offensichtlich ein ernsthafteres Problem mit unsere Konfiguration. Installiert ist eine original SuSE 7.3 (Kernel 2.4.10) mit JFS auf einem Software-Raid 5. Der Rechner ist im Serverbetrieb und dient als NIS, DNS, NFS und Samba-Server.
JFS auf einem Produktionssystem, selbst schuld. Gehörst du zu denjenigen die dem Marketing glauben und vorher keine Tests machen? Hast du ein ähnliches System vorher so aufgesetzt und unter Last getestet?
Ablauf: Als ich am Montagmorgen auf den Server zugreifen wollte ging gar nichts mehr. Es stellte sich schnell heraus, dass eine der Raid-Platten ausgefallen war und der Server daraufhin wohl abgestürzt ist und neu gebootet hat. Sollte zwar eigentlich nicht passieren, ist es aber wohl. Beim Hochfahren wurden dann einige Services nicht mehr gestartet.
Folgende Meldungen erschienen im bootlog:
Dec 12 11:02:58 sauerstoff kernel: Is remount racy? Dec 12 11:02:58 sauerstoff kernel: jfs_dirty inode called on read-only volume [..ca. 50-100 mal diese beiden Zeilen..]
Starte den Server am Prompt mit init /bin/bash und jage ein fsck.jfs über die Platten.
Running /etc/init.d/boot.local doneCreating /var/log/boot.msg done<notice>killproc: kill(33,29) Enabling syn flood protectiondone Disabling IP forwardingdone <notice>killproc: kill(33,3) Boot logging started on /dev/tty1(/dev/console) at Wed Dec 12 11:02:52 2001 Master Resource Control: previous runlevel: N, switching to runlevel: 5 <notice>/etc/init.d/rc5.d/S01dummy start <notice>'/etc/init.d/rc5.d/S01dummy start' exits with status 0 <notice>/etc/init.d/rc5.d/S01random start Initializing random number generatordone <notice>'/etc/init.d/rc5.d/S01random start' exits with status 0 <notice>/etc/init.d/rc5.d/S02dhclient start <notice>'/etc/init.d/rc5.d/S02dhclient start' exits with status 0
<notice>/etc/init.d/rc5.d/S05network start Setting up network device eth0 done<notice>'/etc/init.d/rc5.d/S05network start' exits with status 0
[..usw...]
Server im runlevel 5? Läuft da X drauf ? *kopfschüttel*
Durch manuelles Starten konnte ich einige Services wieder zum Laufen bringen, z.B. DNS und Samba. NIS oder NFS wollten nicht. Ich habe es auch bisher nicht geschaft die Dienste wieder zu aktivieren...
Fehlermeldungen?
Heute, zwei Tage später wieder ein ähnliches Bild: Server ist offensichtlich in der Nacht abgestürtzt, gar nichts geht mehr. Rollen und caps-lock blinken, Bildschirm schwarz.
Das Blinken deutet bei neueren Kernels auf "Kernel panic"
Folgende Fehlermeldungen finden sich in /var/log/messages :
Dec 11 08:59:00 sauerstoff /USR/SBIN/CRON[3591]: (root) CMD ( rm -f /var/spool/cron/lastrun/cron.hourly) Dec 11 09:09:29 sauerstoff -- MARK -- Dec 11 09:29:29 sauerstoff -- MARK -- Dec 11 09:30:00 sauerstoff kernel: Unable to handle kernel paging request at virtual address 006e0125 Dec 11 09:30:00 sauerstoff kernel: printing eip: Dec 11 09:30:00 sauerstoff kernel: c023c7dd Dec 11 09:30:00 sauerstoff kernel: *pde = 00000000 Dec 11 09:30:00 sauerstoff kernel: Oops: 0002 Dec 11 09:30:00 sauerstoff kernel: CPU: 0 Dec 11 09:30:00 sauerstoff kernel: EIP: 0010:[__generic_copy_from_user+85/108] Dec 11 09:30:00 sauerstoff kernel: EFLAGS: 00010212 Dec 11 09:30:00 sauerstoff kernel: eax: 00000000 ebx: ffd20f8d ecx: 3ff483e3 edx: 3fd36f8d Dec 11 09:30:00 sauerstoff kernel: esi: 40016000 edi: 006e0125 ebp: d8d94000 esp: d8d95f5c Dec 11 09:30:00 sauerstoff kernel: ds: 0018 es: 0018 ss: 0018
Dec 11 09:30:00 sauerstoff kernel: Process mktemp (pid: 3638, stackpage=d8d95000) Dec 11 09:30:00 sauerstoff kernel: Stack: ffd20f8d dab04120 db1d49c0 00000016 c013c19e 006e0125 40016000 ffd20f8d Dec 11 09:30:00 sauerstoff kernel: de057140 ffffffea 00000000 00000016 db1d4a28 fffffff2 00000000 00000016 Dec 11 09:30:00 sauerstoff kernel: c013257b de057140 40016000 00000016 de057160 d8d94000 00000016 40016000 Dec 11 09:30:00 sauerstoff kernel: Call Trace: [pipe_write+338/628] [sys_write+143/196] [system_call+51/64] Dec 11 09:30:00 sauerstoff kernel: Dec 11 09:30:00 sauerstoff kernel: Code: f3 ab f6 c3 02 74 02 66 ab f6 c3 01 74 01 aa 89 d8 5b 5e 5f
[..usw..]
Ach da ist die panic ja schon ;)
So, jetzt bin ich ratlos und habe viele Fragen... - Was bedeuten die Fehlermeldungen vom JFS?
Versucht jfs vielleicht ein Filesystemcheck auf einer read-only Partition durchzuführen? Liegt / etwa auf JFS?
- Warum starten die Services nicht automatisch und einige doch manuell?
Korruptes Filesystem? Genau das was du mit deinem feinen Journaling Filesystem verhindern wolltest.
- Warum dieser heftige Absturz mit den Kernel- fehlermeldungen?
Kaputte Hardware, Buggy Kernel, ...
- Wie den Server wieder funktionsfähig kriegen?
Memtest (30 h), neuer Kernel, bonnie + Kernel kompilieren in ner while true Schleife, besseres Filesystem ...
Hat da jemand Ideen, Tips oder Hilfen? Falls noch Infos fehlen kann ich die gerne posten...
Vielleicht in den Logs nachvollziehen, was die Kiste gemacht hat nachdem eine Platte aus dem RAID-Verbund abgesemmelt ist. viel erfolg Waldemar -- Are your questions smart enough? http://www.tuxedo.org/~esr/faqs/smart-questions.html