Unerklärlicher Serverabsturz und die Folgen ???
Hallo miteinander, wir haben hier offensichtlich ein ernsthafteres Problem mit unsere Konfiguration. Installiert ist eine original SuSE 7.3 (Kernel 2.4.10) mit JFS auf einem Software-Raid 5. Der Rechner ist im Serverbetrieb und dient als NIS, DNS, NFS und Samba-Server. Ablauf: Als ich am Montagmorgen auf den Server zugreifen wollte ging gar nichts mehr. Es stellte sich schnell heraus, dass eine der Raid-Platten ausgefallen war und der Server daraufhin wohl abgestürzt ist und neu gebootet hat. Sollte zwar eigentlich nicht passieren, ist es aber wohl. Beim Hochfahren wurden dann einige Services nicht mehr gestartet. Folgende Meldungen erschienen im bootlog: Dec 12 11:02:58 sauerstoff kernel: Is remount racy? Dec 12 11:02:58 sauerstoff kernel: jfs_dirty inode called on read-only volume [..ca. 50-100 mal diese beiden Zeilen..] Running /etc/init.d/boot.local doneCreating /var/log/boot.msg done<notice>killproc: kill(33,29) Enabling syn flood protectiondone Disabling IP forwardingdone <notice>killproc: kill(33,3) Boot logging started on /dev/tty1(/dev/console) at Wed Dec 12 11:02:52 2001 Master Resource Control: previous runlevel: N, switching to runlevel: 5 <notice>/etc/init.d/rc5.d/S01dummy start <notice>'/etc/init.d/rc5.d/S01dummy start' exits with status 0 <notice>/etc/init.d/rc5.d/S01random start Initializing random number generatordone <notice>'/etc/init.d/rc5.d/S01random start' exits with status 0 <notice>/etc/init.d/rc5.d/S02dhclient start <notice>'/etc/init.d/rc5.d/S02dhclient start' exits with status 0 <notice>/etc/init.d/rc5.d/S05network start Setting up network device eth0 done<notice>'/etc/init.d/rc5.d/S05network start' exits with status 0 [..usw...] Durch manuelles Starten konnte ich einige Services wieder zum Laufen bringen, z.B. DNS und Samba. NIS oder NFS wollten nicht. Ich habe es auch bisher nicht geschaft die Dienste wieder zu aktivieren... Heute, zwei Tage später wieder ein ähnliches Bild: Server ist offensichtlich in der Nacht abgestürtzt, gar nichts geht mehr. Rollen und caps-lock blinken, Bildschirm schwarz. Folgende Fehlermeldungen finden sich in /var/log/messages : Dec 11 08:59:00 sauerstoff /USR/SBIN/CRON[3591]: (root) CMD ( rm -f /var/spool/cron/lastrun/cron.hourly) Dec 11 09:09:29 sauerstoff -- MARK -- Dec 11 09:29:29 sauerstoff -- MARK -- Dec 11 09:30:00 sauerstoff kernel: Unable to handle kernel paging request at virtual address 006e0125 Dec 11 09:30:00 sauerstoff kernel: printing eip: Dec 11 09:30:00 sauerstoff kernel: c023c7dd Dec 11 09:30:00 sauerstoff kernel: *pde = 00000000 Dec 11 09:30:00 sauerstoff kernel: Oops: 0002 Dec 11 09:30:00 sauerstoff kernel: CPU: 0 Dec 11 09:30:00 sauerstoff kernel: EIP: 0010:[__generic_copy_from_user+85/108] Dec 11 09:30:00 sauerstoff kernel: EFLAGS: 00010212 Dec 11 09:30:00 sauerstoff kernel: eax: 00000000 ebx: ffd20f8d ecx: 3ff483e3 edx: 3fd36f8d Dec 11 09:30:00 sauerstoff kernel: esi: 40016000 edi: 006e0125 ebp: d8d94000 esp: d8d95f5c Dec 11 09:30:00 sauerstoff kernel: ds: 0018 es: 0018 ss: 0018 Dec 11 09:30:00 sauerstoff kernel: Process mktemp (pid: 3638, stackpage=d8d95000) Dec 11 09:30:00 sauerstoff kernel: Stack: ffd20f8d dab04120 db1d49c0 00000016 c013c19e 006e0125 40016000 ffd20f8d Dec 11 09:30:00 sauerstoff kernel: de057140 ffffffea 00000000 00000016 db1d4a28 fffffff2 00000000 00000016 Dec 11 09:30:00 sauerstoff kernel: c013257b de057140 40016000 00000016 de057160 d8d94000 00000016 40016000 Dec 11 09:30:00 sauerstoff kernel: Call Trace: [pipe_write+338/628] [sys_write+143/196] [system_call+51/64] Dec 11 09:30:00 sauerstoff kernel: Dec 11 09:30:00 sauerstoff kernel: Code: f3 ab f6 c3 02 74 02 66 ab f6 c3 01 74 01 aa 89 d8 5b 5e 5f [..usw..] So, jetzt bin ich ratlos und habe viele Fragen... - Was bedeuten die Fehlermeldungen vom JFS? - Warum starten die Services nicht automatisch und einige doch manuell? - Warum dieser heftige Absturz mit den Kernel- fehlermeldungen? - Wie den Server wieder funktionsfähig kriegen? Hat da jemand Ideen, Tips oder Hilfen? Falls noch Infos fehlen kann ich die gerne posten... Danke für Eure Hilfe, Sascha -- Sascha Mueller ProDatO Integration Technology GmbH email sascha.mueller@prodato-it.de
Hallo Sascha, On Wednesday 12 December 2001 15:15, Sascha Mueller wrote:
wir haben hier offensichtlich ein ernsthafteres Problem mit unsere Konfiguration. Installiert ist eine original SuSE 7.3 (Kernel 2.4.10) mit JFS auf einem Software-Raid 5. Der Rechner ist im Serverbetrieb und dient als NIS, DNS, NFS und Samba-Server. [...] Folgende Meldungen erschienen im bootlog:
Dec 12 11:02:58 sauerstoff kernel: Is remount racy? Dec 12 11:02:58 sauerstoff kernel: jfs_dirty inode called on read-only volume [..ca. 50-100 mal diese beiden Zeilen..] [...] So, jetzt bin ich ratlos und habe viele Fragen... - Was bedeuten die Fehlermeldungen vom JFS?
hast Du folgenden Artikel schon gelesen? o http://sdb.suse.de/de/sdb/html/grimmer_jfs.html Schöne Grüße, Stephan -- /* Stephan Hakuli -=-=-=- http://www.hakuli.de/stephan Encryption with GnuPG/GPG is strongly encouraged, my public key is available on my website. -=- Kernel_source_comment_of_the_month=\ `find /usr/src/linux-2.2.20 -name "*.[hc]"|xargs grep "can grep"` */
Hallo Stephan, danke für die Mail, bin vor ca. 10 Minuten auch darauf gestossen. Wenn ich den Text richtig verstehe, sollte der Fehler aber nur die Bootzeit verlängern. Die anderen Effekte kann ich mir damit noch nicht erklären... - Oder?! Irgendwelche Ideen, warum die Services nicht starten...? Danke für die Hilfe, Sascha Stephan Hakuli wrote:
Hallo Sascha,
On Wednesday 12 December 2001 15:15, Sascha Mueller wrote:
wir haben hier offensichtlich ein ernsthafteres Problem mit unsere Konfiguration. Installiert ist eine original SuSE 7.3 (Kernel 2.4.10) mit JFS auf einem Software-Raid 5. Der Rechner ist im Serverbetrieb und dient als NIS, DNS, NFS und Samba-Server. [...] Folgende Meldungen erschienen im bootlog:
Dec 12 11:02:58 sauerstoff kernel: Is remount racy? Dec 12 11:02:58 sauerstoff kernel: jfs_dirty inode called on read-only volume [..ca. 50-100 mal diese beiden Zeilen..] [...] So, jetzt bin ich ratlos und habe viele Fragen... - Was bedeuten die Fehlermeldungen vom JFS?
hast Du folgenden Artikel schon gelesen?
o http://sdb.suse.de/de/sdb/html/grimmer_jfs.html
Schöne Grüße,
Stephan
-- ----------------------------------------- Sascha Mueller ProDatO Integration Technology GmbH email sascha.mueller@prodato-it.de
Hallo Sascha,
From the keyboard of Sascha,
Hallo miteinander,
wir haben hier offensichtlich ein ernsthafteres Problem mit unsere Konfiguration. Installiert ist eine original SuSE 7.3 (Kernel 2.4.10) mit JFS auf einem Software-Raid 5. Der Rechner ist im Serverbetrieb und dient als NIS, DNS, NFS und Samba-Server.
JFS auf einem Produktionssystem, selbst schuld. Gehörst du zu denjenigen die dem Marketing glauben und vorher keine Tests machen? Hast du ein ähnliches System vorher so aufgesetzt und unter Last getestet?
Ablauf: Als ich am Montagmorgen auf den Server zugreifen wollte ging gar nichts mehr. Es stellte sich schnell heraus, dass eine der Raid-Platten ausgefallen war und der Server daraufhin wohl abgestürzt ist und neu gebootet hat. Sollte zwar eigentlich nicht passieren, ist es aber wohl. Beim Hochfahren wurden dann einige Services nicht mehr gestartet.
Folgende Meldungen erschienen im bootlog:
Dec 12 11:02:58 sauerstoff kernel: Is remount racy? Dec 12 11:02:58 sauerstoff kernel: jfs_dirty inode called on read-only volume [..ca. 50-100 mal diese beiden Zeilen..]
Starte den Server am Prompt mit init /bin/bash und jage ein fsck.jfs über die Platten.
Running /etc/init.d/boot.local doneCreating /var/log/boot.msg done<notice>killproc: kill(33,29) Enabling syn flood protectiondone Disabling IP forwardingdone <notice>killproc: kill(33,3) Boot logging started on /dev/tty1(/dev/console) at Wed Dec 12 11:02:52 2001 Master Resource Control: previous runlevel: N, switching to runlevel: 5 <notice>/etc/init.d/rc5.d/S01dummy start <notice>'/etc/init.d/rc5.d/S01dummy start' exits with status 0 <notice>/etc/init.d/rc5.d/S01random start Initializing random number generatordone <notice>'/etc/init.d/rc5.d/S01random start' exits with status 0 <notice>/etc/init.d/rc5.d/S02dhclient start <notice>'/etc/init.d/rc5.d/S02dhclient start' exits with status 0
<notice>/etc/init.d/rc5.d/S05network start Setting up network device eth0 done<notice>'/etc/init.d/rc5.d/S05network start' exits with status 0
[..usw...]
Server im runlevel 5? Läuft da X drauf ? *kopfschüttel*
Durch manuelles Starten konnte ich einige Services wieder zum Laufen bringen, z.B. DNS und Samba. NIS oder NFS wollten nicht. Ich habe es auch bisher nicht geschaft die Dienste wieder zu aktivieren...
Fehlermeldungen?
Heute, zwei Tage später wieder ein ähnliches Bild: Server ist offensichtlich in der Nacht abgestürtzt, gar nichts geht mehr. Rollen und caps-lock blinken, Bildschirm schwarz.
Das Blinken deutet bei neueren Kernels auf "Kernel panic"
Folgende Fehlermeldungen finden sich in /var/log/messages :
Dec 11 08:59:00 sauerstoff /USR/SBIN/CRON[3591]: (root) CMD ( rm -f /var/spool/cron/lastrun/cron.hourly) Dec 11 09:09:29 sauerstoff -- MARK -- Dec 11 09:29:29 sauerstoff -- MARK -- Dec 11 09:30:00 sauerstoff kernel: Unable to handle kernel paging request at virtual address 006e0125 Dec 11 09:30:00 sauerstoff kernel: printing eip: Dec 11 09:30:00 sauerstoff kernel: c023c7dd Dec 11 09:30:00 sauerstoff kernel: *pde = 00000000 Dec 11 09:30:00 sauerstoff kernel: Oops: 0002 Dec 11 09:30:00 sauerstoff kernel: CPU: 0 Dec 11 09:30:00 sauerstoff kernel: EIP: 0010:[__generic_copy_from_user+85/108] Dec 11 09:30:00 sauerstoff kernel: EFLAGS: 00010212 Dec 11 09:30:00 sauerstoff kernel: eax: 00000000 ebx: ffd20f8d ecx: 3ff483e3 edx: 3fd36f8d Dec 11 09:30:00 sauerstoff kernel: esi: 40016000 edi: 006e0125 ebp: d8d94000 esp: d8d95f5c Dec 11 09:30:00 sauerstoff kernel: ds: 0018 es: 0018 ss: 0018
Dec 11 09:30:00 sauerstoff kernel: Process mktemp (pid: 3638, stackpage=d8d95000) Dec 11 09:30:00 sauerstoff kernel: Stack: ffd20f8d dab04120 db1d49c0 00000016 c013c19e 006e0125 40016000 ffd20f8d Dec 11 09:30:00 sauerstoff kernel: de057140 ffffffea 00000000 00000016 db1d4a28 fffffff2 00000000 00000016 Dec 11 09:30:00 sauerstoff kernel: c013257b de057140 40016000 00000016 de057160 d8d94000 00000016 40016000 Dec 11 09:30:00 sauerstoff kernel: Call Trace: [pipe_write+338/628] [sys_write+143/196] [system_call+51/64] Dec 11 09:30:00 sauerstoff kernel: Dec 11 09:30:00 sauerstoff kernel: Code: f3 ab f6 c3 02 74 02 66 ab f6 c3 01 74 01 aa 89 d8 5b 5e 5f
[..usw..]
Ach da ist die panic ja schon ;)
So, jetzt bin ich ratlos und habe viele Fragen... - Was bedeuten die Fehlermeldungen vom JFS?
Versucht jfs vielleicht ein Filesystemcheck auf einer read-only Partition durchzuführen? Liegt / etwa auf JFS?
- Warum starten die Services nicht automatisch und einige doch manuell?
Korruptes Filesystem? Genau das was du mit deinem feinen Journaling Filesystem verhindern wolltest.
- Warum dieser heftige Absturz mit den Kernel- fehlermeldungen?
Kaputte Hardware, Buggy Kernel, ...
- Wie den Server wieder funktionsfähig kriegen?
Memtest (30 h), neuer Kernel, bonnie + Kernel kompilieren in ner while true Schleife, besseres Filesystem ...
Hat da jemand Ideen, Tips oder Hilfen? Falls noch Infos fehlen kann ich die gerne posten...
Vielleicht in den Logs nachvollziehen, was die Kiste gemacht hat nachdem eine Platte aus dem RAID-Verbund abgesemmelt ist. viel erfolg Waldemar -- Are your questions smart enough? http://www.tuxedo.org/~esr/faqs/smart-questions.html
Hallo zusammen,
Folgende Fehlermeldungen finden sich in /var/log/messages :
Dec 11 08:59:00 sauerstoff /USR/SBIN/CRON[3591]: (root) CMD ( rm -f /var/spool/cron/lastrun/cron.hourly) Dec 11 09:09:29 sauerstoff -- MARK -- Dec 11 09:29:29 sauerstoff -- MARK -- Dec 11 09:30:00 sauerstoff kernel: Unable to handle kernel paging request at virtual address 006e0125 Dec 11 09:30:00 sauerstoff kernel: printing eip: Dec 11 09:30:00 sauerstoff kernel: c023c7dd Dec 11 09:30:00 sauerstoff kernel: *pde = 00000000 Dec 11 09:30:00 sauerstoff kernel: Oops: 0002 Dec 11 09:30:00 sauerstoff kernel: CPU: 0 Dec 11 09:30:00 sauerstoff kernel: EIP: 0010:[__generic_copy_from_user+85/108] Dec 11 09:30:00 sauerstoff kernel: EFLAGS: 00010212 Dec 11 09:30:00 sauerstoff kernel: eax: 00000000 ebx: ffd20f8d ecx: 3ff483e3 edx: 3fd36f8d Dec 11 09:30:00 sauerstoff kernel: esi: 40016000 edi: 006e0125 ebp: d8d94000 esp: d8d95f5c Dec 11 09:30:00 sauerstoff kernel: ds: 0018 es: 0018 ss: 0018
Dec 11 09:30:00 sauerstoff kernel: Process mktemp (pid: 3638, stackpage=d8d95000) Dec 11 09:30:00 sauerstoff kernel: Stack: ffd20f8d dab04120 db1d49c0 00000016 c013c19e 006e0125 40016000 ffd20f8d Dec 11 09:30:00 sauerstoff kernel: de057140 ffffffea 00000000 00000016 db1d4a28 fffffff2 00000000 00000016 Dec 11 09:30:00 sauerstoff kernel: c013257b de057140 40016000 00000016 de057160 d8d94000 00000016 40016000 Dec 11 09:30:00 sauerstoff kernel: Call Trace: [pipe_write+338/628] [sys_write+143/196] [system_call+51/64] Dec 11 09:30:00 sauerstoff kernel: Dec 11 09:30:00 sauerstoff kernel: Code: f3 ab f6 c3 02 74 02 66 ab f6 c3 01 74 01 aa 89 d8 5b 5e 5f
[..usw..]
.... genau das gleiche Problem hatten wir auch incl. "zerschossenen" Platten. Bei uns war es defekter RAM. D.h. da hilft das beste Filesystem nichts, wenn die Daten nicht mehr sauber auf die Platten geschrieben werden. Bei uns ist auch die Maschine regelmaessig unregelmaessig stehen geblieben, wobei sich die Abstaende immer weiter verkuerzt haben. Meist sind die Fehlermeldungen bei "/etc/cron.daily/aaa_base_updatedb" aufgetaucht. Falls ein RAM-Baustein defekt ist (-> Memtest durchfuehren) ggf. weitere baugleiche sofort ersetzen, es ist uns erst ein ca. 1,5 Jahre alter RAM-Baustein kaputt gegangen und dann ca. 2 Monate spaeter ein weiterer. Bei den derzeitigen RAM-Preisen lohnt es sich sicher nicht, das Risiko defekten RAMs einzugehen und damit von Datenverlust einzugehen. Viel Erfolg Joachim Kieferle
participants (4)
-
Joachim Kieferle
-
Sascha Mueller
-
Stephan Hakuli
-
Waldemar Brodkorb