staendig kernel Oops: sata-Chip/-treiber oder Festplatte defekt?
Ich bekomme auf einem PC, der als Server fungiert am laufenden Band Kernel Oops, siehe Beispiele im Anhang. Der Trace weist meiner Meinung nach auf einen Fehler beim Zugriff auf die SATA-Festplatten, zumindest jeweils am Anfang, später kommen ext3, nfs, .. Fehlermeldungen im trace, am Anfang im trace steht aber immer eine Festplattenzugriff. War könnte defekt sein? Seagate SATA-Festplatte? SATA-Chip auf dem ASUS A7N8X-E? Linux-Treiber? Ich habe das gleiche Mainboard mit Samsung SATA Festplatten mit der gleichen Software (Suse 9.2) woanders im Einsatz, seit 4 Monaten ohne Probleme, nur ohne NFS-Zugriffe nach dem booten, weil die DLC's (Diskless Clients) XDMCP machen. Ursprünglich war ein NFS-Bug des KErnel im Verdacht, dieser wird durch die Reihenfolge der Oops trace aber widerlegt, oder? Diese beginnen wie schon genannt immer mit einem Festplattenzugriff. Danke schon mal Ekkard Anhang ====== Jan 16 04:15:10 pserver su: pam_unix2: session started for user nobody, service su Jan 16 04:21:11 pserver kernel: Unable to handle kernel paging request at virtual address 8000000c Jan 16 04:21:11 pserver kernel: printing eip: Jan 16 04:21:11 pserver kernel: c0164fcb Jan 16 04:21:11 pserver kernel: *pde = 00000000 Jan 16 04:21:11 pserver kernel: [31;1mOops[m: 0000 [#1] Jan 16 04:21:11 pserver kernel: Modules linked in: raw nls_utf8 snd_seq_oss snd_seq_midi_event snd_seq nvram usbserial parport_pc lp parport nfsd exportfs snd_pcm_oss snd_mixer_oss snd_via82xx snd_ac97_codec snd_pcm snd_timer snd_page_alloc gameport snd_mpu401_uart snd_rawmidi snd_seq_device snd soundcore ipv6 edd hisax crc_ccitt isdn slhc joydev forcedeth sg st sr_mod ide_cd cdrom subfs ohci1394 ieee1394 sk98lin nvidia_agp agpgart ehci_hcd ohci_hcd evdev dm_mod usbcore ext3 jbd sata_sil libata sd_mod scsi_mod Jan 16 04:21:11 pserver kernel: CPU: 0 Jan 16 04:21:11 pserver kernel: EIP: 0060:[<c0164fcb>] Not tainted VLI Jan 16 04:21:11 pserver kernel: EFLAGS: 00010286 (2.6.8-24-default 20041006091623) Jan 16 04:21:11 pserver kernel: EIP is at dput+0x4b/0x180 Jan 16 04:21:11 pserver kernel: eax: 80000000 ebx: dba57090 ecx: 00000246 edx: c3de7848 Jan 16 04:21:11 pserver kernel: esi: dba57090 edi: 0000000f ebp: cdffea20 esp: c19a7f04 Jan 16 04:21:11 pserver kernel: ds: 007b es: 007b ss: 0068 Jan 16 04:21:12 pserver kernel: Process kswapd0 (pid: 46, threadinfo=c19a6000 task=c1978aa0) Jan 16 04:21:12 pserver kernel: Stack: f5be24f0 dba57090 c01653d0 00000000 00002f50 c19a6000 c01656e2 c013fd1c Jan 16 04:21:12 pserver kernel: 01550400 00000000 00000379 00006233 00000000 000000d0 00000040 c036aa80 Jan 16 04:21:14 pserver kernel: 00000001 c036aa80 00000004 c014103f 00000378 00000000 c19a7f9c 00000100 Jan 16 04:21:15 pserver kernel: Call Trace: Jan 16 04:21:15 pserver kernel: [<c01653d0>] prune_dcache+0x120/0x130 Jan 16 04:21:15 pserver kernel: [<c01656e2>] shrink_dcache_memory+0x12/0x40 Jan 16 04:21:15 pserver kernel: [<c013fd1c>] shrink_slab+0xfc/0x180 Jan 16 04:21:15 pserver kernel: [<c014103f>] balance_pgdat+0x1df/0x290 Jan 16 04:21:15 pserver kernel: [<c01411a5>] kswapd+0xb5/0xd0 Jan 16 04:21:15 pserver kernel: [<c011aa20>] autoremove_wake_function+0x0/0x30 Jan 16 04:21:15 pserver kernel: [<c011aa20>] autoremove_wake_function+0x0/0x30 Jan 16 04:21:15 pserver kernel: [<c01410f0>] kswapd+0x0/0xd0 Jan 16 04:21:15 pserver kernel: [<c0104255>] kernel_thread_helper+0x5/0x10 Jan 16 04:21:15 pserver kernel: Code: ff 39 f3 0f 84 47 01 00 00 89 f3 8b 03 ff 0b 0f 94 c0 84 c0 0f 84 36 01 00 00 8b 03 85 c0 0f 85 2c 01 00 00 8b 43 44 85 c0 74 0b <8b> 50 0c 85 d2 0f 85 aa 00 00 00 8b 43 04 a8 10 0f 84 da 00 00 Jan 16 04:21:47 pserver su: pam_unix2: session finished for user nobody, service su Jan 16 04:35:17 pserver -- MARK -- Jan 17 04:15:19 pserver su: pam_unix2: session started for user nobody, service su Jan 17 04:19:51 pserver kernel: Unable to handle kernel paging request at virtual address 80000000 Jan 17 04:19:51 pserver kernel: printing eip: Jan 17 04:19:51 pserver kernel: c015c385 Jan 17 04:19:51 pserver kernel: *pde = 00000000 Jan 17 04:19:51 pserver kernel: [31;1mOops[m: 0000 [#2] Jan 17 04:19:51 pserver kernel: Modules linked in: raw nls_utf8 snd_seq_oss snd_seq_midi_event snd_seq nvram usbserial parport_pc lp parport nfsd exportfs snd_pcm_oss snd_mixer_oss snd_via82xx snd_ac97_codec snd_pcm snd_timer snd_page_alloc gameport snd_mpu401_uart snd_rawmidi snd_seq_device snd soundcore ipv6 edd hisax crc_ccitt isdn slhc joydev forcedeth sg st sr_mod ide_cd cdrom subfs ohci1394 ieee1394 sk98lin nvidia_agp agpgart ehci_hcd ohci_hcd evdev dm_mod usbcore ext3 jbd sata_sil libata sd_mod scsi_mod Jan 17 04:19:51 pserver kernel: CPU: 0 Jan 17 04:19:51 pserver kernel: EIP: 0060:[<c015c385>] Not tainted VLI Jan 17 04:19:51 pserver kernel: EFLAGS: 00010286 (2.6.8-24-default 20041006091623) Jan 17 04:19:51 pserver kernel: EIP is at do_lookup+0x25/0x70 Jan 17 04:19:51 pserver kernel: eax: 80000000 ebx: dba57090 ecx: 00000000 edx: dba570a4 Jan 17 04:19:51 pserver kernel: esi: f0483f1c edi: f0483ec8 ebp: f0483ed0 esp: f0483ea4 Jan 17 04:19:51 pserver kernel: ds: 007b es: 007b ss: 0068 Jan 17 04:19:51 pserver kernel: Process find (pid: 7704, threadinfo=f0482000 task=f6fa9550) Jan 17 04:19:51 pserver kernel: Stack: c18f48c0 f0483ed0 00002331 c3b9dec0 cca52001 c015ca99 f8c2c369 00000000 Jan 17 04:19:51 pserver kernel: f0483f1c 9c0362d6 00000064 00002331 00000001 cca52000 f0483ef8 f0482000 Jan 17 04:19:51 pserver su: pam_unix2: session finished for user nobody, service su Jan 17 04:19:51 pserver kernel: f0483f1c 00000000 cca52000 c015d283 cca52000 f0483f1c 00000000 cca52000 Jan 17 04:19:51 pserver kernel: Call Trace: Jan 17 04:19:51 pserver kernel: [<c015ca99>] link_path_walk+0x6c9/0xca0 Jan 17 04:19:51 pserver kernel: [<f8c2c369>] journal_dirty_metadata+0xf9/0x170 [jbd] Jan 17 04:19:51 pserver kernel: [<c015d283>] path_lookup+0x73/0x150 Jan 17 04:19:51 pserver kernel: [<c015d4b1>] __user_walk+0x21/0x60 Jan 17 04:19:51 pserver kernel: [<c0158b01>] vfs_lstat+0x11/0x40 Jan 17 04:19:51 pserver kernel: [<c015919f>] sys_lstat64+0xf/0x30 Jan 17 04:19:51 pserver kernel: [<c01441fd>] do_file_page+0x1d/0xc0 Jan 17 04:19:51 pserver kernel: [<c0150453>] filp_close+0x43/0x70 Jan 17 04:19:51 pserver kernel: [<c0105c69>] sysenter_past_esp+0x52/0x79 Jan 17 04:19:51 pserver kernel: Code: bc 27 00 00 00 00 55 57 56 53 57 89 c6 8b 40 04 89 04 24 89 d5 8b 06 89 cf e8 c8 97 00 00 89 c3 85 c0 74 39 8b 40 44 85 c0 74 06 <8b> 08 85 c9 75 10 8b 04 24 89 5f 04 89 07 31 c0 5e 5b 5e 5f 5d Jan 17 04:35:05 pserver -- MARK -- Jan 18 12:44:59 pserver kernel: Call Trace: Jan 18 12:44:59 pserver kernel: [<c013a4bd>] __alloc_pages+0x12d/0x470 Jan 18 12:44:59 pserver kernel: [<c013cf9c>] do_page_cache_readahead+0xec/0x130 Jan 18 12:44:59 pserver kernel: [<c013d0d7>] page_cache_readahead+0xf7/0x210 Jan 18 12:44:59 pserver kernel: [<c0136a84>] do_generic_mapping_read+0xd4/0x3b0 Jan 18 12:44:59 pserver kernel: [<c01371f8>] generic_file_sendfile+0x48/0x60 Jan 18 12:44:59 pserver kernel: [<f91e99d0>] nfsd_read_actor+0x0/0xe0 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91e9cdc>] nfsd_read+0x22c/0x2e0 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91e99d0>] nfsd_read_actor+0x0/0xe0 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91f12db>] nfsd3_proc_read+0xbb/0x150 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91f38c0>] nfs3svc_decode_readargs+0x0/0x230 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91e65ee>] nfsd_dispatch+0xfe/0x1c0 [nfsd] Jan 18 12:44:59 pserver kernel: [<c02f24eb>] svc_process+0x66b/0x820 Jan 18 12:44:59 pserver kernel: [<f91e637e>] nfsd+0x16e/0x2e0 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91e6210>] nfsd+0x0/0x2e0 [nfsd] Jan 18 12:44:59 pserver kernel: [<c0104255>] kernel_thread_helper+0x5/0x10 Jan 18 12:44:59 pserver kernel: Call Trace: Jan 18 12:44:59 pserver kernel: [<c013a4bd>] __alloc_pages+0x12d/0x470 Jan 18 12:44:59 pserver kernel: [<c011aab0>] autoremove_wake_function+0x0/0x30 Jan 18 12:44:59 pserver kernel: [<c013cf9c>] do_page_cache_readahead+0xec/0x130 Jan 18 12:44:59 pserver kernel: [<c013d0d7>] page_cache_readahead+0xf7/0x210 Jan 18 12:44:59 pserver kernel: [<c0136a84>] do_generic_mapping_read+0xd4/0x3b0 Jan 18 12:44:59 pserver kernel: [<c01371f8>] generic_file_sendfile+0x48/0x60 Jan 18 12:44:59 pserver kernel: [<f91e99d0>] nfsd_read_actor+0x0/0xe0 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91e9cdc>] nfsd_read+0x22c/0x2e0 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91e99d0>] nfsd_read_actor+0x0/0xe0 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91f12db>] nfsd3_proc_read+0xbb/0x150 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91f38c0>] nfs3svc_decode_readargs+0x0/0x230 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91e65ee>] nfsd_dispatch+0xfe/0x1c0 [nfsd] Jan 18 12:44:59 pserver kernel: [<c02f24eb>] svc_process+0x66b/0x820 Jan 18 12:44:59 pserver kernel: [<f91e637e>] nfsd+0x16e/0x2e0 [nfsd] Jan 18 12:44:59 pserver kernel: [<f91e6210>] nfsd+0x0/0x2e0 [nfsd] Jan 18 12:44:59 pserver kernel: [<c0104255>] kernel_thread_helper+0x5/0x10 Jan 18 12:45:01 pserver kernel: Call Trace: Jan 18 12:45:01 pserver kernel: [<c013a4bd>] __alloc_pages+0x12d/0x470 Jan 18 12:45:01 pserver kernel: [<c013cf9c>] do_page_cache_readahead+0xec/0x130 Jan 18 12:45:01 pserver kernel: [<c013d0d7>] page_cache_readahead+0xf7/0x210 Jan 18 12:45:01 pserver kernel: [<c0136a84>] do_generic_mapping_read+0xd4/0x3b0 Jan 18 12:45:01 pserver kernel: [<c013764e>] filemap_nopage+0x2ce/0x310 Jan 18 12:45:01 pserver kernel: [<c0136fcd>] __generic_file_aio_read+0x18d/0x1f0 Jan 18 12:45:01 pserver kernel: [<c0136d60>] file_read_actor+0x0/0xe0 Jan 18 12:45:01 pserver kernel: [<c013706a>] generic_file_aio_read+0x3a/0x50 Jan 18 12:45:01 pserver kernel: [<c0150c97>] do_sync_read+0x97/0xf0 Jan 18 12:45:01 pserver kernel: [<f8d5ca60>] ext3_permission+0x0/0x190 [ext3] Jan 18 12:45:01 pserver kernel: [<c015049f>] dentry_open+0xcf/0x1b0 Jan 18 12:45:01 pserver kernel: [<c011aab0>] autoremove_wake_function+0x0/0x30 Jan 18 12:45:01 pserver kernel: [<c01503be>] filp_open+0x3e/0x50 Jan 18 12:45:01 pserver kernel: [<c0150c00>] do_sync_read+0x0/0xf0 Jan 18 12:45:01 pserver kernel: [<c0150d8f>] vfs_read+0x9f/0x100 Jan 18 12:45:01 pserver kernel: [<c015101c>] sys_read+0x3c/0x70 Jan 18 12:45:01 pserver kernel: [<c0105cc7>] syscall_call+0x7/0xb Jan 18 12:45:01 pserver kernel: Call Trace: Jan 18 12:45:01 pserver kernel: [<c013a4bd>] __alloc_pages+0x12d/0x470 Jan 18 12:45:01 pserver kernel: [<c013cf9c>] do_page_cache_readahead+0xec/0x130 Jan 18 12:45:01 pserver kernel: [<c013d0d7>] page_cache_readahead+0xf7/0x210 Jan 18 12:45:01 pserver kernel: [<c0136a84>] do_generic_mapping_read+0xd4/0x3b0 Jan 18 12:45:01 pserver kernel: [<c013a4ce>] __alloc_pages+0x13e/0x470 Jan 18 12:45:01 pserver kernel: [<c0136fcd>] __generic_file_aio_read+0x18d/0x1f0 Jan 18 12:45:01 pserver kernel: [<c0136d60>] file_read_actor+0x0/0xe0 Jan 18 12:45:01 pserver kernel: [<c013706a>] generic_file_aio_read+0x3a/0x50 Jan 18 12:45:01 pserver kernel: [<c0150c97>] do_sync_read+0x97/0xf0 Jan 18 12:45:01 pserver kernel: [<c011aab0>] autoremove_wake_function+0x0/0x30 Jan 18 12:45:01 pserver kernel: [<c0150c00>] do_sync_read+0x0/0xf0 Jan 18 12:45:01 pserver kernel: [<c0150d8f>] vfs_read+0x9f/0x100 Jan 18 12:45:01 pserver kernel: [<c0159df1>] kernel_read+0x31/0x40 Jan 18 12:45:01 pserver kernel: [<c015a6ed>] prepare_binprm+0xcd/0x110 Jan 18 12:45:01 pserver kernel: [<c015ab76>] do_execve+0x156/0x290 Jan 18 12:45:01 pserver kernel: [<c0104a0a>] sys_execve+0x2a/0x80 Jan 18 12:45:01 pserver kernel: [<c0105c69>] sysenter_past_esp+0x52/0x79 Jan 18 12:45:01 pserver kernel: Call Trace: Jan 18 12:45:01 pserver kernel: [<c013a4bd>] __alloc_pages+0x12d/0x470 Jan 18 12:45:01 pserver kernel: [<c013ce5b>] force_page_cache_readahead+0x13b/0x190 Jan 18 12:45:01 pserver kernel: [<c0142360>] madvise_willneed+0x50/0x60 Jan 18 12:45:01 pserver kernel: [<c0142407>] madvise_vma+0x37/0x50 Jan 18 12:45:01 pserver kernel: [<c0142517>] sys_madvise+0xf7/0x103 Jan 18 12:45:01 pserver kernel: [<c0105cc7>] syscall_call+0x7/0xb Jan 18 12:46:01 pserver kernel: Call Trace: Jan 18 12:46:01 pserver kernel: [<c013a4bd>] __alloc_pages+0x12d/0x470 Jan 18 12:46:01 pserver kernel: [<c013cf9c>] do_page_cache_readahead+0xec/0x130 Jan 18 12:46:01 pserver kernel: [<c013d0d7>] page_cache_readahead+0xf7/0x210 Jan 18 12:46:01 pserver kernel: [<c0136a84>] do_generic_mapping_read+0xd4/0x3b0 Jan 18 12:46:01 pserver kernel: [<c013764e>] filemap_nopage+0x2ce/0x310 Jan 18 12:46:01 pserver kernel: [<c0136fcd>] __generic_file_aio_read+0x18d/0x1f0 Jan 18 12:46:01 pserver kernel: [<c0136d60>] file_read_actor+0x0/0xe0 Jan 18 12:46:01 pserver kernel: [<c013706a>] generic_file_aio_read+0x3a/0x50 Jan 18 12:46:01 pserver kernel: [<c0150c97>] do_sync_read+0x97/0xf0 Jan 18 12:46:01 pserver kernel: [<f8d5ca60>] ext3_permission+0x0/0x190 [ext3] Jan 18 12:46:01 pserver kernel: [<c015049f>] dentry_open+0xcf/0x1b0 Jan 18 12:46:01 pserver kernel: [<c011aab0>] autoremove_wake_function+0x0/0x30 Jan 18 12:46:01 pserver kernel: [<c01503be>] filp_open+0x3e/0x50 Jan 18 12:46:01 pserver kernel: [<c0150c00>] do_sync_read+0x0/0xf0 Jan 18 12:46:01 pserver kernel: [<c0150d8f>] vfs_read+0x9f/0x100 Jan 18 12:46:01 pserver kernel: [<c015101c>] sys_read+0x3c/0x70 Jan 18 12:46:01 pserver kernel: [<c0105cc7>] syscall_call+0x7/0xb
Hallo Ekkard, Am Fri, 20 Jan 2006, Ekkard Gerlach schrieb: [..]
Jan 16 04:21:11 pserver kernel: EIP is at dput+0x4b/0x180 [..] Jan 17 04:19:51 pserver kernel: EIP is at do_lookup+0x25/0x70
Ich habe ehrlich keine Ahnung von NFS, aber eigentlich alle Oopses waren bei Festplattenzugriffen bzw. FS-Ops, das ganze riecht fuer mich ein bisserl nach HW-Problemen... Hast du noch nen anderen Kernel zur Verfuegung mit dem du vergleichen kannst? Wobei es natuerlich auch sein kann, dass der eine Kernel die HW eben anders / mehr fordert... Ueberpruefe / tausche doch zuerst mal das RAM! -dnh -- Grrr. The Microsoft world fucks you coming and going. -- Alan J Rosenthal
* David Haller schrieb:
Hallo Ekkard,
Am Fri, 20 Jan 2006, Ekkard Gerlach schrieb: [..]
Jan 16 04:21:11 pserver kernel: EIP is at dput+0x4b/0x180 [..] Jan 17 04:19:51 pserver kernel: EIP is at do_lookup+0x25/0x70
Ich habe ehrlich keine Ahnung von NFS, aber eigentlich alle Oopses waren bei Festplattenzugriffen bzw. FS-Ops, das ganze riecht fuer mich ein bisserl nach HW-Problemen... Hast du noch nen anderen Kernel zur Verfuegung mit dem du vergleichen kannst? Wobei es natuerlich auch
es sind schon verschieden KErnel, die ersten Oops sind vom 2.6.8-24.14, die unteren von 2.6.8-24.19. Es ändert sich mit den Kerneln also nichts.
sein kann, dass der eine Kernel die HW eben anders / mehr fordert...
Übrigens: die Kiste macht schon deadlocks wenn ich von SATA auf die zweite SATA kopiere, zumindest war das einmal, sonst bricht rsync "gerne" ab mit Meldungen, die schon in diese Liste gepostet habe, siehe thread "kernel OOps mit neustem Kernel 2.6.8-24.19 (Suse 9.2)" ganz unten.
Ueberpruefe / tausche doch zuerst mal das RAM!
Ich tausche gleich mehrere Dinge auf einmal aus, da das Test so aufwändig ist und wenn das System 2 Stunden ohne Oops läuft sagt das noch gar nichts. Mainboard + RAM + Netzteil werden getauscht, dann wird von der ersten Festplatte alles auf die zweite gesynct (das wir ein erster Test sein, ob der Festplatten- controller vielleicht einen Schaden hat), dann wird die zweite Festplatte die erste werden. Die ausgetauschten Komponenten kommen dann in unseren Vorführ-/Test-PC, der hat ja die gleiche Ausstattung. Dann wird "stress" laufen gelassen, (http://weather.ou.edu/~apw/projects/stress/) nebenher die 5 DLC's gestartet (mit VMware , XP) und die 3 XDMCP-ThinClients gestartet und von einer Festplatte auf die nächste gesynct. Und das mindestens eine Stunde. ich Danke Dir für Deinen Hinweis, wir (mein Mitarbeiter und ich) meinen auch, daß ein Hardware-Defekt möglich ist. Gruss Ekkard -- Dipl. inform. Ekkard Gerlach, Goethestr. 15A, D - 76135 Karlsruhe, Medizinische EDV-Anlagen, Software und Hardware, e-mail: eg-nospam@linuxburg.de web: http://www.linuxburg.de
participants (2)
-
David Haller
-
Ekkard Gerlach