Festplatte - stirbt sie oder stirbt sie nicht?
Hallo Liste. Ich habe den Verdacht, daß meine Notebook-Platte allmählich stirbt. Einmal war ohne jeden ersichtlichen Grund das Dateisystem der Windows-Partition kaputt. Dann hat plötzlich die Netzwerkkonfiguration nicht mehr gestimmt. Seit zwei Tagen will mein X-Server nicht mehr starten. Das Problem ist nur, daß ich keinen konkreten Anhaltspunkt habe: badblocks /dev/hda findet nix. dd if=/dev/hda of=/dev/null läuft fehlerfrei. Hitachis Drive Fitness Test ist auch der Meinung, die Platte sei völlig in Ordnung. Der Grund, warum ich die Festplatte verdächtige, ist der, daß eine Knoppix einwandfrei läuft. Auch ein Memtest liefert ebenso wie cpuburn keine Fehler. Hat jemand noch eine Idee, wie ich den Übeltäter dingfest machen kann? -- Andre Tann
David Haller, Dienstag, 3. Januar 2006 20:51:
Am Tue, 03 Jan 2006, Andre Tann schrieb:
Hat jemand noch eine Idee, wie ich den Übeltäter dingfest machen kann?
Meldungen im syslog?
Keine, die auf irgendwelche I/O-Probleme hindeuten. Nur Dinge wie "couldn't fire up local display :0...". Aber das hatte ich ja schon vorher gesehen ;)
It is not yet possible to change operating system by writ ing to /proc/sys/kernel/ostype.
Der ist gut. -- Andre Tann
Hallo, Am Tue, 03 Jan 2006, Andre Tann schrieb:
David Haller, Dienstag, 3. Januar 2006 20:51:
Am Tue, 03 Jan 2006, Andre Tann schrieb:
Hat jemand noch eine Idee, wie ich den Übeltäter dingfest machen kann?
Meldungen im syslog?
Keine, die auf irgendwelche I/O-Probleme hindeuten. Nur Dinge wie "couldn't fire up local display :0...". Aber das hatte ich ja schon vorher gesehen ;)
Hm. Ich seh grad, die SuSE 9.1 hat nen aelteren IDE-Treiber in 2.6.4 als ich in meiner 6.2 mit Kernel 2.4.25. *harhar* Mail doch bitte mal die Ausgabe von 'hdparm -i' und 'cat /proc/ide/hd?/settings' (falls letzteres nicht zu viel wird, das sonst per PM, ich zitier das dann ggfs. gekuerzt)... Und mail mir mal per PM die komplette boot.msg / Ausgabe von dmesg ob mir da irgendwas auffaellt. [sig]
Der ist gut.
Jep :) -dnh -- I do not have enough Scotch in this house to attempt an XP install. -- Peter Corlett
David Haller, Mittwoch, 4. Januar 2006 00:14:
Mail doch bitte mal die Ausgabe von 'hdparm -i'
/dev/hda: Model=FUJITSU MHT2080AH, FwRev=006C, SerialNo=NP1RT5425556 Config={ HardSect NotMFM HdSw>15uSec Fixed DTR>10Mbs } RawCHS=16383/16/63, TrkSize=0, SectSize=0, ECCbytes=4 BuffType=DualPortCache, BuffSize=8192kB, MaxMultSect=16, MultSect=16 CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=155239949 IORDY=yes, tPIO={min:240,w/IORDY:120}, tDMA={min:120,rec:120} PIO modes: pio0 pio1 pio2 pio3 pio4 DMA modes: mdma0 mdma1 mdma2 UDMA modes: udma0 udma1 udma2 udma3 udma4 *udma5 AdvancedPM=yes: mode=0x80 (128) WriteCache=enabled Drive conforms to: ATA/ATAPI-6 T13 1410D revision 3a: * signifies the current active mode
und 'cat /proc/ide/hd?/settings'
name value min max mode ---- ----- --- --- ---- acoustic 0 0 254 rw address 0 0 2 rw bios_cyl 65535 0 65535 rw bios_head 16 0 255 rw bios_sect 63 0 63 rw bswap 0 0 1 r current_speed 69 0 70 rw failures 0 0 65535 rw init_speed 69 0 70 rw io_32bit 0 0 3 rw keepsettings 0 0 1 rw lun 0 0 7 rw max_failures 1 0 65535 rw multcount 16 0 16 rw nice1 1 0 1 rw nowerr 0 0 1 rw number 0 0 3 rw pio_mode write-only 0 255 w unmaskirq 0 0 1 rw using_dma 1 0 1 rw wcache 1 0 1 rw
Und mail mir mal per PM die komplette boot.msg / Ausgabe von dmesg ob mir da irgendwas auffaellt.
Yep, kommt sogleich. Danke schon mal. -- Andre Tann
Hallo, Am Wed, 04 Jan 2006, Andre Tann schrieb:
David Haller, Mittwoch, 4. Januar 2006 00:14:
Mail doch bitte mal die Ausgabe von 'hdparm -i' /dev/hda: [..] UDMA modes: udma0 udma1 udma2 udma3 udma4 *udma5 [..]
Koennte man ggfs. mal ne Stufe oder so runterstellen, nur so zum Test (hdparm -k1 -X udma3 /dev/hda), ist aber eher unwahrscheinlich, weil sonst der Kernel im syslog meckern sollte.
und 'cat /proc/ide/hd?/settings' [..hda..] io_32bit 0 0 3 rw
Kann man normalerweise anschalten (lies man hdparm zum Parameter '-c').
keepsettings 0 0 1 rw
hdparm -k1, sollte man sowieso immer angeben, wenn man _getestete_(!) Parameter anwendet.
unmaskirq 0 0 1 rw
Lies die Beschreibung von '-u' in 'man hdparm'. Rest ok / unauffaellig.
Und mail mir mal per PM die komplette boot.msg / Ausgabe von dmesg ob mir da irgendwas auffaellt.
Yep, kommt sogleich.
Auch weitgehend unauffaellig, die IRQs sind aber seltsam. Sollten aber ebenfalls "kernel-meckern" im syslog ausloesen... Aeh, Andre, hast du im Betrieb irgendwelche ide/hd* Meldungen des Kernels im syslog? -dnh -- There is a green, multi-legged creature crawling on your shoulder.
Am Dienstag, 3. Januar 2006 17:19 schrieb Andre Tann:
Ich habe den Verdacht, daß meine Notebook-Platte allmählich stirbt. Einmal war ohne jeden ersichtlichen Grund das Dateisystem der Windows-Partition kaputt.
Hmm, wenn das auch Windows betrifft, dann nützt wohl auch eine Dateisystemprüfung auf Linuxebene nix. Aber wenn tatsächlich die Platte an sich für die Fehler verantwortlich sein sollte, dann müßten deine Linuxdateisysteme ja auch Fehler haben!
Dann hat plötzlich die Netzwerkkonfiguration nicht mehr gestimmt.
Was heißt "nicht mehr gestimmt" genau?
Seit zwei Tagen will mein X-Server nicht mehr starten.
Warum? Sprich, was sagt das Log von X.Org/XFree86?
Das Problem ist nur, daß ich keinen konkreten Anhaltspunkt habe:
badblocks /dev/hda findet nix. dd if=/dev/hda of=/dev/null läuft fehlerfrei. Hitachis Drive Fitness Test ist auch der Meinung, die Platte sei völlig in Ordnung.
Das erinnert mich daran, daß ich in dem Thread "Festplatte defekt oder nur das Filesystem" noch antworten sollte. X-) Hier der relevante Teil zum Plattenprüfen und DFT : | SMART besteht ja nicht nur aus dem Monitoring. Meine IBM-Platten erfreuen | sich laut SMART und Drive-Fitness-Test auch noch bester Gesundheit, falls | das BIOS sie mal findet! | | Man sollte auf die Werte "Reallocated_Sector_Ct" und | "UDMA_CRC_Error_Count" achten. Wenn die größer als 0 sind mach ich mir | Sorgen. "smartctl -l error /dev/hda" zeigt das interne Fehler-Log an, | sollte auch besser leer sein. | | Und man kann Platten recht einfach und effektiv mit "smartctl -t | long /dev/hda" testen (das dauert auch tatsächlich lange, siehe "smartctl | -c /dev/hda"). "smartctl -l selftest /dev/hda" zeigt dann das Log der | Selbsttests an (IMHO macht der Drive-Fitness-Test auch nichts anderes als | so einen Selbsttest, jedenfalls finde ich dessen Tests in diesem Log). Es | gibt je nach Platte auch noch andere Logs, siehe Ende der Ausgabe von | "smartctl -a /dev/hda" Gruß Jan -- Good fences make good neighbors.
Jan Ritzerfeld, Dienstag, 3. Januar 2006 22:21:
Hmm, wenn das auch Windows betrifft, dann nützt wohl auch eine Dateisystemprüfung auf Linuxebene nix. Aber wenn tatsächlich die Platte an sich für die Fehler verantwortlich sein sollte, dann müßten deine Linuxdateisysteme ja auch Fehler haben!
Das haben sie ja eben vielleicht auch. Denn daß mein Netzwerk und mein X plötzlich zu spinnen anfangen könnte doch auf defekte Konfigurationsdateien o.ä. zurückzuführen sein.
Dann hat plötzlich die Netzwerkkonfiguration nicht mehr gestimmt.
Was heißt "nicht mehr gestimmt" genau?
Das heißt, daß ich via Ethernet keine Netzwerkverbindung mehr gekriegt habe, obwohl das vorher monatelang funktioniert hat. Mußte dann mit Hilfe von Yast die Netzwerkkarten (=Ethernet und WLAN) neu einrichten. Und ich muß es bei jedem Start erneut tun, weil die Einstellungen irgendwie nicht von Dauer sind.
Seit zwei Tagen will mein X-Server nicht mehr starten.
Warum? Sprich, was sagt das Log von X.Org/XFree86?
Leider enthält das Log keine Datumsangaben. Ich poste daher mal einen Teil, der mir relevant erscheint. Siehe [1]
| Man sollte auf die Werte "Reallocated_Sector_Ct" und | "UDMA_CRC_Error_Count" achten. Wenn die größer als 0 sind mach | ich mir Sorgen. "smartctl -l error /dev/hda" zeigt das interne | Fehler-Log an, sollte auch besser leer sein.
Tja, smartctl muß ich mir erstmal besorgen. Scheint bei der 9.3 nicht dabei zu sein. Danke und Gruß. AT [1] (II) VESA(0): Total Memory: 123 64KB banks (7872kB) (II) VESA(0): Monitor[0]: Using hsync range of 30.00-82.00 kHz (II) VESA(0): Monitor[0]: Using vrefresh range of 58.00-70.00 Hz (--) VESA(0): Virtual size is 1400x1050 (pitch 1400) (**) VESA(0): *Built-in mode "1400x1050" (**) VESA(0): Built-in mode "1280x1024" (**) VESA(0): Built-in mode "1024x768" (**) VESA(0): Built-in mode "800x600" (**) VESA(0): Built-in mode "640x480" (**) VESA(0): Display dimensions: (320, 240) mm (**) VESA(0): DPI set to (111, 111) (II) VESA(0): Attempting to use 60Hz refresh for mode "1400x1050" (15c) (II) VESA(0): Attempting to use 60Hz refresh for mode "1280x1024" (11b) (II) VESA(0): Attempting to use 70Hz refresh for mode "1024x768" (118) (II) VESA(0): Attempting to use 60Hz refresh for mode "800x600" (115) (II) VESA(0): Attempting to use 60Hz refresh for mode "640x480" (112) (**) VESA(0): Using "Shadow Framebuffer" (II) Loading sub module "shadow" (II) LoadModule: "shadow" (II) Loading /usr/X11R6/lib/modules/libshadow.a (II) Module shadow: vendor="X.Org Foundation" compiled for 6.8.2, module version = 1.0.0 ABI class: X.Org ANSI C Emulation, version 0.2 (II) Loading sub module "fb" (II) LoadModule: "fb" (II) Loading /usr/X11R6/lib/modules/libfb.a (II) Skipping "/usr/X11R6/lib/modules/libfb.a:fbmmx.o": object file contains no symbols (II) Module fb: vendor="X.Org Foundation" compiled for 6.8.2, module version = 1.0.0 ABI class: X.Org ANSI C Emulation, version 0.2 (--) Depth 24 pixmap format is 32 bpp (II) do I need RAC? No, I don't. (II) resource ranges after preInit: [0] -1 0 0xffe00000 - 0xffffffff (0x200000) MX[B](B) [1] -1 0 0x00100000 - 0x3fffffff (0x3ff00000) MX[B]E(B) [2] -1 0 0x000f0000 - 0x000fffff (0x10000) MX[B] [3] -1 0 0x000c0000 - 0x000effff (0x30000) MX[B] [4] -1 0 0x00000000 - 0x0009ffff (0xa0000) MX[B] [5] -1 0 0xb8003c00 - 0xb8003cff (0x100) MX[B] [6] -1 0 0xb8003800 - 0xb80038ff (0x100) MX[B] [7] -1 0 0xb8003000 - 0xb80037ff (0x800) MX[B] [8] -1 0 0xb8002000 - 0xb8002fff (0x1000) MX[B] [9] -1 0 0xb8000000 - 0xb8001fff (0x2000) MX[B] [10] -1 0 0xb0040400 - 0xb00404ff (0x100) MX[B] [11] -1 0 0xb0040800 - 0xb00409ff (0x200) MX[B] [12] -1 0 0xb0040000 - 0xb00403ff (0x400) MX[B] [13] -1 0 0xb0000000 - 0xb003ffff (0x40000) MX[B](B) [14] -1 0 0xc0000000 - 0xcfffffff (0x10000000) MX[B](B) [15] -1 0 0xb0080000 - 0xb00fffff (0x80000) MX[B](B) [16] -1 0 0x40000000 - 0x4007ffff (0x80000) MX[B](B) [17] 0 0 0x000a0000 - 0x000affff (0x10000) MS[B] [18] 0 0 0x000b0000 - 0x000b7fff (0x8000) MS[B] [19] 0 0 0x000b8000 - 0x000bffff (0x8000) MS[B] [20] -1 0 0x0000ffff - 0x0000ffff (0x1) IX[B] [21] -1 0 0x00000000 - 0x000000ff (0x100) IX[B] [22] -1 0 0x000018a0 - 0x000018bf (0x20) IX[B] [23] -1 0 0x00001810 - 0x0000181f (0x10) IX[B] [24] -1 0 0x00002000 - 0x0000207f (0x80) IX[B] [25] -1 0 0x00002400 - 0x000024ff (0x100) IX[B] [26] -1 0 0x000018c0 - 0x000018ff (0x40) IX[B] [27] -1 0 0x00001c00 - 0x00001cff (0x100) IX[B] [28] -1 0 0x00001880 - 0x0000189f (0x20) IX[B] [29] -1 0 0x00001860 - 0x0000187f (0x20) IX[B] [30] -1 0 0x00001840 - 0x0000185f (0x20) IX[B] [31] -1 0 0x00001820 - 0x0000183f (0x20) IX[B] [32] -1 0 0x00001800 - 0x00001807 (0x8) IX[B](B) [33] 0 0 0x000003b0 - 0x000003bb (0xc) IS[B] [34] 0 0 0x000003c0 - 0x000003df (0x20) IS[B] (II) Loading sub module "int10" (II) LoadModule: "int10" (II) Reloading /usr/X11R6/lib/modules/linux/libint10.a (II) VESA(0): initializing int10 (WW) VESA(0): Bad V_BIOS checksum (II) VESA(0): Primary V_BIOS segment is: 0xc000 (II) VESA(0): VESA BIOS detected (II) VESA(0): VESA VBE Version 3.0 (II) VESA(0): VESA VBE Total Mem: 7872 kB (II) VESA(0): VESA VBE OEM: Intel(r)915GM/910ML/915MS Graphics Chip Accelerated VGA BIOS (II) VESA(0): VESA VBE OEM Software Rev: 1.0 (II) VESA(0): VESA VBE OEM Vendor: Intel Corporation (II) VESA(0): VESA VBE OEM Product: Intel(r)915GM/910ML/915MS Graphics Controller (II) VESA(0): VESA VBE OEM Product Rev: Hardware Version 0.0 (II) VESA(0): Splitting WC range: base: 0xc0000000, size: 0x7b0000 (II) VESA(0): Splitting WC range: base: 0xc0400000, size: 0x3b0000 (II) VESA(0): Splitting WC range: base: 0xc0600000, size: 0x1b0000 (II) VESA(0): Splitting WC range: base: 0xc0700000, size: 0xb0000 (II) VESA(0): Splitting WC range: base: 0xc0780000, size: 0x30000 (==) VESA(0): Write-combining range (0xc07a0000,0x10000) (==) VESA(0): Write-combining range (0xc0780000,0x30000) (==) VESA(0): Write-combining range (0xc0700000,0xb0000) (==) VESA(0): Write-combining range (0xc0600000,0x1b0000) (WW) VESA(0): Failed to set up write-combining range (0xc0400000,0x3b0000) (==) VESA(0): Write-combining range (0xc0000000,0x7b0000) (II) VESA(0): virtual address = 0xb7502000, physical address = 0xc0000000, size = 8060928 (==) VESA(0): Default visual is TrueColor (==) VESA(0): Backing store disabled (**) Option "dpms" (**) VESA(0): DPMS enabled (WW) VESA(0): Option "NoDDC" is not used (WW) VESA(0): Option "CalcAlgorithm" is not used (==) RandR enabled (II) Setting vga for screen 0. (II) Initializing built-in extension MIT-SHM (II) Initializing built-in extension XInputExtension (II) Initializing built-in extension XTEST (II) Initializing built-in extension XKEYBOARD (II) Initializing built-in extension LBX (II) Initializing built-in extension XC-APPGROUP (II) Initializing built-in extension SECURITY (II) Initializing built-in extension XINERAMA (II) Initializing built-in extension XFIXES (II) Initializing built-in extension XFree86-Bigfont (II) Initializing built-in extension RENDER (II) Initializing built-in extension RANDR (II) Initializing built-in extension COMPOSITE (II) Initializing built-in extension DAMAGE (II) Initializing built-in extension XEVIE (**) Option "CoreKeyboard" (**) Keyboard[0]: Core Keyboard (**) Option "Protocol" "Standard" (**) Keyboard[0]: Protocol: Standard (**) Option "AutoRepeat" "500 30" (**) Option "XkbRules" "xfree86" (**) Keyboard[0]: XkbRules: "xfree86" (**) Option "XkbModel" "pc105" (**) Keyboard[0]: XkbModel: "pc105" (**) Option "XkbLayout" "de" (**) Keyboard[0]: XkbLayout: "de" (**) Option "XkbVariant" "nodeadkeys" (**) Keyboard[0]: XkbVariant: "nodeadkeys" (**) Option "CustomKeycodes" "off" (**) Keyboard[0]: CustomKeycodes disabled (II) Synaptics touchpad driver version 0.14.0 Mouse[1] no synaptics event device found (checked 65 nodes) Mouse[1] The evdev kernel module seems to be missing (**) Option "Device" "/dev/input/mice" (**) Option "SHMConfig" "on" Query no Synaptics: 6003C8 (EE) Mouse[1] no synaptics touchpad detected and no repeater device (EE) Mouse[1] Unable to query/initialize Synaptics hardware. (EE) PreInit failed for input device "Mouse[1]" (II) UnloadModule: "synaptics" (**) Mouse[3]: Device: "/dev/input/mice" (==) Mouse[3]: Protocol: "Auto" (**) Option "SendCoreEvents" (**) Mouse[3]: always reports core events (**) Option "Device" "/dev/input/mice" (==) Mouse[3]: Emulate3Buttons, Emulate3Timeout: 50 (**) Option "ZAxisMapping" "4 5" (**) Mouse[3]: ZAxisMapping: buttons 4 and 5 (**) Mouse[3]: Buttons: 5 (WW) No core pointer registered (II) XINPUT: Adding extended input device "Mouse[3]" (type: MOUSE) (II) XINPUT: Adding extended input device "Keyboard[0]" (type: KEYBOARD) (--) Mouse[3]: PnP-detected protocol: "ExplorerPS/2" (II) Mouse[3]: ps2EnableDataReporting: succeeded No core pointer Fatal server error: failed to initialize core devices Please consult the The X.Org Foundation support at http://wiki.X.Org for help. Please also check the log file at "/var/log/Xorg.0.log" for additional information. -- Andre Tann
Am Mittwoch, 4. Januar 2006 08:25 schrieb Andre Tann:
(...). Tja, smartctl muß ich mir erstmal besorgen. Scheint bei der 9.3 nicht dabei zu sein. (...).
Erstmal nur dazu, weil wenig Zeit: Probier mal pin smartctl auf der Konsole aus: Das Paket heißt smartmontools. HTH Jan -- If you want to get along, go along.
Jan Ritzerfeld, Mittwoch, 4. Januar 2006 13:54:
Erstmal nur dazu, weil wenig Zeit: Probier mal pin smartctl auf der Konsole aus: Das Paket heißt smartmontools.
Hmpf... klar, ist bei SuSE dabei. Also der lange Test läuft gerade, aber bis jetzt ist zumindest das Error-Log leer. [zehn Minuten später] Andere Dinge sind allerdings nicht leer [1]. Ich habe mir jetzt mal ne gesunde Platte angesehen, und eines ist klar: meine Notebookplatte ist sternhagelvoll von Fehlern. Erstaunlich, daß da überhaupt noch was geht. Ich tausche das Ding jetzt aus, und fertig. Danke für die Hilfe. Gruß. AT [1] Hier ein Auszug aus smartctl -a: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 100 100 046 Pre-fail Always - 169631 2 Throughput_Performance 0x0005 100 100 030 Pre-fail Offline - 23789568 3 Spin_Up_Time 0x0003 100 100 025 Pre-fail Always - 1 4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 576 5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 8589934592000 7 Seek_Error_Rate 0x000f 100 100 047 Pre-fail Always - 2344 8 Seek_Time_Performance 0x0005 100 100 019 Pre-fail Offline - 0 9 Power_On_Seconds 0x0032 099 099 000 Old_age Always - 839h+13m+25s 10 Spin_Retry_Count 0x0013 100 100 020 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 551 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 1 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 9714 194 Temperature_Celsius 0x0022 100 095 000 Old_age Always - 51 (Lifetime Min/Max 7/61) 195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 1380 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 285212672 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x000f 100 100 060 Pre-fail Always - 30936 203 Run_Out_Cancel 0x0002 100 100 000 Old_age Always - 3728036135309 SMART Error Log Version: 1 No Errors Logged -- Andre Tann
Andere Dinge sind allerdings nicht leer [1]. Ich habe mir jetzt mal ne gesunde Platte angesehen, und eines ist klar: meine Notebookplatte ist sternhagelvoll von Fehlern. Erstaunlich, daß da überhaupt noch was geht.
Ich tausche das Ding jetzt aus, und fertig.
RTFM, dié Smart-Werte sehen völlig unauffällig aus! Die Platte ist ok.
AT
[1] Hier ein Auszug aus smartctl -a:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 100 100 046 Pre-fail Always - 169631 2 Throughput_Performance 0x0005 100 100 030 Pre-fail Offline - 23789568 3 Spin_Up_Time 0x0003 100 100 025 Pre-fail Always - 1 4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 576 5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 8589934592000 7 Seek_Error_Rate 0x000f 100 100 047 Pre-fail Always - 2344 8 Seek_Time_Performance 0x0005 100 100 019 Pre-fail Offline - 0 9 Power_On_Seconds 0x0032 099 099 000 Old_age Always - 839h+13m+25s 10 Spin_Retry_Count 0x0013 100 100 020 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 551 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 1 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 9714 194 Temperature_Celsius 0x0022 100 095 000 Old_age Always - 51 (Lifetime Min/Max 7/61) 195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 1380 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 285212672 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x000f 100 100 060 Pre-fail Always - 30936 203 Run_Out_Cancel 0x0002 100 100 000 Old_age Always - 3728036135309
SMART Error Log Version: 1 No Errors Logged
-- Andre Tann
-- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
mit freundlichen Grüßen Bernd Melchers --
Hallo, Am Wed, 04 Jan 2006, Bernd Melchers schrieb:
Andere Dinge sind allerdings nicht leer [1]. Ich habe mir jetzt mal ne gesunde Platte angesehen, und eines ist klar: meine Notebookplatte ist sternhagelvoll von Fehlern. Erstaunlich, daß da überhaupt noch was geht.
Ich tausche das Ding jetzt aus, und fertig.
RTFM, dié Smart-Werte sehen völlig unauffällig aus! Die Platte ist ok.
Nein. Nuhr: "Wenn man keine Ahnung hat...". RTFM yourself. Und damit meine ich nicht nur 'man smartctl' oder sonstige Doku der smartmontools. Sondern z.B. auch die ATA-Standards.
[1] Hier ein Auszug aus smartctl -a:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 8589934592000 ^^^^^^^^^^^^^ Der Wert ist bei gesunden Platten '0'. Die Zahl kann offensichtlich aber nicht stimmen, soviel Sektoren hat die Platte nicht..
7 Seek_Error_Rate 0x000f 100 100 047 Pre-fail Always - 2344
Sollte auch '0' sein, diesmal ist's aber ein realistischer Wert.
194 Temperature_Celsius 0x0022 100 095 000 Old_age Always - 51 (Lifetime Min/Max 7/61)
Das ist ein bisserl warm, kann aber sein, dass Notebook-Platten das noch abkoennen, gesund fuer ist's aber garantiert nicht.
195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 1380
Das ist ok (eine meiner Platten hat da 109346824, die neuere liegt bei 31888). Keine Probleme.
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 285212672
Das sollte hier auch '0' sein.
200 Multi_Zone_Error_Rate 0x000f 100 100 060 Pre-fail Always - 30936
Dito. Ergo: die Platte hat einen Knacks. Das wuerde dann naemlich auch die ==== <4>hda: task_no_data_intr: status=0x51 { DriveReady SeekComplete Error } <4>hda: task_no_data_intr: error=0x04 { DriveStatusError } <4>ide: failed opcode was: 0xf9 ==== aus der boot.msg erklaeren. -dnh -- xslt, was? Wir kombinieren das Paradigma von awk mit der sprachlichen Eleganz von Cobol und den programmiertechnischen Verrenkungen von funktionalen Sprachen unter sorgfältiger Umgehung aller möglichen Vorteile. -- K. Köhntopp
Am Mittwoch, 4. Januar 2006 14:50 schrieb Andre Tann:
Jan Ritzerfeld, Mittwoch, 4. Januar 2006 13:54:
Erstmal nur dazu, weil wenig Zeit: Probier mal pin smartctl auf der Konsole aus: Das Paket heißt smartmontools.
Hmpf... klar, ist bei SuSE dabei. Also der lange Test läuft gerade, aber bis jetzt ist zumindest das Error-Log leer.
Okay, damit erübrigt sich die Frage in meiner anderen Mail. X-) Aber steht was in "smartctl -l selftest /dev/hda"? Bzw. irgendwas interessantes ganz am Ende von "smartctl -l selftest /dev/hda" (da werden alle Logs ausgegeben).
[zehn Minuten später]
Andere Dinge sind allerdings nicht leer [1]. Ich habe mir jetzt mal ne gesunde Platte angesehen, und eines ist klar: meine Notebookplatte ist sternhagelvoll von Fehlern.
Die Ehrlichkeit der verschiedenen SMART-Implementierungen schwankt nicht unerheblich. Als Vergleich nimmt man am besten immer die Werte von einem gleichen Modell oder noch besser von der selben Platte, aber halt als sie noch neu bzw. nicht defekt war.
Erstaunlich, daß da überhaupt noch was geht.
Spannend sehen die Werte auf jeden Fall aus!
Ich tausche das Ding jetzt aus, und fertig.
Ja, wie gesagt, das Risiko und der Ärger ist letztlich teurer als eine neue Platte.
Danke für die Hilfe.
Hoffen wir mal, daß es hilft!
(...). SMART Error Log Version: 1 No Errors Logged
Sowas wie "SMART Self-test log structure revision number 1" steht da nicht noch irgendwo? Gruß Jan -- Never forget what a man says to you when he's angry.
Am Mittwoch, 4. Januar 2006 08:25 schrieb Andre Tann:
Jan Ritzerfeld, Dienstag, 3. Januar 2006 22:21:
Hmm, wenn das auch Windows betrifft, dann nützt wohl auch eine Dateisystemprüfung auf Linuxebene nix. Aber wenn tatsächlich die Platte an sich für die Fehler verantwortlich sein sollte, dann müßten deine Linuxdateisysteme ja auch Fehler haben!
Das haben sie ja eben vielleicht auch. Denn daß mein Netzwerk und mein X plötzlich zu spinnen anfangen könnte doch auf defekte Konfigurationsdateien o.ä. zurückzuführen sein.
Ich habe unten mal die tatsächlichen Fehlermeldungen ausgeschnitten.
Dann hat plötzlich die Netzwerkkonfiguration nicht mehr gestimmt.
Was heißt "nicht mehr gestimmt" genau?
Das heißt, daß ich via Ethernet keine Netzwerkverbindung mehr gekriegt habe, obwohl das vorher monatelang funktioniert hat. Mußte dann mit Hilfe von Yast die Netzwerkkarten (=Ethernet und WLAN) neu einrichten. Und ich muß es bei jedem Start erneut tun, weil die Einstellungen irgendwie nicht von Dauer sind.
Das paßt aber vielleicht zu dem Fehler vom X-Server. Der findet nämlich dein Touchpad nicht mehr. Und vielleicht geht das Netzwerk nicht, weil der Kernel die Netzwerkkarte nicht mehr findet, hast du dazu Fehlermeldungen in /var/log/messages? In beiden Fällen scheint es so, als könnten die benötigten Module nicht geladen werden. Das kann durch einen Festplattenfehler verursachte werden, muß aber nicht. :-/
(...). (II) Synaptics touchpad driver version 0.14.0 Mouse[1] no synaptics event device found (checked 65 nodes) Mouse[1] The evdev kernel module seems to be missing (**) Option "Device" "/dev/input/mice" (**) Option "SHMConfig" "on" Query no Synaptics: 6003C8 (EE) Mouse[1] no synaptics touchpad detected and no repeater device (EE) Mouse[1] Unable to query/initialize Synaptics hardware. (EE) PreInit failed for input device "Mouse[1]" (II) UnloadModule: "synaptics" (...).
Gruß Jan -- When Marriage is Outlawed, Only Outlaws will have Inlaws.
Jan Ritzerfeld, Dienstag, 3. Januar 2006 22:21:
| Man sollte auf die Werte "Reallocated_Sector_Ct" und | "UDMA_CRC_Error_Count" achten. Wenn die größer als 0 sind mach | ich mir Sorgen.
Also jetzt habe ich ja smartctl installiert, und kann reingucken. Bei Reallocated_Sector_Ct steht in der Spalte RAW_Value folgende Zahl: 8589934592000. Äh... ist das größer als 0? Muß ich mir Sorgen machen? Oder bin ich in der falschen Spalte? UDMA_CRC_Error_Count steht auf 0 in Spalte Raw_Value.
| "smartctl -l error /dev/hda" zeigt das interne | Fehler-Log an, sollte auch besser leer sein.
Ist leer. -- Andre Tann
Am Mittwoch, 4. Januar 2006 14:24 schrieb Andre Tann:
Jan Ritzerfeld, Dienstag, 3. Januar 2006 22:21:
| Man sollte auf die Werte "Reallocated_Sector_Ct" und | "UDMA_CRC_Error_Count" achten. Wenn die größer als 0 sind mach | ich mir Sorgen.
Also jetzt habe ich ja smartctl installiert, und kann reingucken. Bei Reallocated_Sector_Ct steht in der Spalte RAW_Value folgende Zahl: 8589934592000. Äh... ist das größer als 0? Muß ich mir Sorgen machen? Oder bin ich in der falschen Spalte?
Siehe Antwort von David. Der Wert ist zwar unrealistisch (vieeeel zu hoch), aber offensichtlich größer als 0. Es könnte natürlich sein, daß der Wert einfach Blödsinn ist, aber Festplatten kosten nicht so viel, als daß ich das riskieren würde.
UDMA_CRC_Error_Count steht auf 0 in Spalte Raw_Value.
Sprich, die Verkabelung ist wohl in Ordnung.
| "smartctl -l error /dev/hda" zeigt das interne | Fehler-Log an, sollte auch besser leer sein.
Ist leer.
Hast du mal den Selbstest drüber laufen lassen? "smartctl -t long /dev/hda". Und dann nach einiger Zeit (siehe "smartctl -c /dev/hda") "smartctl -l selftest /dev/hda"? Gruß Jan -- Defeat never comes to any man until he admits it.
Hi Andre, ich kann mich vage an einen c't-Artikel erinnern, der beschrieb, wie man mit entsprechenden Tools bestimmte Daten aus der Platte auslesen kann, die hardwareseitig vom Hersteller eingebaut sind. Unter anderen sollen dort wohl auch Counter dabei sein, die auf die Lebensdauer schließen lassen (z.b. Schreib- und Lesecounter oder sowas). Er muss wohl irgendwann in 2005 oder 2004 erschienen sein. Vielleicht fällt jemand anderem ja mehr dazu ein oder du findest was im c't Archiv. Gruß Marco
Ha! Jetzt weiß ichs wieder. Es handelte sich um einen Diagnosestandard mit dem Namen SMART. Der c't Artikel "Clever vorsorgen, Festplattendiagnose mit SMART" Ausgabe 23/04 liefert nähere Details. Tools dazu findest Du unter dem entsprechenden Softlink des Artikels: http://www.heise.de/ct/04/23/links/236.shtml Google liefert sicher auch einige Informationen dazu. Ich hoffe das hilft dir weiter. Gruß Marco Am Mittwoch, 4. Januar 2006 08:46 schrieb Marco Sorich:
Hi Andre,
ich kann mich vage an einen c't-Artikel erinnern, der beschrieb, wie man mit entsprechenden Tools bestimmte Daten aus der Platte auslesen kann, die hardwareseitig vom Hersteller eingebaut sind. Unter anderen sollen dort wohl auch Counter dabei sein, die auf die Lebensdauer schließen lassen (z.b. Schreib- und Lesecounter oder sowas). Er muss wohl irgendwann in 2005 oder 2004 erschienen sein. Vielleicht fällt jemand anderem ja mehr dazu ein oder du findest was im c't Archiv.
Gruß Marco
Marco Sorich, Mittwoch, 4. Januar 2006 13:24:
Ha! Jetzt weiß ichs wieder. Es handelte sich um einen Diagnosestandard mit dem Namen SMART. Der c't Artikel "Clever vorsorgen, Festplattendiagnose mit SMART" Ausgabe 23/04 liefert nähere Details. Tools dazu findest Du unter dem entsprechenden Softlink des Artikels: http://www.heise.de/ct/04/23/links/236.shtml
Das Hitachi-Tool hatte ich zwar schon probiert, aber die anderen Tools kannte ich noch nicht. Danke für den Link! -- Andre Tann
Hallo zwar keine Antwort zur eigentlichen Frage, aber etwas nettes, was ich mal bei meiner recherche gefunden habe. Es geht dabei darum, welche geräusche eine sterbende Festplatte macht: http://www.datenretter.de/audio.htm Bis denn ROland -- http://www.superheld.com http://www.kleine-familie.de http://www.myfirstlinux.de
participants (6)
-
Andre Tann
-
Bernd Melchers
-
David Haller
-
Jan Ritzerfeld
-
Marco Sorich
-
Roland Kalb