* Jan Ritzerfeld wrote on Sat, Dec 17, 2005 at 18:12 +0100:
Am Samstag, 17. Dezember 2005 03:16 schrieb Steffen Dettmer:
(...). S.M.A.R.T sollte laut Marketing helfen, aber meine letzte Platte ist mit SMART OK gestorben (nach einer zwei Wöchigen Agonie)... (...).
SMART besteht ja nicht nur aus dem Monitoring. Meine IBM-Platten erfreuen sich laut SMART und Drive-Fitness-Test auch noch bester Gesundheit, falls das BIOS sie mal findet!
Na ja, oder die ATA Kontroller (in den Platten) nicht "starten", weil sie ein Problem haben - was u.U. sporadisch ist. Sieht so aus, als ob die Platte "öfter mal nicht da ist", aber eigentlich ist sie einfach kaputt. Sollte ja mit SMART eigentlich nicht (mehr) passieren, aber da Windows nicht drauf angewiesen ist, würde ich nicht unbedingt mit einer guten (sondern mit einer billigen) SMART-Implementierung rechnen.
Man sollte auf die Werte "Reallocated_Sector_Ct" und "UDMA_CRC_Error_Count" achten. Wenn die größer als 0 sind mach ich mir Sorgen. "smartctl -l error /dev/hda" zeigt das interne Fehler-Log an, sollte auch besser leer sein.
Bei der einen "langsam und gleichmässig sterbenden" Platte, die ich damals hatte (ne IBM irgendwas, aber das hat nix zu sagen; vielleicht ist IBM schlecht, andere aber nicht unbedingt besser!), war nix mit Smart-Problemen... Hatte ich damals auch von anderen gehört, dass das wohl alles mögliche aber nicht zuverlässig ist...
Und man kann Platten recht einfach und effektiv mit "smartctl -t long /dev/hda" testen (das dauert auch tatsächlich lange, siehe "smartctl -c /dev/hda").
/Falls/ man denn zufällig eine Platte hat, die das richtig macht. Probleme reichen von "geht sofort nicht mehr" über "hängt hin und wieder" bis zu "knallt irgendwann spontan weg", weiss nicht, woran das nu wieder liegt, vielleicht, wenn gerade der zu testende Sektor gelesen wird, durch drei teilbar ist und der letzte Sektor gerade war oder was weiss ich. Ich persönlich halte von SMART also nicht sooo viel, kann aber natürlich Zufall sein. Ganz früher hatte ich es mal probiert (SuSE aktivierte SMART nicht automatisch, "wegen vieler Probleme" oder so), ging gar nicht. Später hab ich mit neuerer Hardware nochmal gespielt und zwar auf meinem Privat-Server mit verschiedenen Platten - und verschiedene Resultate bekommen (inkl. solchen, die ein Reboot erforderten, weil es "hing"). Dabei hab ich rumgespielt, um zu gucken, "obs wirklich geht". DMA an, aus, lesen hier, schreiben da, hdparm -t/-T zwischendurch, selftest, ... alles, was mir so einfiel. Seit einem dieser Abstürze hat die eine Platte Fehlereinträge, in der Form von:
Timestamp is seconds since the previous disk power-on. Note: timestamp "wraps" after 2^32 msec = 49.710 days.
Error 6 occurred at disk power-on lifetime: 513 hours When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER:04 SC:01 SN:00 CL:4f CH:c2 D/H:f0 ST:51 Sequence of commands leading to the command that caused the error were: DCR FR SC SN CL CH D/H CR Timestamp 00 d0 01 00 4f c2 f0 b0 71.813 00 02 00 00 00 00 f0 ef 25.500 00 00 10 00 00 00 f0 c6 25.500 00 00 00 00 00 00 f0 f8 25.500 00 00 3f 00 00 00 b0 10 25.500
muss zugeben, dass mir das überhaupt nichts sagt :-) Jetzt läuft ein smartd aber (mit /dev/hd[ab] -a -m <addr>) stabil (soweit man das bei einem gelangweilten Server, der eh fast monatlich gebootet wird, sagen kann). Schlimmstenfalls kommt halt wieder keine Warnung, denke ich... :)
"smartctl -l selftest /dev/hda" zeigt dann das Log der Selbsttests an
Hast Du da mehr als einen Eintrag? oki, Steffen -- Dieses Schreiben wurde maschinell erstellt, es trägt daher weder Unterschrift noch Siegel.