Re: Festplatte defekt oder nur das Filesystem

17 Dec 2005

      * Jan Ritzerfeld wrote on Sat, Dec 17, 2005 at 18:12 +0100:
...
Am Samstag, 17. Dezember 2005 03:16 schrieb Steffen Dettmer:
...
(...).
S.M.A.R.T sollte laut Marketing helfen, aber meine letzte Platte ist mit
SMART OK gestorben (nach einer zwei Wöchigen Agonie)...
(...).
SMART besteht ja nicht nur aus dem Monitoring. Meine IBM-Platten
erfreuen sich laut SMART und Drive-Fitness-Test auch noch bester
Gesundheit, falls das BIOS sie mal findet!
Na ja, oder die ATA Kontroller (in den Platten) nicht "starten", weil
sie ein Problem haben - was u.U. sporadisch ist. Sieht so aus, als ob
die Platte "öfter mal nicht da ist", aber eigentlich ist sie einfach
kaputt. Sollte ja mit SMART eigentlich nicht (mehr) passieren, aber da
Windows nicht drauf angewiesen ist, würde ich nicht unbedingt mit einer
guten (sondern mit einer billigen) SMART-Implementierung rechnen.
...
Man sollte auf die Werte "Reallocated_Sector_Ct" und
"UDMA_CRC_Error_Count" achten. Wenn die größer als 0 sind mach ich mir 
Sorgen. "smartctl -l error /dev/hda" zeigt das interne Fehler-Log an, 
sollte auch besser leer sein.
Bei der einen "langsam und gleichmässig sterbenden" Platte, die ich
damals hatte (ne IBM irgendwas, aber das hat nix zu sagen; vielleicht
ist IBM schlecht, andere aber nicht unbedingt besser!), war nix mit
Smart-Problemen... Hatte ich damals auch von anderen gehört, dass das
wohl alles mögliche aber nicht zuverlässig ist...
...
Und man kann Platten recht einfach und effektiv mit "smartctl -t 
long /dev/hda" testen (das dauert auch tatsächlich lange, siehe "smartctl 
-c /dev/hda").
/Falls/ man denn zufällig eine Platte hat, die das richtig macht.
Probleme reichen von "geht sofort nicht mehr" über "hängt hin und wieder"
bis zu "knallt irgendwann spontan weg", weiss nicht, woran das nu wieder
liegt, vielleicht, wenn gerade der zu testende Sektor gelesen wird,
durch drei teilbar ist und der letzte Sektor gerade war oder was weiss
ich.

Ich persönlich halte von SMART also nicht sooo viel, kann aber natürlich
Zufall sein. Ganz früher hatte ich es mal probiert (SuSE aktivierte
SMART nicht automatisch, "wegen vieler Probleme" oder so), ging gar
nicht. Später hab ich mit neuerer Hardware nochmal gespielt und zwar auf
meinem Privat-Server mit verschiedenen Platten - und verschiedene
Resultate bekommen (inkl. solchen, die ein Reboot erforderten, weil es
"hing"). Dabei hab ich rumgespielt, um zu gucken, "obs wirklich geht".
DMA an, aus, lesen hier, schreiben da, hdparm -t/-T zwischendurch,
selftest, ... alles, was mir so einfiel.

Seit einem dieser Abstürze hat die eine Platte Fehlereinträge, in der
Form von:
...
Timestamp is seconds since the previous disk power-on.
Note: timestamp "wraps" after 2^32 msec = 49.710 days.
Error 6 occurred at disk power-on lifetime: 513 hours
When the command that caused the error occurred, the device was active
or idle.
After command completion occurred, registers were:
ER:04 SC:01 SN:00 CL:4f CH:c2 D/H:f0 ST:51
Sequence of commands leading to the command that caused the error were:
DCR   FR   SC   SN   CL   CH   D/H   CR   Timestamp
 00   d0   01   00   4f   c2    f0   b0     71.813
 00   02   00   00   00   00    f0   ef     25.500
 00   00   10   00   00   00    f0   c6     25.500
 00   00   00   00   00   00    f0   f8     25.500
 00   00   3f   00   00   00    b0   10     25.500
muss zugeben, dass mir das überhaupt nichts sagt :-)

Jetzt läuft ein smartd aber (mit /dev/hd[ab] -a -m <addr>)
stabil (soweit man das bei einem gelangweilten Server, der eh fast
monatlich gebootet wird, sagen kann).

Schlimmstenfalls kommt halt wieder keine Warnung, denke ich... :)
...
"smartctl -l selftest /dev/hda" zeigt dann das Log der Selbsttests an
Hast Du da mehr als einen Eintrag?

oki,

Steffen

-- 
Dieses Schreiben wurde maschinell erstellt,
es trägt daher weder Unterschrift noch Siegel.