Re: Festplatte defekt oder nur das Filesystem

19 Dec 2005


      Am Samstag, 17. Dezember 2005 23:29 schrieb Steffen Dettmer:
...
* Jan Ritzerfeld wrote on Sat, Dec 17, 2005 at 18:12 +0100:
(...).
...
SMART besteht ja nicht nur aus dem Monitoring. Meine IBM-Platten
erfreuen sich laut SMART und Drive-Fitness-Test auch noch bester
Gesundheit, falls das BIOS sie mal findet!
Na ja, oder die ATA Kontroller (in den Platten) nicht "starten", weil
sie ein Problem haben - was u.U. sporadisch ist. Sieht so aus, als ob
die Platte "öfter mal nicht da ist", aber eigentlich ist sie einfach
kaputt. Sollte ja mit SMART eigentlich nicht (mehr) passieren, aber da
Windows nicht drauf angewiesen ist, würde ich nicht unbedingt mit einer
guten (sondern mit einer billigen) SMART-Implementierung rechnen.
Wenn es nur das wäre, der Drive-Fitness-Test scheint keinen Deut besser zu 
sein, bzw. sich auf die SMART-Implementierung der Platten zu verlassen. So 
ein Tool kann man sich unter dann auch gleich sparen, da hat man ja 
smartmontools. Interessant ist höchstens noch dftview, damit kann man die 
Logs, welcher der DFT auf eine eingelegte Floppy schreibt aufschlüssen.
...
...
Man sollte auf die Werte "Reallocated_Sector_Ct" und
"UDMA_CRC_Error_Count" achten. Wenn die größer als 0 sind mach ich mir
Sorgen. "smartctl -l error /dev/hda" zeigt das interne Fehler-Log an,
sollte auch besser leer sein.
Bei der einen "langsam und gleichmässig sterbenden" Platte, die ich
damals hatte (ne IBM irgendwas, aber das hat nix zu sagen; vielleicht
ist IBM schlecht, andere aber nicht unbedingt besser!), war nix mit
Smart-Problemen... Hatte ich damals auch von anderen gehört, dass das
wohl alles mögliche aber nicht zuverlässig ist...
Es gilt schon prinzipiell nur diese Richtung:
SMART sagt kaputt -> die Platte ist wohl kaputt
Eine Anekdote aus den letzten Wochen: Lernpartner hat seinen PC umgebaut und 
eine Platte im Wechselramen mit einem 40-poligen IDE-Kabel angeschlossen. 
Naja, im Log fanden sich dann natürlich die typischen 
Platte-liegt-im-Sterben-DMA-Fehlermeldungen. Fehlerlog der Platte sah das 
ähnlich, aber "UDMA_CRC_Error_Count" war recht hoch, 
"Reallocated_Sector_Ct" aber 0. Also mal "smartctl -t long ..." drauf 
losgelassen. Da man gerade schonmal dabei war auch die anderen Platten mit 
smartmontools betrachtet. Huch, hda hatte vor einigen Monaten(sic!) auch 
DMA-Fehler! Also auch mal "smartctl -t long /dev/hda" laufen lassen. Und 
bei dieser Seagate-Platte war der Test ehrlich, unter Angabe des LBA fand 
man einen Fehler im Selbsttest-Log, "Reallocated_Sector_Ct" stand auf 2.
Sprich, SMART ist genauso nützlich wie jeder andere Test auch. Wenn der Test 
erfolgreich ist (d. h. es wurde ein Fehler gefunden), dann weiß man, daß 
das Testobjekt fehlerhaft ist, ansonsten ist man aber keinen Deut schlauer 
als vorher.
...
(...).
Seit einem dieser Abstürze hat die eine Platte Fehlereinträge, in der
Form von:
...
Timestamp is seconds since the previous disk power-on.
Note: timestamp "wraps" after 2^32 msec = 49.710 days.
Error 6 occurred at disk power-on lifetime: 513 hours
When the command that caused the error occurred, the device was active
or idle.
After command completion occurred, registers were:
ER:04 SC:01 SN:00 CL:4f CH:c2 D/H:f0 ST:51
Sequence of commands leading to the command that caused the error were:
DCR   FR   SC   SN   CL   CH   D/H   CR   Timestamp
 00   d0   01   00   4f   c2    f0   b0     71.813
 00   02   00   00   00   00    f0   ef     25.500
 00   00   10   00   00   00    f0   c6     25.500
 00   00   00   00   00   00    f0   f8     25.500
 00   00   3f   00   00   00    b0   10     25.500
muss zugeben, dass mir das überhaupt nichts sagt :-)
Hmm. Bei der Augabe von meinem smartctl ist da noch eine Spalte 
"Command/Feature_Name". Ich hab einen Log-Eintrag von meinem Versuch den 
Write-Cache auszuschalten:
Error 1 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or 
idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 01 00 00 a0  Error: ABRT

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b1 c0 00 01 00 00 a0 00      00:00:06.063  DEVICE CONFIGURATION RESTORE
  ef 03 0c 01 00 00 a0 00      00:00:06.063  SET FEATURES [Set transfer 
mode]
  ec 00 03 01 00 00 a0 00      00:00:06.063  IDENTIFY DEVICE
  91 00 3f 01 00 00 af 00      00:00:06.063  INITIALIZE DEVICE PARAMETERS 
[OBS-6]
  10 00 00 01 00 00 a0 00      00:00:06.063  RECALIBRATE [OBS-4]
...
(...).
...
"smartctl -l selftest /dev/hda" zeigt dann das Log der Selbsttests an
Hast Du da mehr als einen Eintrag?
Ja, pro Selbsttest einen. Bei meiner kaputten IBM also 6 Stück oder so. 
Natürlich alle ohne Fehler. X-)

Gruß
 Jan
-- 
If it weren't for the last minute, nothing would get done.