Re: HDD Problem

3 Jun 2007


      Hallo,

On 6/3/2007 7:19 PM, Manfred Keller wrote:
...
Am Samstag, 2. Juni 2007 23:42 schrieb Arno Lehmann:
Hallo Arno,
[...] etwas gekürzt
Erstmal zum Netzwerk Problem. Das hat sich erledigt. Ich bin einfach 
hingegangen und habe mein System mit Hilfe der Installations-DVD in
den Originalzustand gebracht. Und danach wurde die Netzwerkkarte wieder
korrerkt erkannt.
Das spricht für meine Vermutung das irgendwelche Dateien, z.B. 
netzwerkbezogene Module, fehlten. Das kann nach einem unsauberen 
Ausschalten passieren (sollte es aber eigentlich nicht), oder eben 
bedingt durch eine kaputtgehende Platte.
Benutzerfehler wie 'rm /lib/modules/whatever' mal aussen vor gelassen :-)
...
...
...
...
Könnte sein dass deine Platte den Geist aufgibt. Du solltest mal prüfen
ob z.B. die nötigen Module für die Netzwerkkarte oder den IP-Stack noch
existieren. Falls nicht, mit smartctl die Platte sich testen lassen.
Hmm. Da hab ich komischerweise auch schon daran gedacht. Der Befehl
smartctl -A /dev/hda bringt als Auffälligkeit eine
"Offline_Uncorrectable" Meldung.
Das klingt nicht besonders gut.
...
Das habe ich auch schon in der /var/log/messages gesehen. Da steht:
smartd[3097]: Device: /dev/hda, 1 Offline uncorrectable sectors. Da aber
beim smartctl alles auf englisch ist, habe ich im Windows das
Testprogramm "HD-TUNE" gestartet und einen Oberfächentest durchgeführt.
Aber der hat keinen Fehler gefunden.
HD-TUNE kenne ich nicht.
Nun zum Festplatten Problem:
HD-TUNE liest auch Smart Daten aus und bietet einen ausführlichen
Oberflächentest an.
...
Ich würde als erstes mit 'smartctl -t long /dev/hda' anfangen. Das
Ergebnis bzw. den Fortschritt findest du mit 'smartctl -a /dev/hda'.
Den Test habe ich laufen lassen. Den Output poste ich am Schluß.
Event. kannst du mir sagen, ob da gravierende Fehler aufgetreten sind.
Sieht soweit ganz gut aus. Die berichteten Fehler sehen nicht aus als 
wenn sie kritisch wären.
...
...
Dann, wenn keine Fehler auftauchen, mit badblocks prüfen. Vorher *auf
jeden Fall* die manual-Seite dazu lesen und verstehen. Vor allem mit
'-f' und '-w' vorsichtig sein... Ich würde in deinem Fall wohl
'badblocks -svn -p 1 /dev/hda' über Nacht laufen lassen. Vorher ein
aktuelles Backup erstellen und die smartctl-Ausgabe ausdrucken. Nachher
schauen ob smartctl neue Probleme meldet. Ausserndem im System-Log nach
Plattenproblemen Ausschau halten.
Wenn dabei wieder keine Fehler auftauchen das eigentliche Problem lösen,
warum das Netzwerk nicht geht :-)
Das ist ja nun gelöst.
...
...
Wenn bei eiem dieser Tests neue Probleme auftauchen -> Platte tauschen,
Backup zurückspielen. Oder, falls kein Backup da ist, neu installieren.
...
Ich hab mir grad nochmal die /var/log/messages aufgemacht und noch 2
andere Einträge zum SMART gefunden:
smart[3352]:Device: /dev/hda, SMART Usage Attribute: 194:
Temperature_Celsius changed from 181 to 163
smart[3352]:Device: /dev/hdb, SMART Usage Attribute: 194:
Temperature_Celsius changed from 199 to 202
Das dürften die 'Values' sein, die sind nur in Verbindung mit den
dazugehörigen Thresholds aussagekräftig. Der Raw-Wert gibt die
tatsächliche Temperatur an.
...
Dazu passt vielleicht noch folgende Auffälligkeit: Beide Platten haben
einen sitzen genau hinter dem Lüfter, der Luft ins Gehäuse bläst und jede
Platte hat nochmal einen eigenen Plattenkühler. Trotzdem haben sie laut
SMART immer völlig unterschiedliche Betriebsthemperaturen. Die hda hat
27°C und die hdb 14°C. Und das bei 20°C Raumthemperatur.
Sieht nicht so aus als wären die Werte realistisch. Was sind das für
Platten?
Das sind 2 identische Samsung Platten, die am IDE-Bus hängen mit je 160 GB Kapazität.
Die hda ist etwas älter, als die hdb, aber nicht älter als 3 Jahre. Die Eckdaten
findest du auch unten im Fehlerbericht.
Du kennst bestimmt das Tool hddtemp von Packman. Das liefert mir für hda
27°C und für hdb 14°C. Die CPU Temperatur wird von KSensors mit 27°C angezeigt.
Der bestätigt auch die Temperaturen für die Platten. Zur Info, die
Raumtemperatur beträgt knapp 21°C. Ich habe das Gehäuse momentan offen,
das heißt, die rechte Seitenwand fehlt komplett. Also erhöhte Temperaturen
dürften es eigentlich nicht geben.
Richtig, aber auch keine niedrigeren Temperaturen. Deshalb würde ich die 
ermittelten Temperaturen nicht mehr glauben.
...
...
(Alle Platten die ich mit smartctl überwache liefern für die Temperatur
plausible Werte.)
...
Event. hilft dir das auch weiter???
Könnte sein dass die Platten zu warm werden. Aber schau' dazu mal
nachValue und Threshold zusamen. Threshold ist die Grenze ab der der
Plattenhersteller der Ansicht ist, es sei zu warm. Allerdings gilt auch
bei Festplatten die Regel dass, je höher die Temperatur, umso kürzer die
Lebensdauer wird. Also solle man im Normalfall auf Temperaturen im
Bereich der Raumtemperatur aus sein.
Gruß Manfred
Jetzt noch die Ausgabe von smartctl -t long /dev/hda:
Gut, gehen wir das mal durch...
...
smartctl -a /dev/hda
smartctl version 5.37 [i686-suse-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model:     SAMSUNG SP1604N
Serial Number:    S013J20X133087
Firmware Version: TM100-24
User Capacity:    160,041,885,696 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  ATA/ATAPI-7 T13 1532D revision 0
Local Time is:    Sun Jun  3 10:18:44 2007 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status:  (0x05) Offline data collection activity
                                        was aborted by an interrupting command from host.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 241) Self-test routine in progress...
                                        10% of test remaining.
Der aktuelle Test ist noch nicht durch.
...
Total time to complete Offline
data collection:                 (5760) seconds.
Offline data collection
capabilities:                    (0x1b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        No General Purpose Logging support.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  96) minutes.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
Grundsätzlich: Wenn der Value unter Thresh sinkt ist das ein Problem. 
Worst ist der jemals schlechteste ermittelte Wert. Und er Raw value ist 
die Angabe die Menschen interpretieren können :-)
...
1 Raw_Read_Error_Rate     0x000b   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   061   051   000    Pre-fail  Always       -       6528
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       2121
  5 Reallocated_Sector_Ct   0x0033   253   253   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0024   091   089   000    Old_age   Offline      -       9190
  9 Power_On_Half_Minutes   0x0032   099   099   000    Old_age   Always       -       7549h+52m
 10 Spin_Retry_Count        0x0013   253   253   049    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1178
194 Temperature_Celsius     0x0022   184   091   000    Old_age   Always       -       18
Tatsächlich 18... hmm, könnte sein dass die Firmware der Platte den Wert 
irgenwie skaliert, wobei smartctl normalerweise richtig liegt wenn es 
behauptet die Eigenheiten zu kennen: Device is:        In smartctl 
database [for details use: -P show]
...
195 Hardware_ECC_Recovered  0x000a   100   100   000    Old_age   Always       -       83133461
196 Reallocated_Event_Count 0x0012   100   100   000    Old_age   Always       -       1
Einmal eine Realloziertung, aber der Zähler weiter oben sagt 0. Wundert 
mich, aber ich habe nicht in der Spezifikation für SMART nachgelesen.
...
197 Current_Pending_Sector  0x0033   253   253   010    Pre-fail  Always       -       0
198 Offline_Uncorrectable   0x0031   100   100   010    Pre-fail  Offline      -       1
Ein nichtkorrigierbarer Fehler. Könnte erklären warum es einen 
Reallozierungsvorgang gab aber nichts realloziert wurde.
...
199 UDMA_CRC_Error_Count    0x000b   100   100   051    Pre-fail  Always       -       0
200 Multi_Zone_Error_Rate   0x000b   100   100   051    Pre-fail  Always       -       0
201 Soft_Read_Error_Rate    0x000b   100   100   051    Pre-fail  Always       -       0
Diese drei sehen gut aus, und die sind wichtig.
...
SMART Error Log Version: 1
ATA Error Count: 183 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 183 occurred at disk power-on lifetime: 1034 hours (43 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 fe eb ab b5 e0  Error: ABRT
Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 05 fe eb ab b5 e0 00      00:01:28.938  SET FEATURES [Enable APM]
Also Probleme APM zu aktibieren. Kann ich nicht viel zu sagen, aber hast 
du schon mal bemerkt ob die Platte bei Inaktivität steht, oder ist das 
nicht aktiviert? (HDD spindown oder so heisst das im BIOS-Setup 
meistens, oder probier's mit 'hdparm -y /dev/hda' aus. Wenn das nicht 
funktioniert und ein enstprechender neuer Eintrag im Fehler-Log der 
Platte auftaucht ist das erklärt und wohl nicht tragisch.
...
ec 00 00 00 00 00 e0 00      00:01:09.188  IDENTIFY DEVICE
  ec 00 00 82 0a 81 e0 00      00:01:06.938  IDENTIFY DEVICE
  ef 03 46 78 07 81 e0 00      00:01:06.813  SET FEATURES [Set transfer mode]
  ef 02 00 00 00 00 e0 00      00:00:33.188  SET FEATURES [Enable write cache]
Error 182 occurred at disk power-on lifetime: 1028 hours (42 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 fe eb ab b5 e0  Error: ABRT
Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 05 fe eb ab b5 e0 00      09:28:52.313  SET FEATURES [Enable APM]
...etc.
Sieht also so aus als wäre die Platte in Ordnung.

Arno

-- 
IT-Service Lehmann                    al@its-lehmann.de
Arno Lehmann                  http://www.its-lehmann.de

-- 
Um die Liste abzubestellen, schicken Sie eine Mail an:
    opensuse-de+unsubscribe@opensuse.org
Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken
Sie eine Mail an: opensuse-de+help@opensuse.org