Hallo, On 6/3/2007 7:19 PM, Manfred Keller wrote:
Am Samstag, 2. Juni 2007 23:42 schrieb Arno Lehmann:
Hallo Arno,
[...] etwas gekürzt
Erstmal zum Netzwerk Problem. Das hat sich erledigt. Ich bin einfach hingegangen und habe mein System mit Hilfe der Installations-DVD in den Originalzustand gebracht. Und danach wurde die Netzwerkkarte wieder korrerkt erkannt.
Das spricht für meine Vermutung das irgendwelche Dateien, z.B. netzwerkbezogene Module, fehlten. Das kann nach einem unsauberen Ausschalten passieren (sollte es aber eigentlich nicht), oder eben bedingt durch eine kaputtgehende Platte. Benutzerfehler wie 'rm /lib/modules/whatever' mal aussen vor gelassen :-)
Könnte sein dass deine Platte den Geist aufgibt. Du solltest mal prüfen ob z.B. die nötigen Module für die Netzwerkkarte oder den IP-Stack noch existieren. Falls nicht, mit smartctl die Platte sich testen lassen. Hmm. Da hab ich komischerweise auch schon daran gedacht. Der Befehl smartctl -A /dev/hda bringt als Auffälligkeit eine "Offline_Uncorrectable" Meldung. Das klingt nicht besonders gut.
Das habe ich auch schon in der /var/log/messages gesehen. Da steht: smartd[3097]: Device: /dev/hda, 1 Offline uncorrectable sectors. Da aber beim smartctl alles auf englisch ist, habe ich im Windows das Testprogramm "HD-TUNE" gestartet und einen Oberfächentest durchgeführt. Aber der hat keinen Fehler gefunden. HD-TUNE kenne ich nicht.
Nun zum Festplatten Problem:
HD-TUNE liest auch Smart Daten aus und bietet einen ausführlichen Oberflächentest an.
Ich würde als erstes mit 'smartctl -t long /dev/hda' anfangen. Das Ergebnis bzw. den Fortschritt findest du mit 'smartctl -a /dev/hda'.
Den Test habe ich laufen lassen. Den Output poste ich am Schluß. Event. kannst du mir sagen, ob da gravierende Fehler aufgetreten sind.
Sieht soweit ganz gut aus. Die berichteten Fehler sehen nicht aus als wenn sie kritisch wären.
Dann, wenn keine Fehler auftauchen, mit badblocks prüfen. Vorher *auf jeden Fall* die manual-Seite dazu lesen und verstehen. Vor allem mit '-f' und '-w' vorsichtig sein... Ich würde in deinem Fall wohl 'badblocks -svn -p 1 /dev/hda' über Nacht laufen lassen. Vorher ein aktuelles Backup erstellen und die smartctl-Ausgabe ausdrucken. Nachher schauen ob smartctl neue Probleme meldet. Ausserndem im System-Log nach Plattenproblemen Ausschau halten.
Wenn dabei wieder keine Fehler auftauchen das eigentliche Problem lösen, warum das Netzwerk nicht geht :-)
Das ist ja nun gelöst.
Wenn bei eiem dieser Tests neue Probleme auftauchen -> Platte tauschen, Backup zurückspielen. Oder, falls kein Backup da ist, neu installieren.
Ich hab mir grad nochmal die /var/log/messages aufgemacht und noch 2 andere Einträge zum SMART gefunden:
smart[3352]:Device: /dev/hda, SMART Usage Attribute: 194: Temperature_Celsius changed from 181 to 163 smart[3352]:Device: /dev/hdb, SMART Usage Attribute: 194: Temperature_Celsius changed from 199 to 202 Das dürften die 'Values' sein, die sind nur in Verbindung mit den dazugehörigen Thresholds aussagekräftig. Der Raw-Wert gibt die tatsächliche Temperatur an.
Dazu passt vielleicht noch folgende Auffälligkeit: Beide Platten haben einen sitzen genau hinter dem Lüfter, der Luft ins Gehäuse bläst und jede Platte hat nochmal einen eigenen Plattenkühler. Trotzdem haben sie laut SMART immer völlig unterschiedliche Betriebsthemperaturen. Die hda hat 27°C und die hdb 14°C. Und das bei 20°C Raumthemperatur. Sieht nicht so aus als wären die Werte realistisch. Was sind das für Platten?
Das sind 2 identische Samsung Platten, die am IDE-Bus hängen mit je 160 GB Kapazität. Die hda ist etwas älter, als die hdb, aber nicht älter als 3 Jahre. Die Eckdaten findest du auch unten im Fehlerbericht.
Du kennst bestimmt das Tool hddtemp von Packman. Das liefert mir für hda 27°C und für hdb 14°C. Die CPU Temperatur wird von KSensors mit 27°C angezeigt. Der bestätigt auch die Temperaturen für die Platten. Zur Info, die Raumtemperatur beträgt knapp 21°C. Ich habe das Gehäuse momentan offen, das heißt, die rechte Seitenwand fehlt komplett. Also erhöhte Temperaturen dürften es eigentlich nicht geben.
Richtig, aber auch keine niedrigeren Temperaturen. Deshalb würde ich die ermittelten Temperaturen nicht mehr glauben.
(Alle Platten die ich mit smartctl überwache liefern für die Temperatur plausible Werte.)
Event. hilft dir das auch weiter??? Könnte sein dass die Platten zu warm werden. Aber schau' dazu mal nachValue und Threshold zusamen. Threshold ist die Grenze ab der der Plattenhersteller der Ansicht ist, es sei zu warm. Allerdings gilt auch bei Festplatten die Regel dass, je höher die Temperatur, umso kürzer die Lebensdauer wird. Also solle man im Normalfall auf Temperaturen im Bereich der Raumtemperatur aus sein.
Gruß Manfred
Jetzt noch die Ausgabe von smartctl -t long /dev/hda:
Gut, gehen wir das mal durch...
smartctl -a /dev/hda smartctl version 5.37 [i686-suse-linux-gnu] Copyright (C) 2002-6 Bruce Allen Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION === Device Model: SAMSUNG SP1604N Serial Number: S013J20X133087 Firmware Version: TM100-24 User Capacity: 160,041,885,696 bytes Device is: In smartctl database [for details use: -P show] ATA Version is: 7 ATA Standard is: ATA/ATAPI-7 T13 1532D revision 0 Local Time is: Sun Jun 3 10:18:44 2007 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled
=== START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED
General SMART Values: Offline data collection status: (0x05) Offline data collection activity was aborted by an interrupting command from host. Auto Offline Data Collection: Disabled. Self-test execution status: ( 241) Self-test routine in progress... 10% of test remaining.
Der aktuelle Test ist noch nicht durch.
Total time to complete Offline data collection: (5760) seconds. Offline data collection capabilities: (0x1b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. No Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. No General Purpose Logging support. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 96) minutes.
SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
Grundsätzlich: Wenn der Value unter Thresh sinkt ist das ein Problem. Worst ist der jemals schlechteste ermittelte Wert. Und er Raw value ist die Angabe die Menschen interpretieren können :-)
1 Raw_Read_Error_Rate 0x000b 100 100 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0007 061 051 000 Pre-fail Always - 6528 4 Start_Stop_Count 0x0032 098 098 000 Old_age Always - 2121 5 Reallocated_Sector_Ct 0x0033 253 253 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x000b 253 253 051 Pre-fail Always - 0 8 Seek_Time_Performance 0x0024 091 089 000 Old_age Offline - 9190 9 Power_On_Half_Minutes 0x0032 099 099 000 Old_age Always - 7549h+52m 10 Spin_Retry_Count 0x0013 253 253 049 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1178 194 Temperature_Celsius 0x0022 184 091 000 Old_age Always - 18
Tatsächlich 18... hmm, könnte sein dass die Firmware der Platte den Wert irgenwie skaliert, wobei smartctl normalerweise richtig liegt wenn es behauptet die Eigenheiten zu kennen: Device is: In smartctl database [for details use: -P show]
195 Hardware_ECC_Recovered 0x000a 100 100 000 Old_age Always - 83133461 196 Reallocated_Event_Count 0x0012 100 100 000 Old_age Always - 1
Einmal eine Realloziertung, aber der Zähler weiter oben sagt 0. Wundert mich, aber ich habe nicht in der Spezifikation für SMART nachgelesen.
197 Current_Pending_Sector 0x0033 253 253 010 Pre-fail Always - 0 198 Offline_Uncorrectable 0x0031 100 100 010 Pre-fail Offline - 1
Ein nichtkorrigierbarer Fehler. Könnte erklären warum es einen Reallozierungsvorgang gab aber nichts realloziert wurde.
199 UDMA_CRC_Error_Count 0x000b 100 100 051 Pre-fail Always - 0 200 Multi_Zone_Error_Rate 0x000b 100 100 051 Pre-fail Always - 0 201 Soft_Read_Error_Rate 0x000b 100 100 051 Pre-fail Always - 0
Diese drei sehen gut aus, und die sind wichtig.
SMART Error Log Version: 1 ATA Error Count: 183 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 183 occurred at disk power-on lifetime: 1034 hours (43 days + 2 hours) When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 fe eb ab b5 e0 Error: ABRT
Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ef 05 fe eb ab b5 e0 00 00:01:28.938 SET FEATURES [Enable APM]
Also Probleme APM zu aktibieren. Kann ich nicht viel zu sagen, aber hast du schon mal bemerkt ob die Platte bei Inaktivität steht, oder ist das nicht aktiviert? (HDD spindown oder so heisst das im BIOS-Setup meistens, oder probier's mit 'hdparm -y /dev/hda' aus. Wenn das nicht funktioniert und ein enstprechender neuer Eintrag im Fehler-Log der Platte auftaucht ist das erklärt und wohl nicht tragisch.
ec 00 00 00 00 00 e0 00 00:01:09.188 IDENTIFY DEVICE ec 00 00 82 0a 81 e0 00 00:01:06.938 IDENTIFY DEVICE ef 03 46 78 07 81 e0 00 00:01:06.813 SET FEATURES [Set transfer mode] ef 02 00 00 00 00 e0 00 00:00:33.188 SET FEATURES [Enable write cache]
Error 182 occurred at disk power-on lifetime: 1028 hours (42 days + 20 hours) When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 fe eb ab b5 e0 Error: ABRT
Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ef 05 fe eb ab b5 e0 00 09:28:52.313 SET FEATURES [Enable APM] ...etc.
Sieht also so aus als wäre die Platte in Ordnung. Arno -- IT-Service Lehmann al@its-lehmann.de Arno Lehmann http://www.its-lehmann.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org