Am Samstag, 2. Juni 2007 23:42 schrieb Arno Lehmann: Hallo Arno, [...] etwas gekürzt Erstmal zum Netzwerk Problem. Das hat sich erledigt. Ich bin einfach hingegangen und habe mein System mit Hilfe der Installations-DVD in den Originalzustand gebracht. Und danach wurde die Netzwerkkarte wieder korrerkt erkannt.
Könnte sein dass deine Platte den Geist aufgibt. Du solltest mal prüfen ob z.B. die nötigen Module für die Netzwerkkarte oder den IP-Stack noch existieren. Falls nicht, mit smartctl die Platte sich testen lassen.
Hmm. Da hab ich komischerweise auch schon daran gedacht. Der Befehl smartctl -A /dev/hda bringt als Auffälligkeit eine "Offline_Uncorrectable" Meldung.
Das klingt nicht besonders gut.
Das habe ich auch schon in der /var/log/messages gesehen. Da steht: smartd[3097]: Device: /dev/hda, 1 Offline uncorrectable sectors. Da aber beim smartctl alles auf englisch ist, habe ich im Windows das Testprogramm "HD-TUNE" gestartet und einen Oberfächentest durchgeführt. Aber der hat keinen Fehler gefunden.
HD-TUNE kenne ich nicht.
Nun zum Festplatten Problem: HD-TUNE liest auch Smart Daten aus und bietet einen ausführlichen Oberflächentest an.
Ich würde als erstes mit 'smartctl -t long /dev/hda' anfangen. Das Ergebnis bzw. den Fortschritt findest du mit 'smartctl -a /dev/hda'.
Den Test habe ich laufen lassen. Den Output poste ich am Schluß. Event. kannst du mir sagen, ob da gravierende Fehler aufgetreten sind.
Dann, wenn keine Fehler auftauchen, mit badblocks prüfen. Vorher *auf jeden Fall* die manual-Seite dazu lesen und verstehen. Vor allem mit '-f' und '-w' vorsichtig sein... Ich würde in deinem Fall wohl 'badblocks -svn -p 1 /dev/hda' über Nacht laufen lassen. Vorher ein aktuelles Backup erstellen und die smartctl-Ausgabe ausdrucken. Nachher schauen ob smartctl neue Probleme meldet. Ausserndem im System-Log nach Plattenproblemen Ausschau halten.
Wenn dabei wieder keine Fehler auftauchen das eigentliche Problem lösen, warum das Netzwerk nicht geht :-)
Wenn bei eiem dieser Tests neue Probleme auftauchen -> Platte tauschen, Backup zurückspielen. Oder, falls kein Backup da ist, neu installieren.
Ich hab mir grad nochmal die /var/log/messages aufgemacht und noch 2 andere Einträge zum SMART gefunden:
smart[3352]:Device: /dev/hda, SMART Usage Attribute: 194: Temperature_Celsius changed from 181 to 163 smart[3352]:Device: /dev/hdb, SMART Usage Attribute: 194: Temperature_Celsius changed from 199 to 202
Das dürften die 'Values' sein, die sind nur in Verbindung mit den dazugehörigen Thresholds aussagekräftig. Der Raw-Wert gibt die tatsächliche Temperatur an.
Dazu passt vielleicht noch folgende Auffälligkeit: Beide Platten haben einen sitzen genau hinter dem Lüfter, der Luft ins Gehäuse bläst und jede Platte hat nochmal einen eigenen Plattenkühler. Trotzdem haben sie laut SMART immer völlig unterschiedliche Betriebsthemperaturen. Die hda hat 27°C und die hdb 14°C. Und das bei 20°C Raumthemperatur.
Sieht nicht so aus als wären die Werte realistisch. Was sind das für Platten?
Das sind 2 identische Samsung Platten, die am IDE-Bus hängen mit je 160 GB Kapazität. Die hda ist etwas älter, als die hdb, aber nicht älter als 3 Jahre. Die Eckdaten findest du auch unten im Fehlerbericht. Du kennst bestimmt das Tool hddtemp von Packman. Das liefert mir für hda 27°C und für hdb 14°C. Die CPU Temperatur wird von KSensors mit 27°C angezeigt. Der bestätigt auch die Temperaturen für die Platten. Zur Info, die Raumtemperatur beträgt knapp 21°C. Ich habe das Gehäuse momentan offen, das heißt, die rechte Seitenwand fehlt komplett. Also erhöhte Temperaturen dürften es eigentlich nicht geben.
(Alle Platten die ich mit smartctl überwache liefern für die Temperatur plausible Werte.)
Event. hilft dir das auch weiter???
Könnte sein dass die Platten zu warm werden. Aber schau' dazu mal nachValue und Threshold zusamen. Threshold ist die Grenze ab der der Plattenhersteller der Ansicht ist, es sei zu warm. Allerdings gilt auch bei Festplatten die Regel dass, je höher die Temperatur, umso kürzer die Lebensdauer wird. Also solle man im Normalfall auf Temperaturen im Bereich der Raumtemperatur aus sein.
Gruß Manfred Jetzt noch die Ausgabe von smartctl -t long /dev/hda: smartctl -a /dev/hda smartctl version 5.37 [i686-suse-linux-gnu] Copyright (C) 2002-6 Bruce Allen Home page is === START OF INFORMATION SECTION === Device Model: SAMSUNG SP1604N Serial Number: S013J20X133087 Firmware Version: TM100-24 User Capacity: 160,041,885,696 bytes Device is: In smartctl database [for details use: -P show] ATA Version is: 7 ATA Standard is: ATA/ATAPI-7 T13 1532D revision 0 Local Time is: Sun Jun 3 10:18:44 2007 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x05) Offline data collection activity was aborted by an interrupting command from host. Auto Offline Data Collection: Disabled. Self-test execution status: ( 241) Self-test routine in progress... 10% of test remaining. Total time to complete Offline data collection: (5760) seconds. Offline data collection capabilities: (0x1b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. No Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. No General Purpose Logging support. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 96) minutes. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000b 100 100 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0007 061 051 000 Pre-fail Always - 6528 4 Start_Stop_Count 0x0032 098 098 000 Old_age Always - 2121 5 Reallocated_Sector_Ct 0x0033 253 253 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x000b 253 253 051 Pre-fail Always - 0 8 Seek_Time_Performance 0x0024 091 089 000 Old_age Offline - 9190 9 Power_On_Half_Minutes 0x0032 099 099 000 Old_age Always - 7549h+52m 10 Spin_Retry_Count 0x0013 253 253 049 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1178 194 Temperature_Celsius 0x0022 184 091 000 Old_age Always - 18 195 Hardware_ECC_Recovered 0x000a 100 100 000 Old_age Always - 83133461 196 Reallocated_Event_Count 0x0012 100 100 000 Old_age Always - 1 197 Current_Pending_Sector 0x0033 253 253 010 Pre-fail Always - 0 198 Offline_Uncorrectable 0x0031 100 100 010 Pre-fail Offline - 1 199 UDMA_CRC_Error_Count 0x000b 100 100 051 Pre-fail Always - 0 200 Multi_Zone_Error_Rate 0x000b 100 100 051 Pre-fail Always - 0 201 Soft_Read_Error_Rate 0x000b 100 100 051 Pre-fail Always - 0 SMART Error Log Version: 1 ATA Error Count: 183 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 183 occurred at disk power-on lifetime: 1034 hours (43 days + 2 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 fe eb ab b5 e0 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ef 05 fe eb ab b5 e0 00 00:01:28.938 SET FEATURES [Enable APM] ec 00 00 00 00 00 e0 00 00:01:09.188 IDENTIFY DEVICE ec 00 00 82 0a 81 e0 00 00:01:06.938 IDENTIFY DEVICE ef 03 46 78 07 81 e0 00 00:01:06.813 SET FEATURES [Set transfer mode] ef 02 00 00 00 00 e0 00 00:00:33.188 SET FEATURES [Enable write cache] Error 182 occurred at disk power-on lifetime: 1028 hours (42 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 fe eb ab b5 e0 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ef 05 fe eb ab b5 e0 00 09:28:52.313 SET FEATURES [Enable APM] ec 00 00 00 00 00 e0 00 09:28:40.750 IDENTIFY DEVICE ec 00 00 f3 dd 56 e0 00 09:28:30.938 IDENTIFY DEVICE ec 03 46 33 e2 bb e0 00 09:28:30.625 IDENTIFY DEVICE ef 03 46 33 e2 bb e0 00 09:28:30.313 SET FEATURES [Set transfer mode] Error 181 occurred at disk power-on lifetime: 1025 hours (42 days + 17 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 fe eb ab b5 e0 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ef 05 fe eb ab b5 e0 00 06:27:45.625 SET FEATURES [Enable APM] ec 00 00 00 00 00 e0 00 06:27:44.750 IDENTIFY DEVICE ec 03 46 33 e2 bb e0 00 06:27:32.750 IDENTIFY DEVICE ef 03 46 33 e2 bb e0 00 06:27:32.688 SET FEATURES [Set transfer mode] ec 00 00 00 00 00 e0 00 06:27:30.313 IDENTIFY DEVICE Error 180 occurred at disk power-on lifetime: 1021 hours (42 days + 13 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 fe 63 8d 5c e0 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ef 05 fe 63 8d 5c e0 00 01:25:45.563 SET FEATURES [Enable APM] ec 00 00 00 00 00 e0 00 01:25:34.063 IDENTIFY DEVICE ec 00 00 4a 0b 81 e0 00 01:25:24.375 IDENTIFY DEVICE ef 03 46 fa 09 81 e0 00 01:25:24.250 SET FEATURES [Set transfer mode] ef 02 00 00 00 00 e0 00 01:24:51.500 SET FEATURES [Enable write cache] Error 179 occurred at disk power-on lifetime: 1020 hours (42 days + 12 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 fe 33 05 2f e0 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ef 05 fe 33 05 2f e0 00 00:01:28.063 SET FEATURES [Enable APM] ec 00 00 00 00 00 e0 00 00:01:08.563 IDENTIFY DEVICE ec 03 46 26 0f 81 e0 00 00:01:06.750 IDENTIFY DEVICE ef 03 46 26 0f 81 e0 00 00:01:06.688 SET FEATURES [Set transfer mode] ef 02 00 00 00 00 e0 00 00:00:32.938 SET FEATURES [Enable write cache] SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed without error 00% 7542 - # 2 Extended offline Completed without error 00% 3594 - # 3 Short offline Completed without error 00% 3590 - # 4 Extended offline Completed without error 00% 2646 - Device does not support Selective Self Tests/Logging