Hallo Liste Kann mir jemand vielleicht mal die Meldungen erläutern? Feb 24 15:38:37 donald-mobil kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen Feb 24 15:38:37 donald-mobil kernel: ata1.00: cmd c8/00:08:73:57:ae/00:00:00:00:00/e0 tag 0 cdb 0x0 data 4096 in Feb 24 15:38:37 donald-mobil kernel: res 40/00:01:01:4f:c2/00:00:00:00:00/a0 Emask 0x4 (timeout) Feb 24 15:38:37 donald-mobil kernel: ata1: soft resetting link Feb 24 15:38:38 donald-mobil kernel: ata1.00: configured for UDMA/100 Feb 24 15:38:38 donald-mobil kernel: ata1: EH complete Feb 24 15:38:38 donald-mobil kernel: sd 0:0:0:0: [sda] 39070080 512-byte hardware sectors (20004 MB) Feb 24 15:38:38 donald-mobil kernel: sd 0:0:0:0: [sda] Write Protect is off Feb 24 15:38:38 donald-mobil kernel: sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00 Feb 24 15:38:38 donald-mobil kernel: sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA Wenn solche Meldungen kommen, dann scheint mein Thinkpad für einen Moment zu hängen. Ein bißchen warten und ich kann wieder arbeiten. Ist eine 10.3 auf der das passiert. Hintergrund, vor ein paar Tagen sponn mein TP rum und ich hatte Buffer I/O errors auf meiner Festplatte. Hab dann mal die Platte mit dem IBM-Tool PC-Doctor getestet. Bei einem read-write Test brauchte er bei einigen Sektoren elendig lange, kam dann aber zu dem Schluß die Platte ist ok. Komischerweise konnte ich danach wieder normal mit arbeiten. Gestern kamen wieder I/O error und ich habe die Installation auf meine Original-Platte kopiert und die Platten gewechselt. Alles funktionierte Prima und nun diese Meldungen. Ist das der HD-Kontroller oder die Platte? Ich hab mein TP zwar gebraucht gekauft, hab aber noch Garantie drauf, deshalb würde ich gerne wissen, ob da was zerschossen ist. Vielen Dank Bodo -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am 24.02.08 schrieb Bodo Wlaka <bodow@snafu.de>:
Ich hab mein TP zwar gebraucht gekauft, hab aber noch Garantie drauf, deshalb würde ich gerne wissen, ob da was zerschossen ist.
Installier die smartmontools und benutze sie. Gruß Martin -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Sonntag, 24. Februar 2008 16:06:59 schrieb Martin Schröder:
Installier die smartmontools und benutze sie.
Ich hab hier mal die Ausgabe von smartctl -a /dev/sda eingefügt. Ich sehe da errors, bloß werd ich nicht so recht schlau draus. Ein -t long läuft gerade. Ergebnis folgt. Bodo smartctl -a /dev/sda smartctl version 5.37 [i686-suse-linux-gnu] Copyright (C) 2002-6 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Model Family: IBM/Hitachi Travelstar 60GH and 40GN family Device Model: IC25N020ATCS04-0 Serial Number: CSH209DGDB9A7F Firmware Version: CA2OA71A User Capacity: 20.003.880.960 bytes Device is: In smartctl database [for details use: -P show] ATA Version is: 5 ATA Standard is: ATA/ATAPI-5 T13 1321D revision 3 Local Time is: Sun Feb 24 16:33:50 2008 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 645) seconds. Offline data collection capabilities: (0x1b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. No Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. No General Purpose Logging support. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 26) minutes. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000b 100 100 062 Pre-fail Always - 0 2 Throughput_Performance 0x0005 100 100 040 Pre-fail Offline - 0 3 Spin_Up_Time 0x0007 144 144 033 Pre-fail Always - 1 4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 1464 5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0 7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0 8 Seek_Time_Performance 0x0005 100 100 040 Pre-fail Offline - 0 9 Power_On_Hours 0x0012 097 097 000 Old_age Always - 1683 10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1257 191 G-Sense_Error_Rate 0x000a 100 100 000 Old_age Always - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 140 193 Load_Cycle_Count 0x0012 097 097 000 Old_age Always - 35089 194 Temperature_Celsius 0x0002 127 127 000 Old_age Always - 43 (Lifetime Min/Max 11/57) 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 3 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0 SMART Error Log Version: 1 ATA Error Count: 95 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 95 occurred at disk power-on lifetime: 1645 hours (68 days + 13 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 02 85 33 8a e1 Error: UNC 2 sectors at LBA = 0x018a3385 = 25834373 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 7f 33 8a e1 00 04:56:04.900 READ DMA ca 00 08 3f e9 72 e0 00 04:56:04.900 WRITE DMA c8 00 08 7f 33 8a e1 00 04:56:00.400 READ DMA ca 00 60 df e8 72 e0 00 04:56:00.400 WRITE DMA ca 00 08 37 32 ea e0 00 04:56:00.400 WRITE DMA Error 94 occurred at disk power-on lifetime: 1645 hours (68 days + 13 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 02 85 33 8a e1 Error: UNC 2 sectors at LBA = 0x018a3385 = 25834373 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 7f 33 8a e1 00 04:56:00.400 READ DMA ca 00 60 df e8 72 e0 00 04:56:00.400 WRITE DMA ca 00 08 37 32 ea e0 00 04:56:00.400 WRITE DMA ca 00 08 7f 31 ea e0 00 04:56:00.400 WRITE DMA ca 00 08 d7 e8 72 e0 00 04:56:00.400 WRITE DMA Error 93 occurred at disk power-on lifetime: 1645 hours (68 days + 13 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 02 d5 31 8a e1 Error: UNC 2 sectors at LBA = 0x018a31d5 = 25833941 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 cf 31 8a e1 00 04:55:55.700 READ DMA ca 00 08 37 32 ea e0 00 04:55:55.700 WRITE DMA ca 00 08 b7 5b 70 e0 00 04:55:55.700 WRITE DMA ca 00 08 5f 63 84 e1 00 04:55:55.700 WRITE DMA ca 00 10 c7 5b 84 e1 00 04:55:55.700 WRITE DMA Error 92 occurred at disk power-on lifetime: 1645 hours (68 days + 13 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 02 d5 31 8a e1 Error: UNC 2 sectors at LBA = 0x018a31d5 = 25833941 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 cf 31 8a e1 00 04:55:51.100 READ DMA ca 00 18 e7 e7 72 e0 00 04:55:51.100 WRITE DMA ca 00 08 37 32 ea e0 00 04:55:51.100 WRITE DMA ca 00 08 7f 31 ea e0 00 04:55:51.100 WRITE DMA ca 00 08 df e7 72 e0 00 04:55:51.100 WRITE DMA Error 91 occurred at disk power-on lifetime: 1645 hours (68 days + 13 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 02 25 30 8a e1 Error: UNC 2 sectors at LBA = 0x018a3025 = 25833509 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 1f 30 8a e1 00 04:55:46.500 READ DMA ca 00 f0 1f e6 72 e0 00 04:55:46.500 WRITE DMA ca 00 08 37 32 ea e0 00 04:55:46.500 WRITE DMA c8 00 08 1f 30 8a e1 00 04:55:42.000 READ DMA c8 00 18 27 73 e9 e0 00 04:55:42.000 READ DMA SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t] Device does not support Selective Self Tests/Logging -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Sonntag, 24. Februar 2008 schrieb Bodo Wlaka:
Am Sonntag, 24. Februar 2008 16:06:59 schrieb Martin Schröder:
Installier die smartmontools und benutze sie.
Ich hab hier mal die Ausgabe von smartctl -a /dev/sda eingefügt. Ich sehe da errors, bloß werd ich nicht so recht schlau draus. (...).
194 Temperature_Celsius 0x0002 127 127 000 Old_age Always - 43 (Lifetime Min/Max 11/57)
Nett warm die Platte. Und zwischendurch auch mal wirklich heiß gewesen. Die Platte in meinem ThinkPad wird normalerweise 30-32 Grad warm und bisher höchstens(!) 41 Grad.
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 3
Mindestens 3 Sektoren dieser Platte sind kaputt und automatisch auf Reserve-Sektoren umgemappt worden. Das paßt auch zu den 3 Sektoren, welche in den aufgetretenen Fehlern erwähnt werden. UNC heißt wohl "Uncorrectable Data Error":
(...). 40 51 02 85 33 8a e1 Error: UNC 2 sectors at LBA = 0x018a3385 = 25834373 (...). 40 51 02 85 33 8a e1 Error: UNC 2 sectors at LBA = 0x018a3385 = 25834373 (...). 40 51 02 d5 31 8a e1 Error: UNC 2 sectors at LBA = 0x018a31d5 = 25833941 (...). 40 51 02 d5 31 8a e1 Error: UNC 2 sectors at LBA = 0x018a31d5 = 25833941 (...). 40 51 02 25 30 8a e1 Error: UNC 2 sectors at LBA = 0x018a3025 = 25833509
Du solltest die Platte gut im Auge behalten und spätestens jetzt regelmäßig Backups erstellen. Ich persönlich würde eher ein paar Euro für eine neue ausgeben, als mit der Unsicherheit zu leben, daß aus den 3 defekten Sektoren mal richtig viele werden oder diese Defekte eine Ursache haben, die deine Platte ganz plötzlich sterben lassen kann. Gruß Jan -- Life is tough, life is tougher when you're stupid. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Sonntag, 24. Februar 2008 schrieb Bodo Wlaka:
Hallo Liste
Kann mir jemand vielleicht mal die Meldungen erläutern?
Feb 24 15:38:37 donald-mobil kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen (...).
Vielleicht https://bugzilla.novell.com/show_bug.cgi?id=332588 ? Jedenfalls sehen die Meldungen in Kommentar Nr. 4 sehr ähnlich aus. Gruß Jan -- Wear the right costume and the part plays itself. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Hallo Jan Am Sonntag, 24. Februar 2008 16:28:23 schrieb Jan Ritzerfeld:
Vielleicht https://bugzilla.novell.com/show_bug.cgi?id=332588 ? Jedenfalls sehen die Meldungen in Kommentar Nr. 4 sehr ähnlich aus.
Ich hab jetzt mal den Parameter libata.pata_dma=1 in der menu.lst eingefügt und boote mal gleich neu. Vielleicht hilft es ja. Bei smartctl hab ich einen Test -t long laufen lassen. Ergebnis ergab SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed without error 00% 1684 - Dann ist die Platte wohl in Ordnung, wenn ich das richtig sehe. Gruß Bodo -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
participants (3)
Bodo Wlaka
Jan Ritzerfeld
Martin Schröder