Hallo, das Filesystem (ext4) meiner Backupplatte ist wohl hin. gerade mache ich Checks mit fsck und muss feststellen, dass mit jedem Lauf neue Fehler auftauchen die gefixt werden müssen. Aktuell läuft der 5. Durchlauf und am Ende heißt es immer noch, dass weitere Fehler vorhanden seien. Ich weiß jetzt nicht, wie oft das noch so weiter geht. Aber aktuell traue ich den Daten nicht mehr wenn das FS dermaßen geschreddert ist. Es stellt sich die Frage: ist nur das FS hin oder die ganze Platte? Die Platte hat 5 Partitionen, 4 werden aktuell nicht genutzt, eine (verschlüsselt) ist für das Backup. Alle nicht genutzten Partitionen sind eigentlich formatiert, bringen beim mounten aber die Meldung "can't read superblock". Smartctl bringt allerdings keine Fehler im Log. mein Plan ist jetzt: *) Daten auf Ersatzplatte ziehen. Gleich oder erst wenn fsck keine Fehler mehr meldet? *) Platte tauschen oder nur neu partitionieren und formatieren? *) Die Partition ist verschlüsselt. Wäre dann auch die Rohpartition neu anzulegen oder reicht formatieren? *) Daten zurückspielen Oder was ist eure Empfehlung? Joachim
OK, ich denke die Platte ist hin. Es kommen jetzt Ein-/Ausgabefehler. Am 09.11.24 um 13:20 schrieb Joachim Hussong:
Hallo,
das Filesystem (ext4) meiner Backupplatte ist wohl hin.
gerade mache ich Checks mit fsck und muss feststellen, dass mit jedem Lauf neue Fehler auftauchen die gefixt werden müssen. Aktuell läuft der 5. Durchlauf und am Ende heißt es immer noch, dass weitere Fehler vorhanden seien.
Ich weiß jetzt nicht, wie oft das noch so weiter geht. Aber aktuell traue ich den Daten nicht mehr wenn das FS dermaßen geschreddert ist.
Es stellt sich die Frage:
ist nur das FS hin oder die ganze Platte?
Die Platte hat 5 Partitionen, 4 werden aktuell nicht genutzt, eine (verschlüsselt) ist für das Backup. Alle nicht genutzten Partitionen sind eigentlich formatiert, bringen beim mounten aber die Meldung "can't read superblock". Smartctl bringt allerdings keine Fehler im Log.
mein Plan ist jetzt:
*) Daten auf Ersatzplatte ziehen. Gleich oder erst wenn fsck keine Fehler mehr meldet?
*) Platte tauschen oder nur neu partitionieren und formatieren?
*) Die Partition ist verschlüsselt. Wäre dann auch die Rohpartition neu anzulegen oder reicht formatieren?
*) Daten zurückspielen
Oder was ist eure Empfehlung?
Joachim
Es ist eine Seagate Ironwolf. Nach einem Selftest (short): SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 081 064 044 Pre-fail Always - 136764502 3 Spin_Up_Time 0x0003 083 082 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1135 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 080 060 045 Pre-fail Always - 103939964 9 Power_On_Hours 0x0032 060 060 000 Old_age Always - 35368 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 17 18 Head_Health 0x000b 100 100 050 Pre-fail Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 097 000 Old_age Always - 51540393999 190 Airflow_Temperature_Cel 0x0022 052 046 040 Old_age Always - 48 (Min/Max 29/48) 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 7 193 Load_Cycle_Count 0x0032 092 092 000 Old_age Always - 16123 194 Temperature_Celsius 0x0022 048 054 000 Old_age Always - 48 (0 20 0 0 0) 195 Hardware_ECC_Recovered 0x001a 081 064 000 Old_age Always - 136764502 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 9515h+37m+40.008s 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 22012350642 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 11335090777 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 35368 - # 2 Short offline Completed without error 00% 2 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay Ich wollte gerade einen Test long anschmeißen. Oups, soll 730 Minuten dauern. Am 09.11.24 um 13:36 schrieb Martin Schröder:
Am Sa., 9. Nov. 2024 um 13:21 Uhr schrieb Joachim Hussong <linux@ejr-online.de>:
ist nur das FS hin oder die ganze Platte?
Ich tippe auf Hardware. Was sagt smartctl?
Gruß Martin
Am Samstag, 9. November 2024, 13:42:01 CET schrieb Joachim Hussong:
Es ist eine Seagate Ironwolf. Nach einem Selftest (short):
SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 081 064 044 Pre-fail Always - 136764502 3 Spin_Up_Time 0x0003 083 082 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1135 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 080 060 045 Pre-fail Always - 103939964 9 Power_On_Hours 0x0032 060 060 000 Old_age Always - 35368 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 17 18 Head_Health 0x000b 100 100 050 Pre-fail Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 097 000 Old_age Always - 51540393999 190 Airflow_Temperature_Cel 0x0022 052 046 040 Old_age Always - 48 (Min/Max 29/48) 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 7 193 Load_Cycle_Count 0x0032 092 092 000 Old_age Always - 16123 194 Temperature_Celsius 0x0022 048 054 000 Old_age Always - 48 (0 20 0 0 0) 195 Hardware_ECC_Recovered 0x001a 081 064 000 Old_age Always - 136764502 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 9515h+37m+40.008s 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 22012350642 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 11335090777
SMART Error Log Version: 1 No Errors Logged
Hallo, bislang keine Fehler geloggt. Sollte also eigentlich in Ordnung sein. Grüße Richard
Am 09.11.24 um 14:55 schrieb Richard Hafenscher:
bislang keine Fehler geloggt. Sollte also eigentlich in Ordnung sein.
Sollte! ernsthafte Fragen: Wie ist die Tatsache zu bewerten, dass die 4 anderen Partitionen, die seit ca. 2 Jahren nicht mehr gemounted waren, ebenfalls kaputt sind? Wieso findet fsck bei jedem Durchlauf neue Fehler? Ich könnte das Risiko eingehen und die Platte weiterhin verwenden aber eben komplett neu einrichten. Ob das Sinn macht, kann ich nicht abschätzen, ich weiß nicht wie vertrauenswürdig die Angaben von Smart sind. Ich habe auch keine Lust, mich da noch viele Stunden reinzuhängen, um dann am Ende doch zu scheitern. Nix als Ärscher.
On Sat, 9 Nov 2024 13:42:01 +0100 Joachim Hussong <linux@ejr-online.de> wrote:
188 Command_Timeout 0x0032 100 097 000 Old_age Always - 51540393999
Der Wert ist ungewöhnlich hoch. M.W. sollte der bei 0 liegen. Nachdem ansonsten nur wenige bis keine Fehler gemeldet werden, die auf defekte Sektoren schließen lassen, würde ich auf einen defekten Controller tippen. Mit Controller ist die Elektronik auf der HDD gemeint. Die Stromversorgung ist (rein rechnerisch) hinreichend dimensioniert?
190 Airflow_Temperature_Cel 0x0022 052 046 040 Old_age Always - 48 (Min/Max 29/48)
Der Wert ist ja wohl auch grenzwertig. Das fördert die Alterung. Halbwegs ausgelastete HDD haben bei uns im Rack 30 bis 35 Grad C. Eine Warnung kommt bei 35 Grad C. Könnte natürlich auch sein, dass die HDD-Mechanik wegen eines Defekts soviel Reibungswärme erzeugt. BTW: M.W. haben die Ironwolfs 5 Jahre Herstellergarantie. Gruß, Tobias.
Am 09.11.24 um 16:27 schrieb Tobias Crefeld:
On Sat, 9 Nov 2024 13:42:01 +0100 Joachim Hussong <linux@ejr-online.de> wrote:
188 Command_Timeout 0x0032 100 097 000 Old_age Always - 51540393999
Irgendwo hieß es mal, in einem der Werte wären höherwertige bits mit zusätzlichen Daten belegt. Man müsste dann die Daten extrahieren. Ob das aber dieser spezielle Werte ist, kann ich nicht sagen.
Der Wert ist ungewöhnlich hoch. M.W. sollte der bei 0 liegen. Nachdem ansonsten nur wenige bis keine Fehler gemeldet werden, die auf defekte Sektoren schließen lassen, würde ich auf einen defekten Controller tippen. Mit Controller ist die Elektronik auf der HDD gemeint.
Die Stromversorgung ist (rein rechnerisch) hinreichend dimensioniert?
Das Teil hat ein eigenes Netzteil
190 Airflow_Temperature_Cel 0x0022 052 046 040 Old_age Always - 48 (Min/Max 29/48)
Der Wert ist ja wohl auch grenzwertig. Das fördert die Alterung. Halbwegs ausgelastete HDD haben bei uns im Rack 30 bis 35 Grad C. Eine Warnung kommt bei 35 Grad C.
Kurz vorher lief ja der xte fsck Lauf. die Platte war dabei schon ziemlich warm geworden.
Könnte natürlich auch sein, dass die HDD-Mechanik wegen eines Defekts soviel Reibungswärme erzeugt.
BTW: M.W. haben die Ironwolfs 5 Jahre Herstellergarantie.
Von drei Jahren habe ich gelesen. Aber ob ich mir das antue muss ich mir noch überlegen. Es sind nur private Daten und wenn sie weg sind, sind sie halt weg. Das wäre schade aber kein Weltuntergang.
Am 09.11.2024 um 13:42 schrieb Joachim Hussong:
Es ist eine Seagate Ironwolf. Nach einem Selftest (short):
SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 081 064 044 Pre-fail Always - 136764502 3 Spin_Up_Time 0x0003 083 082 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1135 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 080 060 045 Pre-fail Always - 103939964 9 Power_On_Hours 0x0032 060 060 000 Old_age Always - 35368 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 17 18 Head_Health 0x000b 100 100 050 Pre-fail Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 097 000 Old_age Always - 51540393999 190 Airflow_Temperature_Cel 0x0022 052 046 040 Old_age Always - 48 (Min/Max 29/48) 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 7 193 Load_Cycle_Count 0x0032 092 092 000 Old_age Always - 16123 194 Temperature_Celsius 0x0022 048 054 000 Old_age Always - 48 (0 20 0 0 0) 195 Hardware_ECC_Recovered 0x001a 081 064 000 Old_age Always - 136764502 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 9515h+37m+40.008s 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 22012350642 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 11335090777
SMART Error Log Version: 1 No Errors Logged
SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 35368 - # 2 Short offline Completed without error 00% 2 -
SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay
Ich wollte gerade einen Test long anschmeißen. Oups, soll 730 Minuten dauern.
Leider hat du nicht erwähnt wie groß die Platte ist, aber so ein vollständiger Smart Test dauert schon Ewigkeiten. Aber wenn du Hardwarefehler vermutest dann muss der einmal durchlaufen. Wenn aber wie du sagst alle Partitionen nicht mehr mountbar sind ist das schon reichlich seltsam Ich hab hier auch eine 20TB Seagate liegen die lief ein paar Monate und dann nach einem Stromausfall (Gewitter) war das ext4 Filesystem auch kaputt und ließ sich auch mit mehreren Reparaturdurchläufen nicht wieder fixen. Hatte dann die Nase voll und hab neue Platte gekauft und mich bis heute nicht weiter überprüft was denn der Fehler ist. Ich habe da zwei Vermutungen: - Einmal mein Fehler, ich hatte das ext4 Lazyformat abgebrochen was vll keine gute Idee war - Die Platte hat eine echte Macke, ich hatte die als Refurbished gekauft Das merkwürdige dabei ist dass alle Daten bis zu einem gewissen Zeitpunkt einwandfrei vorhanden und alle neueren vollkommen verschwunden sind. Manfred
Mal geschaut ob es bekannte Firmwareptobkeme gibt? Von meinem iPhone gesendet
Am 09.11.2024 um 16:38 schrieb Manfred Kreisl <ml4km@arcor.de>:
Am 09.11.2024 um 13:42 schrieb Joachim Hussong:
Es ist eine Seagate Ironwolf. Nach einem Selftest (short):
SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 081 064 044 Pre-fail Always - 136764502 3 Spin_Up_Time 0x0003 083 082 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1135 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 080 060 045 Pre-fail Always - 103939964 9 Power_On_Hours 0x0032 060 060 000 Old_age Always - 35368 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 17 18 Head_Health 0x000b 100 100 050 Pre-fail Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 097 000 Old_age Always - 51540393999 190 Airflow_Temperature_Cel 0x0022 052 046 040 Old_age Always - 48 (Min/Max 29/48) 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 7 193 Load_Cycle_Count 0x0032 092 092 000 Old_age Always - 16123 194 Temperature_Celsius 0x0022 048 054 000 Old_age Always - 48 (0 20 0 0 0) 195 Hardware_ECC_Recovered 0x001a 081 064 000 Old_age Always - 136764502 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 9515h+37m+40.008s 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 22012350642 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 11335090777
SMART Error Log Version: 1 No Errors Logged
SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 35368 - # 2 Short offline Completed without error 00% 2 -
SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay
Ich wollte gerade einen Test long anschmeißen. Oups, soll 730 Minuten dauern.
Leider hat du nicht erwähnt wie groß die Platte ist, aber so ein vollständiger Smart Test dauert schon Ewigkeiten. Aber wenn du Hardwarefehler vermutest dann muss der einmal durchlaufen.
Wenn aber wie du sagst alle Partitionen nicht mehr mountbar sind ist das schon reichlich seltsam
Ich hab hier auch eine 20TB Seagate liegen die lief ein paar Monate und dann nach einem Stromausfall (Gewitter) war das ext4 Filesystem auch kaputt und ließ sich auch mit mehreren Reparaturdurchläufen nicht wieder fixen. Hatte dann die Nase voll und hab neue Platte gekauft und mich bis heute nicht weiter überprüft was denn der Fehler ist. Ich habe da zwei Vermutungen: - Einmal mein Fehler, ich hatte das ext4 Lazyformat abgebrochen was vll keine gute Idee war - Die Platte hat eine echte Macke, ich hatte die als Refurbished gekauft
Das merkwürdige dabei ist dass alle Daten bis zu einem gewissen Zeitpunkt einwandfrei vorhanden und alle neueren vollkommen verschwunden sind.
Manfred
On Sat, 9 Nov 2024 13:20:30 +0100 Joachim Hussong <linux@ejr-online.de> wrote:
ist nur das FS hin oder die ganze Platte?
Es kommt vor, dass man fsck mit repair mehrmals aufrufen muss, aber dann wird wenigstens die Anzahl der Fehler mit jedem Lauf weniger. Andernfalls würde ich immer ein HW-Problem vermuten. Nachdem das System offenbar bereits länger läuft, ist ein Problem im Bereich HBA unwahrscheinlich (was man aber meist im SMART-Report an UDMA-Fehlern sieht) und dann bleibt nur noch die HDD. Ich würde aber davon ausgehen, dass selbst nach einem erfolgreichen fsck bereits Datenverluste aufgetreten sind. Da kann man nur hoffen, dass lediglich unwichtige Dateien betroffen sind.
mein Plan ist jetzt:
*) Daten auf Ersatzplatte ziehen. Gleich oder erst wenn fsck keine Fehler mehr meldet?
Ohne ein erfolgreiches fsck kann Du nicht mounten und dann hilft nur noch eine Image-Kopie mit dd. Diese (oder eine Arbeitskopie davon) kannst Du dann versuchen, mit fsck zu reparieren, um einen erfolgreichen mount durchzuführen. Es beschleunigt die Angelegenheit natürlich, wenn man die Kopie auf einer SSD hat.
*) Platte tauschen oder nur neu partitionieren und formatieren?
Antwort ergibt sich eigentlich aus meinen obigen Ausführungen: Austauschen! Wenn die Daten erst mal soweit wie möglich gesichert sind und einem sonst langweilig ist, kann man sich immer noch mit der (vermutlich sterbenden) Platte beschäftigen.
*) Die Partition ist verschlüsselt. Wäre dann auch die Rohpartition neu anzulegen oder reicht formatieren?
Diesen Teil des Plans habe ich jetzt nicht verstanden. Gruß., Tobias.
Am 09.11.24 um 16:06 schrieb Tobias Crefeld:
*) Die Partition ist verschlüsselt. Wäre dann auch die Rohpartition neu anzulegen oder reicht formatieren? Diesen Teil des Plans habe ich jetzt nicht verstanden.
Wenn ich mich entschließen sollte, die Platte noch zu nutzen, wäre dann eine Formatierung des Filesystems auf der verschlüsselten Partition ausreichend, oder sollte dann auch, z.B. durch ein völlige Neupartionierung, die verschlüsselte Partition die unter dem FS liegt selbst neu angelegt werden? So war das gemeint. Aber ich besorge mir eine neue Platte. Das ist einfacher und schneller, als ein Rumgemurkse. Ich bin ja auch kein Experte. Aktuell läuft eine Sicherung auf eine Ersatzplatte. Bisher kamen keine Fehlermeldungen. Daumendrücken!
participants (6)
-
Joachim Hussong
-
Manfred Kreisl
-
Martin Schröder
-
Ralf Prengel
-
Richard Hafenscher
-
Tobias Crefeld