Festplatte am Sterben?

Heinz W. Pahlke

20 Jan 2008 20 Jan '08

16:38

Hallo, vorhin konnte ich ploetzlich nicht mehr auf die Home-Partition schreiben, weil sie nur noch readonly gemounted war. Um sicher zu gehen, habe ich die gesamte Platte beim Reboot checken lassen. Dateisystem der gesamten Platte ist ext3. Beim Check der Homepartition (hdb13) gab es dann zahlreiche Meldungen hdb: dma_intr: status=0x51 { DriveReady SeekComplete Error } hdb: dma_intr: error=0x84 { DriveStatusError BadCRC } ide: failed opcode was: unknown Schliesslich folgte ein hda: DMA disabled ide0: reset: success In /var/log/warn finden sich diese Zeilen vor dem readonly-mounten ebenfalls sowie end_request: I/O error, dev hdb, sector 328992914 kernel: EXT3-fs error (device hdb13):ext3_readdir: directory #6261984 contains a hole at offset 20480 kernel: Aborting journal on device hdb13. kernel: ext3_abort called. kernel: EXT3-fs error (device hdb13):ext3_journal _start_sb: Detected aborted journal kernel: Remounting filesystem read-only kernel: __journal_remove_journal_head:freeing b_committed_data Irgendwie gefallen mir diese Meldungen ueberhaupt nicht, interpretiere ich sie doch so, dass die Festplatte dabei ist, sich zu verabschieden. Oder? Beste Gruesse, Heinz. -- Reisefuehrer Bulgarien, Slowakei: http://www.erlebnis-osteuropa.de Reiseberichte Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Show replies by date

Oliver Meißner-Knippschild

20 Jan 20 Jan

16:48

Heinz W. Pahlke wrote on Sun, 20 Jan 2008 17:38:14 +0100 (CET):

...

In /var/log/warn finden sich diese Zeilen vor dem readonly-mounten ebenfalls sowie

end_request: I/O error, dev hdb, sector 328992914 kernel: EXT3-fs error (device hdb13):ext3_readdir: directory #6261984 contains a hole at offset 20480 kernel: Aborting journal on device hdb13. kernel: ext3_abort called. kernel: EXT3-fs error (device hdb13):ext3_journal _start_sb: Detected aborted journal kernel: Remounting filesystem read-only kernel: __journal_remove_journal_head:freeing b_committed_data

Irgendwie gefallen mir diese Meldungen ueberhaupt nicht, interpretiere ich sie doch so, dass die Festplatte dabei ist, sich zu verabschieden. Oder?

Aus _meiner_ Erfahrung heraus würde ich Dir erstmal Recht geben, was den bevorstehenden Platten-Tod angeht. Allerdings konnte ich nie wirklich herausfinden ob es was mit dem DMA-Modus zu tun hat. Falls deine Platte definitiv damit umgehen kann und du den aktiviert hast, wird es wohl nicht daran liegen und Du solltest Dir Sorgen machen. Mit freundlichen Grüßen / Best regards, Oliver Meißner-Knippschild registered Linux user #462769 (http://counter.li.org) PGP-Fingerprint: FA5D 891C 298B 08DF 1ED7 9AFB 57B1 B3D7 3109 925A Download key at: http://www.la-familia-grande.de/keys/3109925A.txt

Olaf Dabrunz

17:00

On 20-Jan-08, Heinz W. Pahlke wrote:

...

Hallo,

vorhin konnte ich ploetzlich nicht mehr auf die Home-Partition schreiben, weil sie nur noch readonly gemounted war.

Um sicher zu gehen, habe ich die gesamte Platte beim Reboot checken lassen. Dateisystem der gesamten Platte ist ext3.

Beim Check der Homepartition (hdb13) gab es dann zahlreiche Meldungen

hdb: dma_intr: status=0x51 { DriveReady SeekComplete Error } hdb: dma_intr: error=0x84 { DriveStatusError BadCRC } ide: failed opcode was: unknown

Hört sich schlecht an. Die Platte meldet BadCRC, also einen Block-Lesefehler den sie selbst nicht mehr intern behandeln kann. Was sagt die Ausgabe von smartctl -H /dev/hdb Wenn das Laufwerk sich noch für "ok" hält, steht da sowas: === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED Wenn da "FAILED!" steht, weißt Du es genau. Wenn das "PASSED" steht, würde ich mir trotzdem die Daten kopieren und die Platte auszutauschen. Die Fehlermeldung oben sieht nicht gut aus. Bei "PASSED" könnte man (wenn man gerne gefährlich lebt) die Entscheidung vom detaillierten S.M.A.R.T.-Status abhängig machen: smartctl -a /dev/hdb Auf jeden Fall würde ich sofort sicherstellen, daß ich ein funktionierendes Backup der Daten habe. :)

...

end_request: I/O error, dev hdb, sector 328992914 kernel: EXT3-fs error (device hdb13):ext3_readdir: directory #6261984 contains a hole at offset 20480 kernel: Aborting journal on device hdb13. kernel: ext3_abort called. kernel: EXT3-fs error (device hdb13):ext3_journal _start_sb: Detected aborted journal

Das Dateisystem hat auf jeden Fall ein oder mehrere strukturelle Probleme. Die sind normalerweise behebbar (unter minimalem Datenverlust), aber in Verbindung mit dem BadCRC auf der Platte würde ich das nicht mehr mit dieser Platte versuchen, sondern mit einem Backup. Gruß, -- Olaf Dabrunz (Olaf <at> dabrunz.com) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Heinz W. Pahlke

17:24

Hallo, On 20-Jan-2008 Olaf Dabrunz wrote:

...

Was sagt die Ausgabe von

smartctl -H /dev/hdb

Wenn das Laufwerk sich noch fÃ¼r "ok" hÃ¤lt, steht da sowas:

=== START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED

Die Platte selbst haelt sich fuer gesund.

...

Wenn das "PASSED" steht, wÃ¼rde ich mir trotzdem die Daten kopieren und die Platte auszutauschen. Die Fehlermeldung oben sieht nicht gut aus.

Bei "PASSED" kÃ¶nnte man (wenn man gerne gefÃ¤hrlich lebt) die Entscheidung vom detaillierten S.M.A.R.T.-Status abhÃ¤ngig machen:

smartctl -a /dev/hdb

Wobei mir die Angaben nicht wirklich etwas sagen, ausser der "WARNING: May need -F samsung or -F samsung2 enabled; see manual for details." Ein Blick in man smartctl bringt allerdings keine Erhellung, weil es dort weder ein -F noch ein samsung oder samsung2 gibt :-(

...

Auf jeden Fall wÃ¼rde ich sofort sicherstellen, daÃ ich ein funktionierendes Backup der Daten habe. :)

Backup existieren, aber komplett nur von der betroffenen Home-Partition. Von daher werde ich morgen losgehen und eine neue Platte kaufen. Ich brauche den PC beruflich und von daher waere alles andere zu riskant. Einen schoenen Abend, Heinz. -- Reisefuehrer Bulgarien, Slowakei: http://www.erlebnis-osteuropa.de Reiseberichte Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Olaf Dabrunz

17:27

On 20-Jan-08, Olaf Dabrunz wrote:

...

On 20-Jan-08, Heinz W. Pahlke wrote:

...
hdb: dma_intr: status=0x51 { DriveReady SeekComplete Error } hdb: dma_intr: error=0x84 { DriveStatusError BadCRC } ide: failed opcode was: unknown

Hört sich schlecht an. Die Platte meldet BadCRC, also einen Block-Lesefehler den sie selbst nicht mehr intern behandeln kann.

Sorry, quatsch. Das ist ein CRC-Fehler am Interface, also wenn es beim Übertragen der Daten Probleme gibt. Also auf jeden Fall smartctl -a /dev/sdb ansehen, dann wird klar ob es auch noch Probleme mit den Daten auf der Platte gibt. Außerdem: Kabelverbindung überprüfen, möglicherweise besseres Kabel besorgen. Weitere Maßnahmen: nachsehen, welchen DMA-Modus Windows benutzt. Überprüfen der Platte unter Windows, z.B. mit "HD Tune". Möglicherweise hat jemand Erfahrung mit Deiner Platte (Hersteller, Modell).

...

...
end_request: I/O error, dev hdb, sector 328992914 kernel: EXT3-fs error (device hdb13):ext3_readdir: directory #6261984 contains a hole at offset 20480 kernel: Aborting journal on device hdb13. kernel: ext3_abort called. kernel: EXT3-fs error (device hdb13):ext3_journal _start_sb: Detected aborted journal

Wenn der S.M.A.R.T.-Status der Platte gut aussieht, Übertragungsprobleme lösen. Im Single-User-Modus (oder nach Boot von DVD) fsck über die Partitionen der Platte laufen lassen. Gruß, -- Olaf Dabrunz (Olaf <at> dabrunz.com) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Olaf Dabrunz

17:38

On 20-Jan-08, Olaf Dabrunz wrote:

...

On 20-Jan-08, Olaf Dabrunz wrote:

...
On 20-Jan-08, Heinz W. Pahlke wrote:

...
hdb: dma_intr: status=0x51 { DriveReady SeekComplete Error } hdb: dma_intr: error=0x84 { DriveStatusError BadCRC } ide: failed opcode was: unknown

Hört sich schlecht an. Die Platte meldet BadCRC, also einen Block-Lesefehler den sie selbst nicht mehr intern behandeln kann.

Sorry, quatsch. Das ist ein CRC-Fehler am Interface, also wenn es beim Übertragen der Daten Probleme gibt.

Andere haben es gottseidank auch gemerkt. :} Ich habs nochmal nachgesehen im kernel-source -- drivers/ata/libata-scsi.c: ------------------------------------ static void ata_dump_status(unsigned id, struct ata_taskfile *tf) { [...] if (err) { printk(KERN_WARNING "ata%u: error=0x%02x { ", id, err); if (err & 0x04) printk("DriveStatusError "); if (err & 0x80) { if (err & 0x04) printk("BadCRC "); else printk("Sector "); } [...] } ------------------------------------------------------------------ und im letzten Draft-Standard der ATA-Specs (http://www.t10.org/t13/project/d1153r18-ATA-ATAPI-4.pdf). ----------------------------------------------------------------- 8.23 READ DMA [...] 8.23.6 Error outputs [...] Register 7 6 5 4 3 2 1 0 Error ICRC UNC MC IDNF MCR ABRT NM obs [...] Error register - ICRC shall be set to one if an interface CRC error has occurred during an Ultra DMA data transfer. The content of this bit is not applicable for Multiword DMA transfers. ----------------------------------------------------------------- -- Olaf Dabrunz (Olaf <at> dabrunz.com) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Heinz W. Pahlke

17:45

Hallo, On 20-Jan-2008 Olaf Dabrunz wrote:

...

On 20-Jan-08, Olaf Dabrunz wrote:

...
On 20-Jan-08, Heinz W. Pahlke wrote:

...
hdb: dma_intr: status=0x51 { DriveReady SeekComplete Error } hdb: dma_intr: error=0x84 { DriveStatusError BadCRC } ide: failed opcode was: unknown

HÃ¶rt sich schlecht an. Die Platte meldet BadCRC, also einen Block-Lesefehler den sie selbst nicht mehr intern behandeln kann.

Sorry, quatsch. Das ist ein CRC-Fehler am Interface, also wenn es beim Ãbertragen der Daten Probleme gibt.

Also auf jeden Fall

smartctl -a /dev/sdb

ansehen, dann wird klar ob es auch noch Probleme mit den Daten auf der Platte gibt.

Da die Ausgabe von smartctl -a /dev/hdb ziemlich lang ist, welche Zeilen waeren denn von Interesse?

...

AuÃerdem: Kabelverbindung Ã¼berprÃ¼fen, mÃ¶glicherweise besseres Kabel besorgen.

Wie gesagt, anderes Kabel muesste ich erst besorgen.

...

Weitere MaÃnahmen: nachsehen, welchen DMA-Modus Windows benutzt. ÃberprÃ¼fen der Platte unter Windows, z.B. mit "HD Tune".

Ist eine reine ext3-Platte und auf die lasse ich nach schlechten Erfahrungen kein Windows mehr los.

...

MÃ¶glicherweise hat jemand Erfahrung mit Deiner Platte (Hersteller, Modell).

...
...
end_request: I/O error, dev hdb, sector 328992914 kernel: EXT3-fs error (device hdb13):ext3_readdir: directory #6261984 contains a hole at offset 20480 kernel: Aborting journal on device hdb13. kernel: ext3_abort called. kernel: EXT3-fs error (device hdb13):ext3_journal _start_sb: Detected aborted journal

Wenn der S.M.A.R.T.-Status der Platte gut aussieht, Ãbertragungsprobleme lÃ¶sen. Im Single-User-Modus (oder nach Boot von DVD) fsck Ã¼ber die Partitionen der Platte laufen lassen.

Wie geschrieben, habe ich das ja beim Rebooten gemacht. Und da kamen eben die gleichen Fehlermeldungen wie sie sich in /var/log/warn fuer den Zeitraum vor dem readonly Mounten. Beste Gruesse, Heinz. -- Reisefuehrer Bulgarien, Slowakei: http://www.erlebnis-osteuropa.de Reiseberichte Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Olaf Dabrunz

18:38

On 20-Jan-08, Heinz W. Pahlke wrote:

...

Da die Ausgabe von smartctl -a /dev/hdb ziemlich lang ist, welche Zeilen waeren denn von Interesse?

smartctl -A /dev/hdb reicht auch schon, wie von Dir gepostet. :) Da sah alles gut aus (siehe Antwort auf Deine andere E-Mail). Die Platte hat die Übertragungs-Probleme (BadCRC auf Linux-Seite) gezählt: ----------------\ v

...

199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 57

...

Wie gesagt, anderes Kabel muesste ich erst besorgen.

Das Kabel ist auf jeden Fall ein Kandidat.

...

...
Weitere MaÃnahmen: nachsehen, welchen DMA-Modus Windows benutzt. ÃberprÃ¼fen der Platte unter Windows, z.B. mit "HD Tune".

Ist eine reine ext3-Platte und auf die lasse ich nach schlechten Erfahrungen kein Windows mehr los.

Ok. :)

...

Wie geschrieben, habe ich das ja beim Rebooten gemacht. Und da kamen eben die gleichen Fehlermeldungen wie sie sich in /var/log/warn fuer den Zeitraum vor dem readonly Mounten.

Also erst das Kabel tauschen, dann nochmal fsck, bzw. "fsck.ext3 -p" um die Probleme zu beheben (soweit möglich). :) Wenn dann immer noch Probleme mit dem ext3 Filesystem auftreten, aber kein BadCRC mehr kommt: die Platte ist dann wohl benutzbar, aber das Filesystem muß neu angelegt werden. In diesem Fall also: Backup überprüfen, Partition formatieren, Backup einspielen. Ich denke dann ist alles OK. Sollte wieder erwarten auch mit neuem Kabel noch der "BadCRC" Fehler kommen, dann kann es auch ein Problem mit dem Mainboard sein (Bug im Chipsatz oder Mainboard defekt) oder mit dem Interface auf der Platte (Platte defekt), oder Du hast elektromagnetische Einstrahlungen auf das Kabel (Rechner steht neben zersörter Mikrowelle, ist offen und steht neben dem Röhren-Fernseher oder so was ;)). Grüße, :) -- Olaf Dabrunz (Olaf <at> dabrunz.com) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Heinz W. Pahlke

21 Jan 21 Jan

07:15

Hallo, On 20-Jan-2008 Olaf Dabrunz wrote:

...

Also erst das Kabel tauschen, dann nochmal fsck, bzw. "fsck.ext3 -p" um die Probleme zu beheben (soweit mÃ¶glich). :)

Wenn dann immer noch Probleme mit dem ext3 Filesystem auftreten, aber kein BadCRC mehr kommt: die Platte ist dann wohl benutzbar, aber das Filesystem muÃ neu angelegt werden. In diesem Fall also: Backup Ã¼berprÃ¼fen, Partition formatieren, Backup einspielen.

Ich denke dann ist alles OK. Sollte wieder erwarten auch mit neuem Kabel noch der "BadCRC" Fehler kommen, dann kann es auch ein Problem mit dem Mainboard sein (Bug im Chipsatz oder Mainboard defekt) oder mit dem Interface auf der Platte (Platte defekt), oder Du hast elektromagnetische Einstrahlungen auf das Kabel (Rechner steht neben zersÃ¶rter Mikrowelle, ist offen und steht neben dem RÃ¶hren-Fernseher oder so was ;)).

Ich sollte doch haeufiger und vor allem genauer in die diversen Log-Dateien schauen. Diese Meldungen gab es in der Vergangenheit (konkret seit August; aeltere Log-Dateien habe ich nicht mehr) immer wieder einmal, fuehrten allerdings nicht dazu, dass die Partition readonly gemounted wurde. Vor drei oder vier Wochen lief ein fsck.ext3 noch fehlerfrei durch. Da bin ich mir absolut sicher, weil ich waehrend der Zeit immer am PC sitzen bleibe. Jedenfalls gibt es nachher ein neues Komplett-Backup. Beste Gruesse, Heinz. -- Reisefuehrer Bulgarien, Slowakei: http://www.erlebnis-osteuropa.de Reiseberichte Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Heinz W. Pahlke

12:24

Hallo, On 21-Jan-2008 Heinz W. Pahlke wrote:

...

Vor drei oder vier Wochen lief ein fsck.ext3 noch fehlerfrei durch. Da bin ich mir absolut sicher, weil ich waehrend der Zeit immer am PC sitzen bleibe.

Noch als Nachtrag: Was ich nicht verstehe ist, warum ein defektes Kabel immer nur zu Problemen mit der Home-Partition fuehren kann. Fuer /, usr, opt, tmp, var und home gibt es eigene Partitionen, die alle auf hdb liegen. Lt. /var/log/warn ist aber immer nur home betroffen. Beste Gruesse, Heinz. -- Reisefuehrer Bulgarien, Slowakei: http://www.erlebnis-osteuropa.de Reiseberichte Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Manfred Kreisl

12:36

Heinz W. Pahlke schrieb:

...

Hallo,

On 21-Jan-2008 Heinz W. Pahlke wrote:

...
Vor drei oder vier Wochen lief ein fsck.ext3 noch fehlerfrei durch. Da bin ich mir absolut sicher, weil ich waehrend der Zeit immer am PC sitzen bleibe.

Noch als Nachtrag: Was ich nicht verstehe ist, warum ein defektes Kabel immer nur zu Problemen mit der Home-Partition fuehren kann.

Fuer /, usr, opt, tmp, var und home gibt es eigene Partitionen, die alle auf hdb liegen. Lt. /var/log/warn ist aber immer nur home betroffen. Ich tippe mal darauf, dass du die meisten Schreibzugriffe auf die /home machst....

... trotzdem würde ich weder auf eine defekte Platte noch auf ein problematisches Kabel schließen. Ich hatte mal ein Mainboard, da hatte ich ständig Probleme dieser Art. Grund hierfür war schlicht und ergreifend, dass der IDE-Treiber (es war damals ne SuSE 9.2) einfach nicht nicht mit der Hardware zurecht kam (Windows aber sehr wohl). Ich hatte mir damals beholfen, einfach einen zusätzlichen IDE-Controller (Promise was weiß ich) einzubauen und Ruhe wars. Mittlerweile habe ich das Board wieder unter Windows laufen und mitsamt Drumrum verschenkt. Möglicherweise hast du ja auch so eine Kombination.

...

Beste Gruesse,

Heinz.

-- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Heinz W. Pahlke

13:04

Hallo, On 21-Jan-2008 Manfred Kreisl wrote:

...

... trotzdem würde ich weder auf eine defekte Platte noch auf ein problematisches Kabel schließen.

Ich hatte mal ein Mainboard, da hatte ich ständig Probleme dieser Art.

Moeglich, aber eher unwahrscheinlich, da der Rechner in dieser Kombination schon mindestens ein Jahr laeuft. Beste Gruesse, Heinz. -- Reisefuehrer Bulgarien, Slowakei: http://www.erlebnis-osteuropa.de Reiseberichte Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

David Haller

20 Jan 20 Jan

17:23

Hallo, Am Son, 20 Jan 2008, Heinz W. Pahlke schrieb:

...

Beim Check der Homepartition (hdb13) gab es dann zahlreiche Meldungen

hdb: dma_intr: status=0x51 { DriveReady SeekComplete Error } hdb: dma_intr: error=0x84 { DriveStatusError BadCRC } ide: failed opcode was: unknown

Das kann auch am Kabel liegen.

...

In /var/log/warn finden sich diese Zeilen vor dem readonly-mounten ebenfalls sowie

end_request: I/O error, dev hdb, sector 328992914 ^^^^^^^^^ kernel: EXT3-fs error (device hdb13):ext3_readdir: directory #6261984 contains a hole at offset 20480

Das hingegen eher auf die Festplatte. Als erstes mal das Kabel prüfen und ggfs. tauschen. Und dein Backup aktualisieren. Was sagt 'smartctl -A /dev/hdb'? -dnh --

...

PS.: Don't drink as root! Das kann man gar nicht oft genug sagen: "uups, rm -rf * statt rm -rf *~ in /etc", das war eine Meisterleistung nachts um 3 mit 2.6 auf dem Turm ;-)) [Volker Müller und Thomas Bendler in suse-linux] -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Heinz W. Pahlke

17:29

Hallo, On 20-Jan-2008 David Haller wrote:

...

Das hingegen eher auf die Festplatte. Als erstes mal das Kabel prüfen und ggfs. tauschen. Und dein Backup aktualisieren.

Ersatzkabel habe ich leider nicht. Muesste ich mir morgen erst einmal beschaffen.

...

Was sagt 'smartctl -A /dev/hdb'?

1 Raw_Read_Error_Rate 0x000f 100 100 051 Pre-fail Always - 6 3 Spin_Up_Time 0x0007 100 100 025 Pre-fail Always - 6144 4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 1537 5 Reallocated_Sector_Ct 0x0033 253 253 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 253 253 051 Pre-fail Always - 0 8 Seek_Time_Performance 0x0025 253 253 015 Pre-fail Offline - 0 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 5762 10 Spin_Retry_Count 0x0033 253 253 051 Pre-fail Always - 0 11 Calibration_Retry_Count 0x0012 253 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 864 187 Unknown_Attribute 0x0032 253 253 000 Old_age Always - 11075584 190 Unknown_Attribute 0x0022 109 076 000 Old_age Always - 43 194 Temperature_Celsius 0x0022 109 076 000 Old_age Always - 43 195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 30030334 196 Reallocated_Event_Count 0x0032 253 253 000 Old_age Always - 0 197 Current_Pending_Sector 0x0012 253 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 253 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 57 200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 0 201 Soft_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0 Obwohl smartctl hier immer wieder mal ein Thema ist, blicke ich trotzdem immer noch nicht wirklich durch. Beste Gruesse, Heinz. -- Reisefuehrer Bulgarien, Slowakei: http://www.erlebnis-osteuropa.de Reiseberichte Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Olaf Dabrunz

18:07

On 20-Jan-08, Heinz W. Pahlke wrote:

...

Hallo,

On 20-Jan-2008 David Haller wrote:

...
Das hingegen eher auf die Festplatte. Als erstes mal das Kabel prüfen und ggfs. tauschen. Und dein Backup aktualisieren.

Ersatzkabel habe ich leider nicht. Muesste ich mir morgen erst einmal beschaffen.

...

...
Was sagt 'smartctl -A /dev/hdb'?

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE

...

1 Raw_Read_Error_Rate 0x000f 100 100 051 Pre-fail Always - 6 3 Spin_Up_Time 0x0007 100 100 025 Pre-fail Always - 6144 4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 1537 5 Reallocated_Sector_Ct 0x0033 253 253 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 253 253 051 Pre-fail Always - 0 8 Seek_Time_Performance 0x0025 253 253 015 Pre-fail Offline - 0 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 5762 10 Spin_Retry_Count 0x0033 253 253 051 Pre-fail Always - 0 11 Calibration_Retry_Count 0x0012 253 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 864 187 Unknown_Attribute 0x0032 253 253 000 Old_age Always - 11075584 190 Unknown_Attribute 0x0022 109 076 000 Old_age Always - 43 194 Temperature_Celsius 0x0022 109 076 000 Old_age Always - 43 195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 30030334 196 Reallocated_Event_Count 0x0032 253 253 000 Old_age Always - 0 197 Current_Pending_Sector 0x0012 253 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 253 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 57 200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 0 201 Soft_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0

Sieht alles gut aus: ^ ^ ^ ^ ^ / | | | | "normalisierter" Wert (zw. 0 - 256) / | | | schlechtester bisheriger "normalisierter" Wert / | | wenn "norm." Wert THRESH erreicht, dann FAILURE / | keine Probleme bisher | / Messwert vor dem "normalisieren" (die genaue Bedeutung ist vom Hersteller abhängig; z.B. die Temperatur kann manchmal auch den bisherigen Maximalwert in den oberen Bits einkodiert haben) Also, z.B.:

...

9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 5762

Deine Platte war 5762 Stunden insgesamt eingeschaltet, das wird in den "normalisierten" Wert "100" übersetzt (der wird nach vielen vielen Stunden Laufzeit irgendwann kleiner), schlechtester Wert war bisher auch 100, und bei einem Wert von "000" (THRESH) sagt die Platte: "ich bin zu alt".

...

Obwohl smartctl hier immer wieder mal ein Thema ist, blicke ich trotzdem immer noch nicht wirklich durch.

Diesen Artikel über smartctl usw. fand ich lesbar (auf Englisch): http://www.linuxjournal.com/article/6983. Gruß, -- Olaf Dabrunz (Olaf <at> dabrunz.com) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

David Haller

19:05

Hallo, Am Son, 20 Jan 2008, Heinz W. Pahlke schrieb:

...

On 20-Jan-2008 David Haller wrote:

...
Das hingegen eher auf die Festplatte. Als erstes mal das Kabel prüfen und ggfs. tauschen. Und dein Backup aktualisieren.

Ersatzkabel habe ich leider nicht. Muesste ich mir morgen erst einmal beschaffen.

...
Was sagt 'smartctl -A /dev/hdb'?

5 Reallocated_Sector_Ct 0x0033 253 253 010 Pre-fail Always - 0 [..] 196 Reallocated_Event_Count 0x0032 253 253 000 Old_age Always - 0 197 Current_Pending_Sector 0x0012 253 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 253 253 000 Old_age Offline - 0

Das sind die kritischen Werte, die auf eine sterbende (sektorenverlierende) Platte hinweisen würden. Alle ok. 195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 30030334 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 57 Zusammen mit den hohen CRC-Fehlern (siehe [1]) ist das ein starker Hinweis auf ein kaputtes / lockeres Kabel oder einen Controllerdefekt. Also erstmal das Kabel prüfen (evtl. nur schlechter Kontakt / halb rausgerutscht).

...

Obwohl smartctl hier immer wieder mal ein Thema ist, blicke ich trotzdem immer noch nicht wirklich durch.

Der Wikipedia-Artikel zu S.M.A.R.T. ist kein schlechter Einstieg ;) -dnh [1] http://de.wikipedia.org/wiki/S.M.A.R.T.#.C3.9Cbliche_Parameter -- A PC without windows is like a chocolate cake without mustard. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Heinz W. Pahlke

21 Jan 21 Jan

21:35

Hallo, On 20-Jan-2008 David Haller wrote:

...

Zusammen mit den hohen CRC-Fehlern (siehe [1]) ist das ein starker Hinweis auf ein kaputtes / lockeres Kabel oder einen Controllerdefekt.

Also erstmal das Kabel prüfen (evtl. nur schlechter Kontakt / halb rausgerutscht).

Nachdem der Kundentermin sich heute nachmittag wie Kaugummi hinzog, steckt nun immer noch das alte Kabel im PC. Aber verstehen tue ich alles immer weniger. Heute vormittag war /dev/hdb13 ploetzlich wieder readonly gemounted. Beim Reboot wurde die Partition natuerlich wegen Fehler gecheckt, danach kam die Meldung, dass hdb13 Fehler enthalte und ein fsck.ext3 durchgefuehrt werden sollte. Deshalb gleich wieder rebootet, erneut fsck.ext3 ausgefuehrt und wieder die Meldung, dass ... Also noch mal gebootet, wieder hdb13 wegen Fehlern gecheckt, aber dann schon unter Zeitdruck die Meldungen nicht mehr genau beobachtet. Heute abend das PC-Gehaeuse geoeffnet, entstaubt und die IDE-Kabel auf festen Sitz ueberprueft. Kabel scheinen aber fest am Controller und an den Festplatten zu stecken. Beim Booten wieder fsck.ext3 durchgelaufen, aber ohne Meldung, dass neuer Check empfohlen wird. Ein Reboot liess den PC dann ohne Fehlermeldungen hochfahren. Laege es am Controller oder dem Kabel, muessten dann nicht wechselnde Partitionen betroffen sein? Also doch die Platte? Aber dagegen spricht die Ausgabe von smartctl. Beste Gruesse, Heinz. -- Reisefuehrer Bulgarien, Slowakei: http://www.erlebnis-osteuropa.de Reiseberichte Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Jan Ritzerfeld

22:10

Am Montag, 21. Januar 2008 schrieb Heinz W. Pahlke:

...

(...). Laege es am Controller oder dem Kabel, muessten dann nicht wechselnde Partitionen betroffen sein?

Wahrscheinlich. Mit Sicherheit sagen kann das aber wohl kaum jemand. Denn wird die Home-Partition nicht zu einem anderen Zeitpunk gemountet als Root? In der Zwischenzeit könnten Treiber geladen worden sein oder sonstige Konfigurationen stattgefunden haben. Naja, oder der Fehler tritt erst nach einer bestimmten Zeit auf: http://de.wikipedia.org/wiki/Nichtdeterministisches_Experiment#Die_abergl.C3...

...

Also doch die Platte?

Aus schlechter Erfahrung nehme ich persönlich in der Regel an, daß die Platte stirbt, wenn solche Fehlermeldungen erscheinen. Allerdings bin ich auch hinreichend paranoid, mir bei jedem Upgrade der Distribution eine neue Platte zu kaufen, um so ohne viel Arbeit ein lauffähiges Backup zu haben. Platten kosten ja nichts. Wenn man auch nur einen Tag Ärger damit hat, hätte sich eine neue Platte schon gelohnt.

...

Aber dagegen spricht die Ausgabe von smartctl.

Die Abwesenheit von SMART-Fehlermeldungen sollte einen bloß nicht zu dem Schluß verleiten, die Platte sei in Ordnung! Gruß Jan -- If all else fails, immortality can always be assured by spectacular error. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

David Haller

22 Jan 22 Jan

00:08

Hallo, Am Mon, 21 Jan 2008, Jan Ritzerfeld schrieb:

...

Am Montag, 21. Januar 2008 schrieb Heinz W. Pahlke:

...
(...). Laege es am Controller oder dem Kabel, muessten dann nicht wechselnde Partitionen betroffen sein?

Wahrscheinlich. Mit Sicherheit sagen kann das aber wohl kaum jemand. Denn wird die Home-Partition nicht zu einem anderen Zeitpunk gemountet als Root?

Auch möglich wäre ein Fehler im Controller, der nur bei bestimmten Bitmustern (Sektornummern) "zuschlägt". Ist aber eher weit hergeholt.

...

...
Also doch die Platte?

Aus schlechter Erfahrung nehme ich persönlich in der Regel an, daß die Platte stirbt, wenn solche Fehlermeldungen erscheinen.

Sollte man von ausgehen bzw. damit rechnen...

...

Allerdings bin ich auch hinreichend paranoid, mir bei jedem Upgrade der Distribution eine neue Platte zu kaufen, um so ohne viel Arbeit ein lauffähiges Backup zu haben.

/me kauft auch so ständig neue Platten (wg. Platzmangel) ;) [..]

...

...
Aber dagegen spricht die Ausgabe von smartctl.

Die Abwesenheit von SMART-Fehlermeldungen sollte einen bloß nicht zu dem Schluß verleiten, die Platte sei in Ordnung!

ACK. Ist aber ein Hinweis. -dnh -- 'It's amazing I won. I was running against peace, prosperity and incumbency.' -- George W. Bush. June 14, 2001, to Swedish PM Göran Persson, unaware that a live television camera was still rolling. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Heinz W. Pahlke

23 Jan 23 Jan

07:16

Hallo, On 22-Jan-2008 David Haller wrote:

...

/me kauft auch so ständig neue Platten (wg. Platzmangel) ;)

Bloss beim letzten Plattenwechsel vor einem Jahr gab es einen Sprung von 80 auf 250 GB, und mehr als eine Verdoppelung des Bedarfs schaffe ich innerhalb eines Jahres nicht :-( Aber das Entstauben und das Wackeln an den Kabeln und Platten hat dazu gefuehrt, dass es erst einmal keine Fehlermeldungen mehr gibt. Da ich sowieso regelmaessig Backups fertige, belasse ich es jetzt erst einmal dabei. Beste Gruesse, Heinz. -- Reisefuehrer Bulgarien, Slowakei: http://www.erlebnis-osteuropa.de Reiseberichte Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Jan Ritzerfeld

20 Jan 20 Jan

17:48

Am Sonntag, 20. Januar 2008 schrieb David Haller:

...

Am Son, 20 Jan 2008, Heinz W. Pahlke schrieb: (...).

...
In /var/log/warn finden sich diese Zeilen vor dem readonly-mounten ebenfalls sowie

end_request: I/O error, dev hdb, sector 328992914

^^^^^^^^^

...
kernel: EXT3-fs error (device hdb13):ext3_readdir: directory #6261984 contains a hole at offset 20480

Das hingegen eher auf die Festplatte.

Sicher? AFAIK ist das nur die Stelle an der eben der CRC-Fehler aufgetreten ist. IIRC ist sowas eher richtig böse: hda: dma_intr: error=0x40 { UncorrectableError }, LBAsect=xxx, sector=yyy Aber es ist glücklicherweise schon etwas her, daß mir eine Platte weggestorben ist, daher kann ich mich auch irren.

...

Als erstes mal das Kabel prüfen und ggfs. tauschen. Und dein Backup aktualisieren. (...).

Das sowieso. Gruß Jan -- You can't guard against the arbitrary. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

David Haller

18:48

Hallo, Am Son, 20 Jan 2008, Jan Ritzerfeld schrieb:

...

Am Sonntag, 20. Januar 2008 schrieb David Haller:

...
Am Son, 20 Jan 2008, Heinz W. Pahlke schrieb: (...).

...
In /var/log/warn finden sich diese Zeilen vor dem readonly-mounten ebenfalls sowie

end_request: I/O error, dev hdb, sector 328992914

^^^^^^^^^

...
kernel: EXT3-fs error (device hdb13):ext3_readdir: directory #6261984 contains a hole at offset 20480

Das hingegen eher auf die Festplatte.

Sicher? AFAIK ist das nur die Stelle an der eben der CRC-Fehler aufgetreten ist. IIRC ist sowas eher richtig böse: hda: dma_intr: error=0x40 { UncorrectableError }, LBAsect=xxx, sector=yyy Aber es ist glücklicherweise schon etwas her, daß mir eine Platte weggestorben ist, daher kann ich mich auch irren.

Stimmt. Da hatte Heinz aber auch die Zeilen direkt drüber weggelassen... -dnh --

...

...
Katzen in HTML. *H*aus*T*ier*M*arkup*L*anguage? Gescheckt, gestreift, getigert: Alles kein Problem mit *C*ats *S*tyle *S*heets ... -- in <darw /> -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

5945

Age (days ago)

5948

Last active (days ago)

List overview

Download

21 comments

6 participants

participants (6)

David Haller
Heinz W. Pahlke
Jan Ritzerfeld
Manfred Kreisl
Olaf Dabrunz
Oliver Meißner-Knippschild