e2fsck läuft durch, Partitionen können aber nicht gemountet werden

Lentes, Bernd

21 Apr 2011 21 Apr '11

15:05

Hi, wir hatten eben einen kurzen Stromausfall. Ein Linuxrechner ging dabei aus. Dateisystem aller Partitionen ist ext3. Ein e2fsck von Knoppix auf alle Partitionen (/ ist eine klassische Partition, die anderen sind LV's) lief durch, lediglich bei einer hat er einige kleine Reparaturen gemacht. Ein Mounten der Partitionen ist nicht möglich, nicht einmal pvscan, vgscan und lvscan findet noch irgendwas. Die klassische Partition (/dev/sda2) wird zumindest noch von fdisk gefunden. Beim Mounten wird immer "wrong fs type angemeckert, dmesg sagt anschließend IO-Fehler. Ist da noch was zu retten ? Danke für alle Infos und frohes Ostereiersuchen. Bernd -- Bernd Lentes Systemadministration Institut für Entwicklungsgenetik HelmholtzZentrum münchen bernd.lentes@helmholtz-muenchen.de phone: +49 89 3187 1241 fax: +49 89 3187 3826 http://www.helmholtz-muenchen.de/idg Führung bedeutet, die Anderen groß zu machen und sich selbst klein Helmholtz Zentrum München Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Ingolstädter Landstr. 1 85764 Neuherberg www.helmholtz-muenchen.de Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe Geschäftsführer: Prof. Dr. Günther Wess und Dr. Nikolaus Blum Registergericht: Amtsgericht München HRB 6466 USt-IdNr: DE 129521671 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Show replies by date

David Haller

21 Apr 21 Apr

16:07

Hallo, Am Thu, 21 Apr 2011, Lentes, Bernd schrieb:

...

Als erstes: zieh mit GNU ddrescue[1] oder dd_rescue[2] ein Image der Platte, wenn es irgendwie geht. Was für ein I/O-Error genau? Was sagt 'smartctl -A /dev/sda'? Was sagt 'fdisk -l /dev/sda'? Evtl. hat's die Partitionstabelle zerrupft. Wenn's den Superblock erwischt hat: e2fsck -b 8193 /dev/sda2 e2fsck -b 16384 /dev/sda2 e2fsck -b 32768 /dev/sda2 ... Wie's mit den LVs auf den PV aussieht: keine Ahnung, das FS auf dem LV würdest du dann analog checken können, wenn LVM seinen Krams wiederfindet. HTH, -dnh [1] http://download.opensuse.org/repositories/home:/dnh/ Sourcen bei gnu.org, siehe RPM Info. [2] http://download.opensuse.org/repositories/home:/garloff:/storage ist aber auch standardmäßig bei der SUSE dabei, evtl. nicht so aktuell (und ich hab's naiv nicht wie ddrescue zum Fortsetzen nach nem Abbruch bekommen, was v.a. bei CDs/DVDs sinnvoll ist, da man's so mit nem anderen Laufwerk versuchen kann). -- Truth's a bitch. -- Beka Valentine, Andromeda 3x04 - "Cui Bono" -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Lentes, Bernd

17:02

David Haller schrieb:

...

Als erstes: zieh mit GNU ddrescue[1] oder dd_rescue[2] ein Image der Platte, wenn es irgendwie geht.

mach ich.

...

Was für ein I/O-Error genau? Was sagt 'smartctl -A /dev/sda'?

schau ich nach, Platte ist im Moment ausgebaut.

...

Was sagt 'fdisk -l /dev/sda'? Evtl. hat's die Partitionstabelle zerrupft. Wenn's den Superblock erwischt hat:

Partitionstablle ist ok. Woher weiß ich, ob der Superblock beschädigt ist ?

...

e2fsck -b 8193 /dev/sda2 e2fsck -b 16384 /dev/sda2 e2fsck -b 32768 /dev/sda2 ...

Wie's mit den LVs auf den PV aussieht: keine Ahnung, das FS auf dem LV würdest du dann analog checken können, wenn LVM seinen Krams wiederfindet.

Denk ich auch. Erst mal die /-Partition wiederherstellen. Bernd Helmholtz Zentrum München Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Ingolstädter Landstr. 1 85764 Neuherberg www.helmholtz-muenchen.de Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe Geschäftsführer: Prof. Dr. Günther Wess und Dr. Nikolaus Blum Registergericht: Amtsgericht München HRB 6466 USt-IdNr: DE 129521671 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

David Haller

18:43

Hallo, Am Thu, 21 Apr 2011, Lentes, Bernd schrieb:

...

David Haller schrieb:

...
Als erstes: zieh mit GNU ddrescue[1] oder dd_rescue[2] ein Image der Platte, wenn es irgendwie geht.

mach ich.

Gut ;) Am Image (oder der Platte, entweder oder ;) kann man dann rumprobieren.

...

...
Was für ein I/O-Error genau? Was sagt 'smartctl -A /dev/sda'?

schau ich nach, Platte ist im Moment ausgebaut.

s.u. (BTW: für sowas ist was wie das Sharkoon "QuickDeck", dessen (eSATA Controller auch ggfs. via USB per smartctl korrekt reagiert) sehr hilfreich.

...

...
Was sagt 'fdisk -l /dev/sda'? Evtl. hat's die Partitionstabelle zerrupft. Wenn's den Superblock erwischt hat:

Partitionstablle ist ok. Woher weiß ich, ob der Superblock beschädigt ist ?

Wenn's bei Zugriff auf den nen I/O-Error oder sonst einen Fehler direkt von e2fsck gibt.

...

...
e2fsck -b 8193 /dev/sda2 e2fsck -b 16384 /dev/sda2 e2fsck -b 32768 /dev/sda2 ...

Wie's mit den LVs auf den PV aussieht: keine Ahnung, das FS auf dem LV würdest du dann analog checken können, wenn LVM seinen Krams wiederfindet.

Denk ich auch. Erst mal die /-Partition wiederherstellen.

ACK. BTW: mit "Sparse Super" formatierte ext2/3/4 Partitionen haben den SB weiter auseinander, also ggfs. weitere, größere Werte bei -b testen (65536, 131072, usw.). Nicht wundern, wenn es bei den ersten Kandidaten Fehler gibt (IIRC hatte ich neulich auch mal nen defekten SB erst der bei 32k oder 64k war überhaupt ein Backup-SB ;) BTW: bei mir war ext2/3 bisher immer recht robust. -dnh -- +-------------------------------------------------------------------+ |-- SELF-ASSEMBLY MOEBIUS-STRIP - SEE OTHER SIDE FOR INSTRUCTIONS --| +-------------------------------------------------------------------+ -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Lentes, Bernd

5 May 5 May

16:12

David Haller schrieb:

...

...
...
Was für ein I/O-Error genau? Was sagt 'smartctl -A /dev/sda'?

I/O-Error kann ich nicht nachsehen, da /var auf einem LV liegt, und ich nicht weiß, wie ich da rankomme. ------------------------ root@Knoppix:~# smartctl -A /dev/hda ... === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 33 3 Spin_Up_Time 0x0027 163 156 021 Pre-fail Always - 4825 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 108 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0 9 Power_On_Hours 0x0032 097 097 000 Old_age Always - 2628 10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 106 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 58 193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 108 194 Temperature_Celsius 0x0022 105 098 000 Old_age Always - 42 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 1 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 1 200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0 --------------------------- Sieht gut aus, oder ?

...

...
...
Was sagt 'fdisk -l /dev/sda'? Evtl. hat's die Partitionstabelle zerrupft.

--------------------------- root@Knoppix:~# fdisk -l /dev/hda Platte /dev/hda: 500.1 GByte, 500107862016 Byte 255 Köpfe, 63 Sektoren/Spuren, 60801 Zylinder Einheiten = Zylinder von 16065 × 512 = 8225280 Bytes Disk identifier: 0x3a5a1556 Gerät boot. Anfang Ende Blöcke Id System /dev/hda1 1 262 2104483+ 82 Linux Swap / Solaris /dev/hda2 * 263 4178 31455270 83 Linux /dev/hda3 4179 43340 314568765 8e Linux LVM ---------------------------- Sieht gut aus. Das fdisk auf das Image sieht allerdings etwas anders aus: ---------------------------- root@Knoppix:~# fdisk -l /media/sda2/hda.img Sie müssen angeben Zylinder. Sie können dies im Zusatzfunktionsmenü tun. Platte /media/sda2/hda.img: 0 MByte, 0 Byte 255 Köpfe, 63 Sektoren/Spuren, 0 Zylinder Einheiten = Zylinder von 16065 × 512 = 8225280 Bytes Disk identifier: 0x3a5a1556 Gerät boot. Anfang Ende Blöcke Id System /media/sda2/hda.img1 1 262 2104483+ 82 Linux Swap / Solaris /media/sda2/hda.img2 * 263 4178 31455270 83 Linux Partition 2 hat unterschiedliche phys./log. Enden: phys=(1023, 254, 63) logisch=(4177, 254, 63) /media/sda2/hda.img3 4179 43340 314568765 8e Linux LVM Partition 3 hat unterschiedliche phys./log. Anfänge (nicht-Linux?): phys=(1023, 254, 63) logisch=(4178, 0, 1) Partition 3 hat unterschiedliche phys./log. Enden: phys=(1023, 254, 63) logisch=(43339, 254, 63) ----------------------------- Ist das normal ?

...

Wenn's bei Zugriff auf den nen I/O-Error oder sonst einen Fehler direkt von e2fsck gibt:

------------------------------ root@Knoppix:~# e2fsck -vf /dev/hda2 e2fsck 1.40.5 (27-Jan-2008) Durchgang 1: Prüfe Inodes, Blocks, und Größen Durchgang 2: Prüfe Verzeichnis Struktur Durchgang 3: Prüfe Verzeichnis Verknüpfungen Durchgang 4: Überprüfe die Referenzzähler Durchgang 5: Überprüfe Gruppe Zusammenfassung 18791 inodes used (0.96%) 714 non-contiguous inodes (3.8%) # von Inodes mit ind/dind/tind Blöcken: 963/10/0 283618 blocks used (3.61%) 0 bad blocks 1 large file 15101 regular files 2816 directories 44 character device files 64 block device files 0 fifos 69 links 757 symbolic links (746 fast symbolic links) 0 sockets -------- 18851 files ------------------------------- Sieht doch auch gut aus, oder ?

...

...
...
Wie's mit den LVs auf den PV aussieht: keine Ahnung, das FS auf dem LV würdest du dann analog checken können, wenn LVM seinen Krams wiederfindet.

Denk ich auch. Erst mal die /-Partition wiederherstellen.

Es gibt eine Möglichkeit, an die LV's ranzukommen, ohne daß das betr. System läuft. Ich hab's irgendwo gelesen (ist sogar noch nicht lange her). Ach, könnt ich mir alles merken. Weiss jemand wie das geht ? Bernd Helmholtz Zentrum München Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Ingolstädter Landstr. 1 85764 Neuherberg www.helmholtz-muenchen.de Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe Geschäftsführer: Prof. Dr. Günther Wess und Dr. Nikolaus Blum Registergericht: Amtsgericht München HRB 6466 USt-IdNr: DE 129521671 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Lentes, Bernd

6 May 6 May

15:31

...

David Haller schrieb:

...
...
...
Was für ein I/O-Error genau?

In /var/log/messages steht u.a.: --------------------------- Apr 10 19:00:22 pc51329 smartd[4041]: Device: /dev/sda [SAT], 1 Currently unreadable (pending) sectors Apr 10 19:30:22 pc51329 smartd[4041]: Device: /dev/sda [SAT], 1 Currently unreadable (pending) sectors (diese Medlungen tauchen relativ oft auf, im 30minütigem Abstand ... Apr 20 14:22:39 pc51329 kernel: [ 3432.110631] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 Apr 20 14:22:39 pc51329 kernel: [ 3432.110635] ata1.00: BMDMA stat 0x25 Apr 20 14:22:39 pc51329 kernel: [ 3432.110640] ata1.00: failed command: WRITE DMA EXT Apr 20 14:22:39 pc51329 kernel: [ 3432.110647] ata1.00: cmd 35/00:08:a2:c3:14/00:00:1e:00:00/e0 tag 0 dma 4096 out Apr 20 14:22:39 pc51329 kernel: [ 3432.110648] res 00/00:00:00:00:00/01:01:01:01:01/00 Emask 0x2 (HSM violation) Apr 20 14:22:39 pc51329 kernel: [ 3432.110677] ata1: soft resetting link Apr 20 14:22:44 pc51329 kernel: [ 3437.308017] ata1: link is slow to respond, please be patient (ready=0) Apr 20 14:22:45 pc51329 kernel: [ 3438.528865] ata1.00: configured for UDMA/100 Apr 20 14:22:45 pc51329 kernel: [ 3438.528878] ata1: EH complete ... Apr 20 14:53:54 pc51329 kernel: [ 5307.872457] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 Apr 20 14:53:54 pc51329 kernel: [ 5307.872462] ata1.00: BMDMA stat 0x25 Apr 20 14:53:54 pc51329 kernel: [ 5307.872467] ata1.00: failed command: WRITE DMA EXT Apr 20 14:53:54 pc51329 kernel: [ 5307.872474] ata1.00: cmd 35/00:18:a2:61:a8/00:00:21:00:00/e0 tag 0 dma 12288 out Apr 20 14:53:54 pc51329 kernel: [ 5307.872476] res 00/00:00:00:00:00/01:01:01:01:01/00 Emask 0x2 (HSM violation) Apr 20 14:53:54 pc51329 kernel: [ 5307.872504] ata1: soft resetting link Apr 20 14:53:56 pc51329 kernel: [ 5309.596171] ata1.00: NODEV after polling detection Apr 20 14:53:56 pc51329 kernel: [ 5309.596176] ata1.00: revalidation failed (errno=-2) Apr 20 14:54:01 pc51329 kernel: [ 5314.932020] ata1: soft resetting link Apr 20 14:54:03 pc51329 kernel: [ 5316.040169] ata1.00: NODEV after polling detection Apr 20 14:54:03 pc51329 kernel: [ 5316.040173] ata1.00: revalidation failed (errno=-2) Apr 20 14:54:10 pc51329 kernel: [ 5323.616022] ata1: soft resetting link Apr 20 14:54:10 pc51329 kernel: [ 5323.805106] ata1.00: configured for UDMA/100 Apr 20 14:54:10 pc51329 kernel: [ 5323.805122] ata1: EH complete ... Apr 21 11:31:05 pc51329 kernel: [ 423.766090] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 Apr 21 11:31:05 pc51329 kernel: [ 423.766095] ata1.00: BMDMA stat 0x25 Apr 21 11:31:05 pc51329 kernel: [ 423.766100] ata1.00: failed command: WRITE DMA EXT Apr 21 11:31:05 pc51329 kernel: [ 423.766107] ata1.00: cmd 35/00:18:32:45:a8/00:00:21:00:00/e0 tag 0 dma 12288 out Apr 21 11:31:05 pc51329 kernel: [ 423.766109] res 00/00:00:00:00:00/01:01:01:01:01/00 Emask 0x2 (HSM violation) Apr 21 11:31:05 pc51329 kernel: [ 423.766137] ata1: soft resetting link Apr 21 11:31:06 pc51329 kernel: [ 424.088177] ata1.00: NODEV after polling detection Apr 21 11:31:06 pc51329 kernel: [ 424.088182] ata1.00: revalidation failed (errno=-2) Apr 21 11:31:12 pc51329 kernel: [ 430.097027] ata1: soft resetting link Apr 21 11:31:12 pc51329 kernel: [ 430.288438] ata1.00: configured for UDMA/100 Apr 21 11:31:12 pc51329 kernel: [ 430.288453] ata1: EH complete Apr 21 11:32:20 pc51329 kernel: [ 498.988083] ata1: lost interrupt (Status 0x50) Apr 21 11:32:20 pc51329 kernel: [ 498.988109] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen Apr 21 11:32:20 pc51329 kernel: [ 498.988114] ata1.00: failed command: WRITE DMA Apr 21 11:32:20 pc51329 kernel: [ 498.988121] ata1.00: cmd ca/00:08:8a:0d:9a/00:00:00:00:00/e7 tag 0 dma 4096 out Apr 21 11:32:20 pc51329 kernel: [ 498.988123] res 40/00:00:00:00:00/01:01:01:01:01/00 Emask 0x4 (timeout) Apr 21 11:32:20 pc51329 kernel: [ 498.988126] ata1.00: status: { DRDY } Apr 21 11:32:20 pc51329 kernel: [ 498.988153] ata1: soft resetting link Apr 21 11:32:21 pc51329 kernel: [ 499.176861] ata1.00: configured for UDMA/100 Apr 21 11:32:21 pc51329 kernel: [ 499.176872] ata1: EH complete ----------------------------- Was haltet Ihr davon ?

...

...
...
...
Was sagt 'fdisk -l /dev/sda'? Evtl. hat's die Partitionstabelle zerrupft.

--------------------------- root@Knoppix:~# fdisk -l /dev/hda

Platte /dev/hda: 500.1 GByte, 500107862016 Byte 255 Köpfe, 63 Sektoren/Spuren, 60801 Zylinder Einheiten = Zylinder von 16065 × 512 = 8225280 Bytes Disk identifier: 0x3a5a1556

Gerät boot. Anfang Ende Blöcke Id System /dev/hda1 1 262 2104483+ 82 Linux Swap / Solaris /dev/hda2 * 263 4178 31455270 83 Linux /dev/hda3 4179 43340 314568765 8e Linux LVM ---------------------------- Sieht gut aus.

...

Das fdisk auf das Image sieht allerdings etwas anders aus:

---------------------------- root@Knoppix:~# fdisk -l /media/sda2/hda.img Sie müssen angeben Zylinder. Sie können dies im Zusatzfunktionsmenü tun.

Platte /media/sda2/hda.img: 0 MByte, 0 Byte 255 Köpfe, 63 Sektoren/Spuren, 0 Zylinder Einheiten = Zylinder von 16065 × 512 = 8225280 Bytes Disk identifier: 0x3a5a1556

Gerät boot. Anfang Ende Blöcke Id System /media/sda2/hda.img1 1 262 2104483+ 82 Linux Swap / Solaris /media/sda2/hda.img2 * 263 4178 31455270 83 Linux Partition 2 hat unterschiedliche phys./log. Enden: phys=(1023, 254, 63) logisch=(4177, 254, 63) /media/sda2/hda.img3 4179 43340 314568765 8e Linux LVM Partition 3 hat unterschiedliche phys./log. Anfänge (nicht-Linux?): phys=(1023, 254, 63) logisch=(4178, 0, 1) Partition 3 hat unterschiedliche phys./log. Enden: phys=(1023, 254, 63) logisch=(43339, 254, 63) -----------------------------

Ist das normal ?

Mittlerweile komme ich auch an die LV's ran. Anregungen dazu gibt's hier: http://blog.ncsa.uiuc.edu/aashish/2009/01/21/mounting-lvm-disk-image/ Ich hab's allerdings etwas anders gemacht. Mit fdisk und mmls die Sektorengrenzen des PV rauskriegen. Untere Sektorengrenze mit 512 multiplizieren (512 Bytes pro Sektor), und dann die betr. Partition mittels losetup dem Betriebssystem als Blockdevice klarmachen: losetup /dev/loop1 -o 34365219840 /media/sda2/hda.img (-o ist der Offset in Bytes, aus der vorherigen Multiplikation). Anschließend funktioniert pvscan, vgscan und lvscan. Die LV's lassen sich dann mounten. Bernd Helmholtz Zentrum München Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Ingolstädter Landstr. 1 85764 Neuherberg www.helmholtz-muenchen.de Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe Geschäftsführer: Prof. Dr. Günther Wess und Dr. Nikolaus Blum Registergericht: Amtsgericht München HRB 6466 USt-IdNr: DE 129521671 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

David Haller

8 May 8 May

23:43

Hallo, Am Fri, 06 May 2011, Lentes, Bernd schrieb:

...

Siehe Antwort zur anderen Mail.

...

... Apr 20 14:22:39 pc51329 kernel: [ 3432.110631] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 Apr 20 14:22:39 pc51329 kernel: [ 3432.110635] ata1.00: BMDMA stat 0x25 Apr 20 14:22:39 pc51329 kernel: [ 3432.110640] ata1.00: failed command: WRITE DMA EXT Apr 20 14:22:39 pc51329 kernel: [ 3432.110647] ata1.00: cmd 35/00:08:a2:c3:14/00:00:1e:00:00/e0 tag 0 dma 4096 out Apr 20 14:22:39 pc51329 kernel: [ 3432.110648] res 00/00:00:00:00:00/01:01:01:01:01/00 Emask 0x2 (HSM violation) Apr 20 14:22:39 pc51329 kernel: [ 3432.110677] ata1: soft resetting link Apr 20 14:22:44 pc51329 kernel: [ 3437.308017] ata1: link is slow to respond, please be patient (ready=0) Apr 20 14:22:45 pc51329 kernel: [ 3438.528865] ata1.00: configured for UDMA/100 Apr 20 14:22:45 pc51329 kernel: [ 3438.528878] ata1: EH complete ... Apr 20 14:53:54 pc51329 kernel: [ 5307.872457] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 Apr 20 14:53:54 pc51329 kernel: [ 5307.872462] ata1.00: BMDMA stat 0x25 Apr 20 14:53:54 pc51329 kernel: [ 5307.872467] ata1.00: failed command: WRITE DMA EXT Apr 20 14:53:54 pc51329 kernel: [ 5307.872474] ata1.00: cmd 35/00:18:a2:61:a8/00:00:21:00:00/e0 tag 0 dma 12288 out Apr 20 14:53:54 pc51329 kernel: [ 5307.872476] res 00/00:00:00:00:00/01:01:01:01:01/00 Emask 0x2 (HSM violation) Apr 20 14:53:54 pc51329 kernel: [ 5307.872504] ata1: soft resetting link Apr 20 14:53:56 pc51329 kernel: [ 5309.596171] ata1.00: NODEV after polling detection Apr 20 14:53:56 pc51329 kernel: [ 5309.596176] ata1.00: revalidation failed (errno=-2) Apr 20 14:54:01 pc51329 kernel: [ 5314.932020] ata1: soft resetting link [..] Apr 21 11:32:20 pc51329 kernel: [ 498.988083] ata1: lost interrupt (Status 0x50) Apr 21 11:32:20 pc51329 kernel: [ 498.988109] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen Apr 21 11:32:20 pc51329 kernel: [ 498.988114] ata1.00: failed command: WRITE DMA Apr 21 11:32:20 pc51329 kernel: [ 498.988121] ata1.00: cmd ca/00:08:8a:0d:9a/00:00:00:00:00/e7 tag 0 dma 4096 out Apr 21 11:32:20 pc51329 kernel: [ 498.988123] res 40/00:00:00:00:00/01:01:01:01:01/00 Emask 0x4 (timeout) Apr 21 11:32:20 pc51329 kernel: [ 498.988126] ata1.00: status: { DRDY } Apr 21 11:32:20 pc51329 kernel: [ 498.988153] ata1: soft resetting link Apr 21 11:32:21 pc51329 kernel: [ 499.176861] ata1.00: configured for UDMA/100 Apr 21 11:32:21 pc51329 kernel: [ 499.176872] ata1: EH complete

Was haltet Ihr davon ?

Entweder blockiert grad was den IDE Kanal (hab ich hier wenn ne DVD mit extra-fiesem Kopierschutz komplett gelesen werden soll (ddrescue, dvdcpy etc.), da braucht das LW so lange bis es "defekt" meldet, daß der Kernel immer weiter runterschaltet (bis PIO0 hab ich's schon geschafft, seitdem breche ich aber vorher ab)) oder die HW hat ne Macke. Ich würde eher auf ein Kabel/Controllerproblem tippen, wie alt ist denn der IDE-Controller (Onboard / Karte)? Kann aber auch sein, daß sich die Plattenelektronik verabschiedet. Also als erstes mal gucken, wie alt Mobo/Controllerkarte sind, und auf jeden Fall mal das Kabel an beiden Enden abziehen und sauber neu draufstecken, evtl. auch mal ein anderes Kabel testen.

...

fdisk -lu ;)

...

Prima :) -dnh -- Ich bin ja dafür, daß wir alle den Fingerabdruck von Otto Schily im Personalausweis haben... -- Volker Pispers, "Bis neulich" (2007) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

David Haller

23:36

Hallo, fast nicht gesehen ... Am Thu, 05 May 2011, Lentes, Bernd schrieb:

...

Mist.

...

Nein. Siehe <http://en.wikipedia.org/wiki/S.M.A.R.T.> Current Pending ist einer, der zur "Reallocation" ansteht. Wichtige Daten würde ich der Platte nicht mehr anvertrauen. Da die Platte noch nicht so alt ist, könnte man die noch für Temp-Krams und unwichtigere Daten verwenden.

...

Jep.

...

Ja, bei nem Image mußt du im fdisk noch die Geometrie angeben, d.h. im x-perten Modus mit c change number of cylinders h change number of heads s change number of sectors/track 255 Köpfe, 63 Sektoren/Spuren, 60801 Zylinder setzen. Oder verwende gleich 'fdisk -lu /media/sda2/hda.img', das verwendet Sektoren als Einheit (Geometrie ist letztlich eh egal).

...

Jap.

...

LVM kenne ich nicht. -dnh -- WANTED: Schroedingers Cat, dead or alive. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Lentes, Bernd

2 May 2 May

12:19

...

...
Was für ein I/O-Error genau? Was sagt 'smartctl -A /dev/sda'?

Hallo, habe momentan mit einer weiteren Platte Probleme: ================================ ... Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 270928871 Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 270929895 Apr 30 22:39:08 pc53082 kernel: Aborting journal on device sdb1. Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 270930919 Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 69123087 Apr 30 22:39:08 pc53082 kernel: EXT3-fs error (device sdb1) in ext3_prepare_write: IO failure Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 270931943 Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 63 Apr 30 22:39:08 pc53082 kernel: ext3_abort called. Apr 30 22:39:08 pc53082 kernel: EXT3-fs error (device sdb1): ext3_journal_start_sb: Detected aborted journal Apr 30 22:39:08 pc53082 kernel: Remounting filesystem read-only Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 13671551 Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 15873407 ... ================================ Anscheinend wird sogar das Journal abgebrochen und die Platte dann ro gemountet. Smartctl sagt folgendes: pc53082:~ # smartctl -A /dev/sdb smartctl version 5.38 [x86_64-suse-linux-gnu] Copyright (C) 2002-7 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0 2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0 3 Spin_Up_Time 0x0007 126 126 024 Pre-fail Always - 153 (Average 163) 4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 172 5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0 7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0 8 Seek_Time_Performance 0x0005 100 100 020 Pre-fail Offline - 0 9 Power_On_Hours 0x0012 096 096 000 Old_age Always - 33523 10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 160 192 Power-Off_Retract_Count 0x0032 099 099 000 Old_age Always - 1570 193 Load_Cycle_Count 0x0012 099 099 000 Old_age Always - 1570 194 Temperature_Celsius 0x0002 162 162 000 Old_age Always - 37 (Lifetime Min/Max 19/43) 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always - 0 lt. smartctl wohl alles gut, oder ? Wenn ich die manpage von smartctl richtig verstehe, würde sogar ein WHEN_FAILED-Eintrag nicht zwangsläufig auf einen unmittelbar bevorstehenden Festplattenausfall hindeuten. Umgekehrt können aber wohl Platten im Eimer sein, auch wenn die Attribute von scmartctl noch weit davon entfernt sind, oder ? Bernd Helmholtz Zentrum München Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Ingolstädter Landstr. 1 85764 Neuherberg www.helmholtz-muenchen.de Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe Geschäftsführer: Prof. Dr. Günther Wess und Dr. Nikolaus Blum Registergericht: Amtsgericht München HRB 6466 USt-IdNr: DE 129521671 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Joerg Thuemmler

4 May 4 May

05:44

Lentes, Bernd schrieb:

...

...
...
Was für ein I/O-Error genau? Was sagt 'smartctl -A /dev/sda'?

Hallo,

habe momentan mit einer weiteren Platte Probleme:

================================ ... Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 270928871 Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 270929895 Apr 30 22:39:08 pc53082 kernel: Aborting journal on device sdb1. Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 270930919 Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 69123087 Apr 30 22:39:08 pc53082 kernel: EXT3-fs error (device sdb1) in ext3_prepare_write: IO failure Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 270931943 Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 63 Apr 30 22:39:08 pc53082 kernel: ext3_abort called. Apr 30 22:39:08 pc53082 kernel: EXT3-fs error (device sdb1): ext3_journal_start_sb: Detected aborted journal Apr 30 22:39:08 pc53082 kernel: Remounting filesystem read-only Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 13671551 Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 15873407 ... ================================

Anscheinend wird sogar das Journal abgebrochen und die Platte dann ro gemountet.

Smartctl sagt folgendes:

pc53082:~ # smartctl -A /dev/sdb smartctl version 5.38 [x86_64-suse-linux-gnu] Copyright (C) 2002-7 Bruce Allen Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0 2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0 3 Spin_Up_Time 0x0007 126 126 024 Pre-fail Always - 153 (Average 163) 4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 172 5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0 7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0 8 Seek_Time_Performance 0x0005 100 100 020 Pre-fail Offline - 0 9 Power_On_Hours 0x0012 096 096 000 Old_age Always - 33523 10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 160 192 Power-Off_Retract_Count 0x0032 099 099 000 Old_age Always - 1570 193 Load_Cycle_Count 0x0012 099 099 000 Old_age Always - 1570 194 Temperature_Celsius 0x0002 162 162 000 Old_age Always - 37 (Lifetime Min/Max 19/43) 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always - 0

lt. smartctl wohl alles gut, oder ? Wenn ich die manpage von smartctl richtig verstehe, würde sogar ein WHEN_FAILED-Eintrag nicht zwangsläufig auf einen unmittelbar bevorstehenden Festplattenausfall hindeuten. Umgekehrt können aber wohl Platten im Eimer sein, auch wenn die Attribute von scmartctl noch weit davon entfernt sind, oder ?

Gewiß, beides. SMART ist auf Prophezeiungen angewiesen... Power_On_Hours ist aber mit 33000+ schon ganz schön viel... Ansonsten: gleicher Controller bei der weiteren Platte? Gleiches Kabel? Kann auch das Board sein, sieht für mich jedenfalls nach Hardware und Austausch aus... cu -- Joerg Thuemmler www.teddylinx.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Lentes, Bernd

5 May 5 May

09:22

Jörg Tümmler schrieb:

...

Da frage ich mich schon, was der ganze smartctl soll. Egal, ich habe die Platte getauscht und die Daten vom backup zurückgespielt. Bernd Helmholtz Zentrum München Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Ingolstädter Landstr. 1 85764 Neuherberg www.helmholtz-muenchen.de Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe Geschäftsführer: Prof. Dr. Günther Wess und Dr. Nikolaus Blum Registergericht: Amtsgericht München HRB 6466 USt-IdNr: DE 129521671 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Joerg Thuemmler

09:46

Lentes, Bernd schrieb:

...

Naja, so schlecht ist SMART nicht. Es kann aber nur Dinge überwachen, die sich sozusagen "entwickeln" (zunehmende Positionierungenauigkeiten, abnehmende Magnetisierbarkeit...), weil es letztlich nur aus der Häufung bestimmter, "harmloser" Fehler auf einen baldigen "bösen" schließt. Aber bei einer Betriebszeit von 30000 Stunden bist Du halt auch bei fast 4 Jahren Dauerlauf. Ich weiß nicht, wie Eure Platten genutzt werden, aber MTBFs jenseits von 10000 h sind schon was besonderes, meist liest man was von 5000... Andererseits wäre ich mir bei deinen Fehlern (fsck geht, lesen nicht) auch nicht völlig sicher, dass es die Platte ist. Ein denkbares Szenario wäre aber ein zu ungenaues/ zu langsames Positionieren des Kopfes aus der Nullstellung an die Leseposition, weil fsck hier wahrscheinlich die Platte einfach sequentiell durchgeht und damit seltener oder gar nicht zwischendrunter rückpositioniert. Wenn das Bootprogramm aber die nicht unbedingt aufeinanderfolgenden Blöcke einer Datei zusammensucht, muss es bestimmt öfter neu positionieren... cu -- Joerg Thuemmler www.teddylinx.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

David Haller

8 May 8 May

23:50

Hallo, Am Mon, 02 May 2011, Lentes, Bernd schrieb:

...

...
...
Was für ein I/O-Error genau? Was sagt 'smartctl -A /dev/sda'?

habe momentan mit einer weiteren Platte Probleme:

================================ ... Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 270928871 Apr 30 22:39:08 pc53082 kernel: sd 0:0:1:0: SCSI error: return code = 0x00040000 Apr 30 22:39:08 pc53082 kernel: end_request: I/O error, dev sdb, sector 270929895 Apr 30 22:39:08 pc53082 kernel: Aborting journal on device sdb1.

...

Anscheinend wird sogar das Journal abgebrochen und die Platte dann ro gemountet.

Das gefällt mir gar nicht. Wenn ich sowas bei ner Platte hatte, dann gab's auch Einträge im SMART-log. Aber:

...

Smartctl sagt folgendes:

pc53082:~ # smartctl -A /dev/sdb smartctl version 5.38 [x86_64-suse-linux-gnu] Copyright (C) 2002-7 Bruce Allen Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0 2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0 3 Spin_Up_Time 0x0007 126 126 024 Pre-fail Always - 153 (Average 163) 4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 172 5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0 7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0 8 Seek_Time_Performance 0x0005 100 100 020 Pre-fail Offline - 0 9 Power_On_Hours 0x0012 096 096 000 Old_age Always - 33523 10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 160 192 Power-Off_Retract_Count 0x0032 099 099 000 Old_age Always - 1570 193 Load_Cycle_Count 0x0012 099 099 000 Old_age Always - 1570 194 Temperature_Celsius 0x0002 162 162 000 Old_age Always - 37 (Lifetime Min/Max 19/43) 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always - 0

lt. smartctl wohl alles gut, oder ?

Jep, das schaut bis auf das Alter problemlos aus. Wobei ich hab hier auch ne Platte mit ~23k Laufzeit, im anderen und alten Rechner noch ältere (>25k Laufzeiten), alle ohne Fehler. Evtl. liegt es doch an Kabel/Controller, wenn beide Platten scheinbar grundlos Ärger machen (der eine Pending Sector ist nicht so relevant) ... Siehe nebenan. Oder ist das ein anderer Rechner? pcNNNNN ist so schlecht zu merken ... -dnh -- Kid, you've got the attention span of a caffeinated hummingbird. -- "Hammer" to "Kid" in Angels 2200 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Lentes, Bernd

9 May 9 May

11:09

David Haller schrieb:

...

...
pc53082:~ # smartctl -A /dev/sdb smartctl version 5.38 [x86_64-suse-linux-gnu] Copyright (C) 2002-7 Bruce Allen Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE

UPDATED WHEN_FAILED RAW_VALUE

...
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0 2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0 3 Spin_Up_Time 0x0007 126 126 024 Pre-fail Always - 153 (Average 163) 4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 172 5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0 7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0 8 Seek_Time_Performance 0x0005 100 100 020 Pre-fail Offline - 0 9 Power_On_Hours 0x0012 096 096 000 Old_age Always - 33523 10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 160 192 Power-Off_Retract_Count 0x0032 099 099 000 Old_age Always - 1570 193 Load_Cycle_Count 0x0012 099 099 000 Old_age Always - 1570 194 Temperature_Celsius 0x0002 162 162 000 Old_age Always - 37 (Lifetime Min/Max 19/43) 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always - 0

lt. smartctl wohl alles gut, oder ?

Jep, das schaut bis auf das Alter problemlos aus. Wobei ich hab hier auch ne Platte mit ~23k Laufzeit, im anderen und alten Rechner noch ältere (>25k Laufzeiten), alle ohne Fehler.

Evtl. liegt es doch an Kabel/Controller, wenn beide Platten scheinbar grundlos Ärger machen (der eine Pending Sector ist nicht so relevant) ... Siehe nebenan. Oder ist das ein anderer Rechner? pcNNNNN ist so schlecht zu merken ...

Ja, das ist ein anderer Rechner. Sorry, war wohl nicht so clever, beide Rechner in einen thread zu packen :-). Der o.g. PC hat eine neue Platte und schnurrt auch wieder. Ich les' mir 'mal den Wikipediaartikel durch und meld mich noch mal. Danke schon 'mal. Bernd Helmholtz Zentrum München Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Ingolstädter Landstr. 1 85764 Neuherberg www.helmholtz-muenchen.de Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe Geschäftsführer: Prof. Dr. Günther Wess und Dr. Nikolaus Blum Registergericht: Amtsgericht München HRB 6466 USt-IdNr: DE 129521671 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Lentes, Bernd

12 May 12 May

19:22

Hallo Wie meldet sich eigentlich e2fsck, wenn es einen Fehler findet, bzw. woran kann ich einen Fehler in der Ausgabe erkennen ? Würde z.B. "bad blocks" darauf hindeuten ? Bernd Helmholtz Zentrum München Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Ingolstädter Landstr. 1 85764 Neuherberg www.helmholtz-muenchen.de Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe Geschäftsführer: Prof. Dr. Günther Wess und Dr. Nikolaus Blum Registergericht: Amtsgericht München HRB 6466 USt-IdNr: DE 129521671 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

Joerg Thuemmler

13 May 13 May

05:50

Lentes, Bernd schrieb:

...

Also, wenn Du e2fsck manuell startest, kriegst Du für jeden Fehler im Dateisystem eine Zeile Ausgabe, fehlerfrei zeigt fsck nur die Summen an, eine Zeile je Dateisystem. Alle anderen Anzeigen sind also Fehler, aber es gibt verschiedene: einfache Sachen werden so gefixt (steht dann da) aber alles Ernsthafte musst Du absegnen oder fsck entsprechend starten. Aber fsck dient im Standardmodus nicht der bad-block-Suche. Es findet IMHO nur bad blocks, die zufällig auf seinem Weg liegen. Fsck prüft die logische Konsistenz eines Dateiverzeichnisses, nicht die physische. Für bad-block-Suche gibt es z.B. badblocks. Das kannst Du auch mit e2fsck starten lassen (e2fsck -c), aber standardmäßig kümmert sich e2fsck nicht um badblocks. cu jth -- Joerg Thuemmler www.teddylinx.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org

David Haller

21 Apr 21 Apr

16:07

Hallo, Am Thu, 21 Apr 2011, Lentes, Bernd schrieb:

...

Lentes, Bernd

17:02

David Haller schrieb:

...

Als erstes: zieh mit GNU ddrescue[1] oder dd_rescue[2] ein Image der Platte, wenn es irgendwie geht.

mach ich.

...

Was für ein I/O-Error genau? Was sagt 'smartctl -A /dev/sda'?

schau ich nach, Platte ist im Moment ausgebaut.

...

Was sagt 'fdisk -l /dev/sda'? Evtl. hat's die Partitionstabelle zerrupft. Wenn's den Superblock erwischt hat:

Partitionstablle ist ok. Woher weiß ich, ob der Superblock beschädigt ist ?

...

e2fsck -b 8193 /dev/sda2 e2fsck -b 16384 /dev/sda2 e2fsck -b 32768 /dev/sda2 ...

Wie's mit den LVs auf den PV aussieht: keine Ahnung, das FS auf dem LV würdest du dann analog checken können, wenn LVM seinen Krams wiederfindet.

David Haller

18:43

Hallo, Am Thu, 21 Apr 2011, Lentes, Bernd schrieb:

...

David Haller schrieb:

...
Als erstes: zieh mit GNU ddrescue[1] oder dd_rescue[2] ein Image der Platte, wenn es irgendwie geht.

mach ich.

Gut ;) Am Image (oder der Platte, entweder oder ;) kann man dann rumprobieren.

...

...
Was für ein I/O-Error genau? Was sagt 'smartctl -A /dev/sda'?

schau ich nach, Platte ist im Moment ausgebaut.

s.u. (BTW: für sowas ist was wie das Sharkoon "QuickDeck", dessen (eSATA Controller auch ggfs. via USB per smartctl korrekt reagiert) sehr hilfreich.

...

...
Was sagt 'fdisk -l /dev/sda'? Evtl. hat's die Partitionstabelle zerrupft. Wenn's den Superblock erwischt hat:

Partitionstablle ist ok. Woher weiß ich, ob der Superblock beschädigt ist ?

Wenn's bei Zugriff auf den nen I/O-Error oder sonst einen Fehler direkt von e2fsck gibt.

...

...
e2fsck -b 8193 /dev/sda2 e2fsck -b 16384 /dev/sda2 e2fsck -b 32768 /dev/sda2 ...

Wie's mit den LVs auf den PV aussieht: keine Ahnung, das FS auf dem LV würdest du dann analog checken können, wenn LVM seinen Krams wiederfindet.

Denk ich auch. Erst mal die /-Partition wiederherstellen.

Lentes, Bernd

5 May 5 May

16:12

David Haller schrieb:

...

...
...
Was für ein I/O-Error genau? Was sagt 'smartctl -A /dev/sda'?

...

...
...
Was sagt 'fdisk -l /dev/sda'? Evtl. hat's die Partitionstabelle zerrupft.

...

Wenn's bei Zugriff auf den nen I/O-Error oder sonst einen Fehler direkt von e2fsck gibt:

...

...
...
Wie's mit den LVs auf den PV aussieht: keine Ahnung, das FS auf dem LV würdest du dann analog checken können, wenn LVM seinen Krams wiederfindet.

Denk ich auch. Erst mal die /-Partition wiederherstellen.

Lentes, Bernd

6 May 6 May

15:31

...

David Haller schrieb:

...
...
...
Was für ein I/O-Error genau?

...

...
...
...
Was sagt 'fdisk -l /dev/sda'? Evtl. hat's die Partitionstabelle zerrupft.

--------------------------- root@Knoppix:~# fdisk -l /dev/hda

Platte /dev/hda: 500.1 GByte, 500107862016 Byte 255 Köpfe, 63 Sektoren/Spuren, 60801 Zylinder Einheiten = Zylinder von 16065 × 512 = 8225280 Bytes Disk identifier: 0x3a5a1556

Gerät boot. Anfang Ende Blöcke Id System /dev/hda1 1 262 2104483+ 82 Linux Swap / Solaris /dev/hda2 * 263 4178 31455270 83 Linux /dev/hda3 4179 43340 314568765 8e Linux LVM ---------------------------- Sieht gut aus.

...

Das fdisk auf das Image sieht allerdings etwas anders aus:

---------------------------- root@Knoppix:~# fdisk -l /media/sda2/hda.img Sie müssen angeben Zylinder. Sie können dies im Zusatzfunktionsmenü tun.

Platte /media/sda2/hda.img: 0 MByte, 0 Byte 255 Köpfe, 63 Sektoren/Spuren, 0 Zylinder Einheiten = Zylinder von 16065 × 512 = 8225280 Bytes Disk identifier: 0x3a5a1556

Gerät boot. Anfang Ende Blöcke Id System /media/sda2/hda.img1 1 262 2104483+ 82 Linux Swap / Solaris /media/sda2/hda.img2 * 263 4178 31455270 83 Linux Partition 2 hat unterschiedliche phys./log. Enden: phys=(1023, 254, 63) logisch=(4177, 254, 63) /media/sda2/hda.img3 4179 43340 314568765 8e Linux LVM Partition 3 hat unterschiedliche phys./log. Anfänge (nicht-Linux?): phys=(1023, 254, 63) logisch=(4178, 0, 1) Partition 3 hat unterschiedliche phys./log. Enden: phys=(1023, 254, 63) logisch=(43339, 254, 63) -----------------------------

Ist das normal ?

David Haller

8 May 8 May

23:43

Hallo, Am Fri, 06 May 2011, Lentes, Bernd schrieb:

...

Siehe Antwort zur anderen Mail.

...

... Apr 20 14:22:39 pc51329 kernel: [ 3432.110631] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 Apr 20 14:22:39 pc51329 kernel: [ 3432.110635] ata1.00: BMDMA stat 0x25 Apr 20 14:22:39 pc51329 kernel: [ 3432.110640] ata1.00: failed command: WRITE DMA EXT Apr 20 14:22:39 pc51329 kernel: [ 3432.110647] ata1.00: cmd 35/00:08:a2:c3:14/00:00:1e:00:00/e0 tag 0 dma 4096 out Apr 20 14:22:39 pc51329 kernel: [ 3432.110648] res 00/00:00:00:00:00/01:01:01:01:01/00 Emask 0x2 (HSM violation) Apr 20 14:22:39 pc51329 kernel: [ 3432.110677] ata1: soft resetting link Apr 20 14:22:44 pc51329 kernel: [ 3437.308017] ata1: link is slow to respond, please be patient (ready=0) Apr 20 14:22:45 pc51329 kernel: [ 3438.528865] ata1.00: configured for UDMA/100 Apr 20 14:22:45 pc51329 kernel: [ 3438.528878] ata1: EH complete ... Apr 20 14:53:54 pc51329 kernel: [ 5307.872457] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 Apr 20 14:53:54 pc51329 kernel: [ 5307.872462] ata1.00: BMDMA stat 0x25 Apr 20 14:53:54 pc51329 kernel: [ 5307.872467] ata1.00: failed command: WRITE DMA EXT Apr 20 14:53:54 pc51329 kernel: [ 5307.872474] ata1.00: cmd 35/00:18:a2:61:a8/00:00:21:00:00/e0 tag 0 dma 12288 out Apr 20 14:53:54 pc51329 kernel: [ 5307.872476] res 00/00:00:00:00:00/01:01:01:01:01/00 Emask 0x2 (HSM violation) Apr 20 14:53:54 pc51329 kernel: [ 5307.872504] ata1: soft resetting link Apr 20 14:53:56 pc51329 kernel: [ 5309.596171] ata1.00: NODEV after polling detection Apr 20 14:53:56 pc51329 kernel: [ 5309.596176] ata1.00: revalidation failed (errno=-2) Apr 20 14:54:01 pc51329 kernel: [ 5314.932020] ata1: soft resetting link [..] Apr 21 11:32:20 pc51329 kernel: [ 498.988083] ata1: lost interrupt (Status 0x50) Apr 21 11:32:20 pc51329 kernel: [ 498.988109] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen Apr 21 11:32:20 pc51329 kernel: [ 498.988114] ata1.00: failed command: WRITE DMA Apr 21 11:32:20 pc51329 kernel: [ 498.988121] ata1.00: cmd ca/00:08:8a:0d:9a/00:00:00:00:00/e7 tag 0 dma 4096 out Apr 21 11:32:20 pc51329 kernel: [ 498.988123] res 40/00:00:00:00:00/01:01:01:01:01/00 Emask 0x4 (timeout) Apr 21 11:32:20 pc51329 kernel: [ 498.988126] ata1.00: status: { DRDY } Apr 21 11:32:20 pc51329 kernel: [ 498.988153] ata1: soft resetting link Apr 21 11:32:21 pc51329 kernel: [ 499.176861] ata1.00: configured for UDMA/100 Apr 21 11:32:21 pc51329 kernel: [ 499.176872] ata1: EH complete

Was haltet Ihr davon ?

...

fdisk -lu ;)

...

5066

Age (days ago)

5088

Last active (days ago)

List overview

Download

15 comments

3 participants

participants (3)

David Haller
Joerg Thuemmler
Lentes, Bernd

e2fsck läuft durch, Partitionen können aber nicht gemountet werden

tags

participants (3)