AW(2): Hilfe: Datenverlust - ganzes RAID Dateisystem ist weg !

26 Jan 2007

      Hallo Helmut,
...
Hast du mal die Kabel der 4. Platte ausgetauscht und versucht die wieder
zum Leben zu erwecken ?
ja habe ich, mit --assemble wurde sie aber nicht als dem RAID zugehörig
erkannt, ich
habe sie dann mit "mdadm --manage --add" hinzugefügt.dem RAID hinzugefügt
und das RAID begann zu rebuilden.
...
Hat das Raid vorher schon mal gemeckert ( syslog ) ?
der RAID Fehler laut /var/log/messages trat erstmals vor 5 Tagen auf. Danach
hab ich die Kabel ab und angesteckt und die disc mit "mdadm --manage --add"
wieder in Betrieb genommen:
Jan 22 09:17:24 Dagobert kernel: ata1: command 0x35 timeout, stat 0xd0
host_stat 0x21
Jan 22 09:17:24 Dagobert kernel: ata1: status=0xd0 { Busy }
Jan 22 09:17:24 Dagobert kernel: SCSI error : <0 0 0 0> return code =
0x8000002
Jan 22 09:17:24 Dagobert kernel: sda: Current: sense key: Aborted Command
Jan 22 09:17:24 Dagobert kernel:     Additional sense: Scsi parity error
Jan 22 09:17:24 Dagobert kernel: end_request: I/O error, dev sda, sector
488391871
Jan 22 09:17:24 Dagobert kernel: raid5: Disk failure on sda1, disabling
device. Operation continuing on 3 devices

von einem Fehler auf sdd1 finde ich nichts, ich habe es aber mit
mdadm --detail /md0 bei einem der reboots gesehen,
dass sdd1 einmal nicht im RAID war. Dabei habe ich es jedoch weder als
loopback eingerichtet, noch gemounted.
...
Hast du schon mal versucht das FS als ext2 zu mounten ?
nach deinem Hinweis ja, aber mit gleichem Ergebniss, wie als ext3
...
Und nun die unangenehme Frage, wo ist dein Backup wenn's wichtige Daten
waren?
sorry ;-)
Murphy => war für dieses Wochenende geplant, nachdem ich 4 weitere Platten
für ein 2.es grösseres RAID gekauft
hatte wollte ich zuerst den RAID Inhalt auf das grössere RAID kopieren und
die wichtigeren Daten auf den restlichen 4 Platten (normal, ohne RAID) noch
einmal backupen...
Ich habe jetzt händisch das RAID eingerichtet, da ich dem automatischen
Startup Prozess sehr wenig nur mehr traue
und bin auf folgende, mir bis jetzt unterschlagene Fehlermeldung gekommen,
das RAID kann mit "--run" unbedingt, obwohl bereits eine Platte fehlerhaft
ist, wird gestartet werden, das dürfte der Startup automatisch machen und
die Fehlermeldung "failed to RUN_ARRAY /dev/md2: Input output error" sehe
ich nun. Dennoch meint mdadm --detail, dass der Status "active, degraded"
ist.... ???
alle Platten sind angeschlossen und über fdisk -l melden sie sich.

mdadm --assemble /dev/md2 /dev/sda1 /dev/sdb1 /dev/sdc1 /dev/sdd1
mdadm: /dev/md2 assembled from 3 drives - need all 4 to start it (use --run
to insist).
Dagobert:~ # mdadm --assemble --run /dev/md2 /dev/sda1 /dev/sdb1 /dev/sdc1
/dev/sdd1
mdadm: failed to RUN_ARRAY /dev/md2: Input/output error
Dagobert:~ # mdadm --detail /dev/md2
/dev/md2:
        Version : 00.90.02
  Creation Time : Wed May 10 17:18:42 2006
     Raid Level : raid5
    Device Size : 244195840 (232.88 GiB 250.06 GB)
   Raid Devices : 4
  Total Devices : 3
Preferred Minor : 2
    Persistence : Superblock is persistent

    Update Time : Thu Jan 25 20:11:44 2007
          State : active, degraded
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 128K

           UUID : fdf2f7aa:27427688:990476e1:29c1b262
         Events : 0.370510

    Number   Major   Minor   RaidDevice State
       0       0        0        -      removed
       1       8       17        1      active sync   /dev/sdb1
       2       8       33        2      active sync   /dev/sdc1
       3       8       49        3      active sync   /dev/sdd1

lg,
Christoph
...
Gruß
Helmut

...
-----Ursprüngliche Nachricht-----
Von: Christoph [mailto:suse@xxxxxxxx]
Gesendet: Samstag, 22. April 2006 14:14
An: opensuse-de@xxxxxxxxxxxx
Betreff: Hilfe: Datenverlust - ganzes RAID Dateisystem ist weg !
hallo liebe Mailinglistler,
ich hab ein Trouble: mein ganzes RAID 5 ist weg !!!
Und das nach einem, genau gesagt 3 Reboots. Wenn es hier
einen Festplatten/Dateisystem/RAID/crypt Profi gibt, bitte um Hilfe !
Der kostenpflichtige Suse Support konnte mir auch nicht
helfen und hat mich hier verwiesen...
Aus Datensicherheitsgründen habe ich mich für ein RAID 5
Array mit 4 Festplatten (alle 4 RAID, keine Spare) unter Suse
10.1 zur Speicherung meiner Daten entschieden. Auf dem RAID
habe ich ein Crypt Filesystem
(twofish256) erstellt und mit ext3 formatiert, was aus meiner
damaligen Sicht alles minimalstes Risiko sein hätte sollen,
solange ich mich an das Passwort erinnere. Hier vermute ich
aber einen üblen Bug mit für mich katastrophalen Folgen.
Jetzt nach einem Reboot kann ich das RAID nicht mehr mounten,
da kein gültiges ext3 Dateisystem mehr vorhanden ist !!!???
Auf der Festplatte sind sehr viele wichtige, persönliche
Daten, wie alle meine Urlaubsfotos, Videos, meine
Diplomarbeit, etc... die ich alle sicher gespeichert haben
wollte und daher auf das RAID gespeichert habe. Seit dem
letztem Mal, dass es funktionierte, bis zum ersten Mal als
ich entdeckte, dass es nicht mehr ging habe ich 3* rebootet,
nichts neu installiert, nichts auf das RAID geschrieben und
keinen Filesystemcheck gemacht.
Hier die Beschreibung
Der Fehler:
# mount /media/raid
Password:
mount: wrong fs type, bad option, bad superblock on /dev/loop0,
missing codepage or other error
In some cases useful info is found in syslog - try
dmesg | tail or so
# dmesg | tail
VFS: Can't find ext3 filesystem on dev loop0.
=> Ich habe es manuel versucht, das RAID ist bereits nach dem
Booten zusammengebaut, eine Festplatte ist mir offensichtlich
ausgefallen, ich vermute ein SATA Kabelproblem in meinem
Computer - während einem meiner Reboots war einmal /dev/sdd1
weg, dafür /dev/sda1 da.
Meine Vermutung ist, dass dadurch mein RAID korrupt wurde.
Obwohl ich nichts geschrieben habe, vermute ich, dass dmraid
mir damit die Daten ruiniert hat.
# mdadm --detail /dev/md0
/dev/md0:
Version : 00.90.02
Creation Time : Wed May 10 17:18:42 2006
Raid Level : raid5
Device Size : 244195840 (232.88 GiB 250.06 GB)
Raid Devices : 4
Total Devices : 3
Preferred Minor : 0
Persistence : Superblock is persistent
Update Time : Thu Jan 25 20:11:44 2007
State : active, degraded
Active Devices : 3
Working Devices : 3
Failed Devices : 0
Spare Devices : 0
Layout : left-symmetric
Chunk Size : 128K
UUID : fdf2f7aa:27427688:990476e1:29c1b262
Events : 0.370510
Number Major Minor RaidDevice State
0 0 0 - removed
1 8 17 1 active sync /dev/sdb1
2 8 33 2 active sync /dev/sdc1
3 8 49 3 active sync /dev/sdd1
Ich aktiviere das crypt in einem Loop-Back Device (ich nehme
hier loop2, nicht loop0 wie mount, sollte keinen Unterschied machen):
# losetup -e blowfish256 /dev/loop2 /dev/md0
Password:
Ich versuche einen Filesystemcheck:
# fsck.ext3 /dev/loop2
e2fsck 1.38 (30-Jun-2005)
fsck.ext3: Invalid argument while trying to open /dev/loop2
The superblock could not be read or does not describe a
correct ext2 filesystem. If the device is valid and it
really contains an ext2 filesystem (and not swap or ufs or
something else), then the superblock is corrupt, and you
might try running e2fsck with an alternate superblock:
e2fsck -b 8193 <device>
noch einen:
fsck.ext3 -b 8193 /dev/loop2
und noch einige andere mit anderen Superblöcken...., selbes Ergebniss.
Hat jemand noch eine Idee was ich machen könnte ?, ich würd
mich schon über einige gerettete Dateien freuen.
lg,
Christoph
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+unsubscribe@xxxxxxxxxxxx
Um eine Liste aller verfuegbaren Kommandos zu bekommen,
schicken Sie eine Mail an: opensuse-de+help@xxxxxxxxxxxx
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+unsubscribe@xxxxxxxxxxxx
Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken
Sie eine Mail an: opensuse-de+help@xxxxxxxxxxxx

Dasselbe Procedere habe ich schon probiert, er hat sda1 wieder neu dem raid
zugewiesen und den Rebuild begonnen.
Mit
"mdadm --assemble /dev/md2 /dev/sda1 /dev/sdb1 /dev/sdc1 /dev/sdd1"
bekomme ich.
Ich glaube, nachdem er mit

Als RAID erkennt er sie nicht, er finde

-- 
Um die Liste abzubestellen, schicken Sie eine Mail an:
    opensuse-de+unsubscribe@opensuse.org
Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken
Sie eine Mail an: opensuse-de+help@opensuse.org