Software RAID error

Tobias Crefeld

26 Jun 2006 26 Jun '06

13:25

Nach einem Stromausfall bekomme ich ein Software RAID-5 nicht mehr zum Laufen. OS is Suse 10.1, 3 Partitionen auf verschiedenen IDE-Laufwerken, jeweils 2,5 GB, macht in der Summe 5 GB. Was funktioniert: mdadm --assemble /dev/md1 --super-minor=1 /dev/hda3 /dev/hdc2 Ein "mdadm --query /dev/md1" liefert: /dev/md1: 0.00KiB raid5 3 devices, 0 spares. Use mdadm --detail for more detail. mdadm --detail /dev/md1 liefert: ---------schnipp---------- /dev/md1: Version : 00.90.03 Creation Time : Wed Jun 21 17:29:17 2006 Raid Level : raid5 Device Size : 2626432 (2.50 GiB 2.69 GB) Raid Devices : 3 Total Devices : 2 Preferred Minor : 1 Persistence : Superblock is persistent Update Time : Sun Jun 25 18:58:34 2006 State : active, degraded Active Devices : 2 Working Devices : 2 Failed Devices : 0 Spare Devices : 0 Layout : left-symmetric Chunk Size : 128K UUID : bec002fb:ffdbc327:27589182:df08437e Events : 0.70841 Number Major Minor RaidDevice State 0 3 3 0 active sync /dev/hda3 1 22 2 1 active sync /dev/hdc2 2 0 0 2 removed ---------schnapp---------- mdadm --examine --brief /dev/hda3 oder mdadm --examine --brief /dev/hdc2 zeigen beide dasselbe: ARRAY /dev/md1 level=raid5 num-devices=3 UUID=bec002fb:ffdbc327:27589182:df08437e Wenn ich versuche, dass RAID zu starten mit mdadm --run /dev/md1 bekomme ich eine Meldung: mdadm: failed to run array /dev/md1: Input/output error Irgendwelche Ideen, was das heisst bzw. wie es sich reparieren laesst? Gruss, Tobias. -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Show replies by date

Sandy Drobic

26 Jun 26 Jun

13:37

Tobias Crefeld wrote:

...

Nach einem Stromausfall bekomme ich ein Software RAID-5 nicht mehr zum Laufen. OS is Suse 10.1, 3 Partitionen auf verschiedenen IDE-Laufwerken, jeweils 2,5 GB, macht in der Summe 5 GB.

Was funktioniert: mdadm --assemble /dev/md1 --super-minor=1 /dev/hda3 /dev/hdc2

Ein RAID5 hat mindestens 3 Platten, wo ist deine dritte?

...

Ein "mdadm --query /dev/md1" liefert: /dev/md1: 0.00KiB raid5 3 devices, 0 spares. Use mdadm --detail for more detail.

mdadm --detail /dev/md1 liefert: ---------schnipp---------- /dev/md1: Version : 00.90.03 Creation Time : Wed Jun 21 17:29:17 2006 Raid Level : raid5 Device Size : 2626432 (2.50 GiB 2.69 GB) Raid Devices : 3 Total Devices : 2

Hier steht es auch noch einmal.

...

Preferred Minor : 1 Persistence : Superblock is persistent

Update Time : Sun Jun 25 18:58:34 2006 State : active, degraded Active Devices : 2 Working Devices : 2 Failed Devices : 0 Spare Devices : 0

Active, degraded heisst zumindest, dass du noch keine Daten verloren hast, aber du hast keine Redundanz mehr. Wenn dir jetzt noch eine Platte aus dem RAID wegfällt, sind die Daten wahrscheinlich futsch. Nimm zügig das fehlende Device mit rein und stelle die Konsistenz wieder her.

...

Layout : left-symmetric Chunk Size : 128K

UUID : bec002fb:ffdbc327:27589182:df08437e Events : 0.70841

Number Major Minor RaidDevice State 0 3 3 0 active sync /dev/hda3 1 22 2 1 active sync /dev/hdc2 2 0 0 2 removed

Wo ist das dritte devide?? Sandy -- Antworten bitte nur in die Mailingliste! PMs bitte an: news-reply2 (@) japantest (.) homelinux (.) com -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Tobias Crefeld

15:43

On Mon, 26 Jun 2006 15:37:10 +0200 Sandy Drobic <suse-linux@japantest.homelinux.com> wrote:

...

Tobias Crefeld wrote:

...
Nach einem Stromausfall bekomme ich ein Software RAID-5 nicht mehr zum Laufen. OS is Suse 10.1, 3 Partitionen auf verschiedenen IDE-Laufwerken, jeweils 2,5 GB, macht in der Summe 5 GB.

Was funktioniert: mdadm --assemble /dev/md1 --super-minor=1 /dev/hda3 /dev/hdc2

Ein RAID5 hat mindestens 3 Platten, wo ist deine dritte?

/dev/hdg2 hatte ich vorher auf faulty gesetzt und entfernt. Da lief das RAID noch. Danach kam der Stromausfall und das System blieb bei Booten hängen. Es ist bei Linux-Software-RAID offenbar normal, daß es mit einem degraded RAID als root-device nicht automatisch startet. Die genannten Aktionen habe ich natürlich im Reparaturbootmodus getätigt.

...

Active, degraded heisst zumindest, dass du noch keine Daten verloren hast, aber du hast keine Redundanz mehr. Wenn dir jetzt noch eine Platte aus dem RAID wegfällt, sind die Daten wahrscheinlich futsch. Nimm zügig das fehlende Device mit rein und stelle die Konsistenz wieder her.

Es ist mir schon klar, daß "degraded" kein normaler Betrieb für ein RAID ist. Aber zunächst müßte es auf alle Fälle möglich sein, das RAID auch "degraded" zum Laufen zu bringen und daran hapert es bereits. Warum lehnt es --run ab? Das soll lt. Doku der Befehl sein, um nach --assemble auch ein RAID zum Laufen zu bringen, das degraded ist. Stattdessen zeigt es seltsame Speicherwerte an. Ich möchte ungern auf's Geratewohl eine weitere Partition einhängen, wenn mit dem aktiven RAID was nicht stimmt. Also konkret: Woher kommt der input/output error und wie stellt man es ab. Gruß, Tobias. -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Sandy Drobic

16:59

Tobias Crefeld wrote:

...

On Mon, 26 Jun 2006 15:37:10 +0200 Sandy Drobic <suse-linux@japantest.homelinux.com> wrote:

...
Tobias Crefeld wrote:

...
Nach einem Stromausfall bekomme ich ein Software RAID-5 nicht mehr zum Laufen. OS is Suse 10.1, 3 Partitionen auf verschiedenen IDE-Laufwerken, jeweils 2,5 GB, macht in der Summe 5 GB.

Was funktioniert: mdadm --assemble /dev/md1 --super-minor=1 /dev/hda3 /dev/hdc2 Ein RAID5 hat mindestens 3 Platten, wo ist deine dritte?

/dev/hdg2 hatte ich vorher auf faulty gesetzt und entfernt. Da lief das RAID noch. Danach kam der Stromausfall und das System blieb bei Booten hängen. Es ist bei Linux-Software-RAID offenbar normal, daß es mit einem degraded RAID als root-device nicht automatisch startet. Die genannten Aktionen habe ich natürlich im Reparaturbootmodus getätigt.

Der Stromausfall kam genau dann, als du die defekte Platte entfernt und die neue Platte einhängen wolltest? Murphy in Reinkultur. Ich hab auch zuhause inzwischen eine USV und Hardware-RAID, da Murphy vor einiger Zeit auch bei mir vorbeigeschaut hatte. Das ist bei den meisten RAIDs, auch den Hardware-RAIDs so, dass sie im degradierten Zustand nicht ohne Admin-Aktion starten. Finde ich auch okay, schließlich sind die Daten das Wichtigste bei einem Server. Allerdings sehe ich in den How-Tos, die ich gerade mal durchgeblättert habe, dass mit Kernel 2.6 eigentlich das RAID noch laufen sollte.

...

...
Active, degraded heisst zumindest, dass du noch keine Daten verloren hast, aber du hast keine Redundanz mehr. Wenn dir jetzt noch eine Platte aus dem RAID wegfällt, sind die Daten wahrscheinlich futsch. Nimm zügig das fehlende Device mit rein und stelle die Konsistenz wieder her.

Es ist mir schon klar, daß "degraded" kein normaler Betrieb für ein RAID ist. Aber zunächst müßte es auf alle Fälle möglich sein, das RAID auch "degraded" zum Laufen zu bringen und daran hapert es bereits.

Ich verwende ausschließlich Hardware-RAID, deshalb kann ich für Software-RAID keine Vorschläge mit Garantie machen.

...

Warum lehnt es --run ab? Das soll lt. Doku der Befehl sein, um nach --assemble auch ein RAID zum Laufen zu bringen, das degraded ist.

Vermutlich fehlt ihm das /dev/hdg2 in der Config. Auch, wenn du ihm das auf faulty gesetzt hast, kommt er bei RAID5 und nur zwei RAID-Devices wohl ins Schleudern.

...

Stattdessen zeigt es seltsame Speicherwerte an. Ich möchte ungern auf's Geratewohl eine weitere Partition einhängen, wenn mit dem aktiven RAID was nicht stimmt.

Also konkret: Woher kommt der input/output error und wie stellt man es ab.

Bei dem relativ kleinen RAID würde ich von beiden bestehenden RAID-Partitionen als erstes ein Backup mit dd machen, um vor Katastrophen bei der Reparatur gesichert zu sein. Danach dann die neue Platte mit ins RAID aufnehmen und dann das RAID wieder synchronisieren. Wenn das nicht klappt, kannst du aus dem Backup wieder die bei den Platten zurückschreiben. Aber vielleicht meldet sich David noch zu Wort, ich glaube, der hat einiges mehr an Erfahrung mit Software-RAID. Sandy -- Antworten bitte nur in die Mailingliste! PMs bitte an: news-reply2 (@) japantest (.) homelinux (.) com -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

David Haller

18:00

Hallo, Am Mon, 26 Jun 2006, Sandy Drobic schrieb:

...

Aber vielleicht meldet sich David noch zu Wort, ich glaube, der hat einiges mehr an Erfahrung mit Software-RAID.

Ich habe genau gar keine Ahnung von RAID[1]... Nur mit normalen Partitionen usw... Ein paar andere kennen sich aber damit aus (IIRC, Andreas?)... -dnh [1] mal abgesehen von Grundlagenwissen was ein RAID ist und wie das Prinzip funktioniert (RAID-level)... -- [ls?] command not found? [..] Das ist ein kleiner Ludwig, gefolgt von einem kleinen Siegfried (zwei muntere Recken, die auszogen, den Drachen zu schrecken). Keine Ida, denn Burgfräulein haben in Heldenrunden nix verloren. Mach einfach mal nur ls (Ludwig-Siegfried, nicht Ida-Siegfried, das könnte unanständig werden *g*), [..] -- Philipp Zacharias in suse-linux -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Sandy Drobic

20:31

David Haller wrote:

...

Hallo,

Am Mon, 26 Jun 2006, Sandy Drobic schrieb:

...
Aber vielleicht meldet sich David noch zu Wort, ich glaube, der hat einiges mehr an Erfahrung mit Software-RAID.

Ich habe genau gar keine Ahnung von RAID[1]... Nur mit normalen Partitionen usw... Ein paar andere kennen sich aber damit aus (IIRC, Andreas?)...

Grübel, wer war der Software-RAID-Crack dann. Ich meine, ich habe hier schon ein paar gute Meldungen dazu gesehen... Okay, eine Suche nach software + raid + suse-linux hat keine Mail hervorgezaubert, die auf einen eindeutigen Crack hinweist. Da hilft wohl nur, sich selbst einzuarbeiten.

...

-dnh

[1] mal abgesehen von Grundlagenwissen was ein RAID ist und wie das Prinzip funktioniert (RAID-level)...

Ich überlege immer noch, ob es sich lohnt, LVM einzusetzen... Sandy -- Antworten bitte nur in die Mailingliste! PMs bitte an: news-reply2 (@) japantest (.) homelinux (.) com -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Peter Wiersig

20:39

On Mon, Jun 26, 2006 at 10:31:18PM +0200, Sandy Drobic wrote:

...

Ich überlege immer noch, ob es sich lohnt, LVM einzusetzen...

Ja, vor allem verkleinern und vergroessern macht Sinn bis jemand meinen Plan von Dateisystemen umsetzt. Richtig schlechte Erfahrungen mit LVM hatte ich selbst, als ein Geometrieproblem eine der beiden Platten unlesbar machte - die Volumegroup war auf beide Platten verteilt und da kann man dann nichts mehr mit anfangen. Aber LVM ueber RAID1 kann ich nur empfehlen - am sinnvollsten dann mit einer Spare. Peter -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Tobias Crefeld

21:57

On Mon, 26 Jun 2006 22:31:18 +0200 Sandy Drobic <suse-linux@japantest.homelinux.com> wrote:

...

...
[1] mal abgesehen von Grundlagenwissen was ein RAID ist und wie das Prinzip funktioniert (RAID-level)...

Ich überlege immer noch, ob es sich lohnt, LVM einzusetzen...

Das hat zwar nichts primär mit RAID zu tun, aber LVM ist schon interessant, wenn man noch nicht so genau weiß, wie groß die Partitionen mal werden sollen. So ein paar Installationen mit RAID-1, die als LVM eingebunden wurden und dann bei Gelegenheit erweitert wurden, habe ich auch schon gemacht. Die Kiste, die mir gerade den Kummer macht, sollte nun mal zur Abwechslung ein RAID-5 bekommen. M.W. sollte man dann aber reiserfs einsetzen, weil nur damit eine Vergrößerung und angeblich auch eine Verkleinerung von Partitionen möglich ist. Gruß, Tobias. -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

David Haller

27 Jun 27 Jun

02:34

Hallo, Am Mon, 26 Jun 2006, Tobias Crefeld schrieb: [LVM]

...

M.W. sollte man dann aber reiserfs einsetzen, weil nur damit eine Vergrößerung und angeblich auch eine Verkleinerung von Partitionen möglich ist.

Quark. Fuer ext2/3 gibt's resize2fs dass beides kann und fuer XFS gibt's xfs_growfs mit dem zumindest vergroessern geht. -dnh -- [..] dass man die Tastatur immer wieder mal saeubern sollte damit nicht irgendwelche froehlich vor sich hinrottenden Essensreste zu boesen Killeramoeben, mutieren die zwischen den Tasten hervorquellen und Plaene schmieden um die Weltherrschaft an sich zu reissen. -- J. Grassler -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Tobias Crefeld

12:01

New subject: LVM

On Tue, 27 Jun 2006 04:34:54 +0200 David Haller <lists@dhaller.de> wrote:

...

Hallo,

Am Mon, 26 Jun 2006, Tobias Crefeld schrieb: [LVM]

...
M.W. sollte man dann aber reiserfs einsetzen, weil nur damit eine Vergrößerung und angeblich auch eine Verkleinerung von Partitionen möglich ist.

Quark. Fuer ext2/3 gibt's resize2fs dass beides kann und fuer XFS gibt's xfs_growfs mit dem zumindest vergroessern geht.

Ist mir neu gewesen, Danke für den Hinweis! Wäre mir lieber, weil ich mit ext2/3 bislang besser klar komme und bei reiser auf SLES auch schon ein paar seltsame Effekte bis hin zum Quasi-Systemstillstand im laufenden Betrieb hatte. Hast Du das tool schon mal ausprobiert - insbesondere hinsichtlich "verkleinern"? Gruß, Tobias.

David Haller

16:26

New subject: LVM

Hallo, Am Die, 27 Jun 2006, Tobias Crefeld schrieb: [resize2fs]

...

Hast Du das tool schon mal ausprobiert - insbesondere hinsichtlich "verkleinern"?

Nein. -dnh -- 2 is a really odd prime... -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Peter Wiersig

28 Jun 28 Jun

09:19

On Tue, Jun 27, 2006 at 04:34:54AM +0200, David Haller wrote:

...

Am Mon, 26 Jun 2006, Tobias Crefeld schrieb:

...
M.W. sollte man dann aber reiserfs einsetzen, weil nur damit eine Vergrößerung und angeblich auch eine Verkleinerung von Partitionen möglich ist.

Quark. Fuer ext2/3 gibt's resize2fs dass beides kann und fuer XFS gibt's xfs_growfs mit dem zumindest vergroessern geht.

Und dann noch: mount(8): Mount options for jfs ... resize=value Resize the volume to value blocks. JFS only supports growing a volume, not shrinking it. This option is only valid during a remount, when the volume is mounted read-write. The resize keyword with no value will grow the volume to the full size of the partition. Peter -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Tobias Crefeld

27 Jun 27 Jun

14:31

On Mon, 26 Jun 2006 18:59:00 +0200 Sandy Drobic <suse-linux@japantest.homelinux.com> wrote:

...

Bei dem relativ kleinen RAID würde ich von beiden bestehenden RAID-Partitionen als erstes ein Backup mit dd machen, um vor Katastrophen bei der Reparatur gesichert zu sein. Danach dann die

Danke für den Tip - hätte ich auch selbst drauf kommen können! Naja, der Wald und die Bäume... ;-) Mittlerweile scheint es zu laufen (fsck't noch) - könnte ein Bug im mdadmn sein - mit dem von Opensuse 10.0 funktionierte es jetzt. Gruß, Tobias.

Sandy Drobic

14:41

Tobias Crefeld wrote:

...

On Mon, 26 Jun 2006 18:59:00 +0200 Sandy Drobic <suse-linux@japantest.homelinux.com> wrote:

...
Bei dem relativ kleinen RAID würde ich von beiden bestehenden RAID-Partitionen als erstes ein Backup mit dd machen, um vor Katastrophen bei der Reparatur gesichert zu sein. Danach dann die

Danke für den Tip - hätte ich auch selbst drauf kommen können! Naja, der Wald und die Bäume... ;-)

Du wirst lachen, aber das ist völlig typisch für den Katastrophenfall, dass man die grundlegenden Vorgehensweisen verschwitzt, wenn es brennt. Ich sitze gerade daran, Notfallpläne für den Ausfall von Diensten/Servern und das Vorgehen im Notfall zu dokumentieren. Man kann nie alles planen, aber das Vorgehen beim Ausfall einer Platte oder eines Dienstes sollte schon dokumentiert sein.

...

Mittlerweile scheint es zu laufen (fsck't noch) - könnte ein Bug im mdadmn sein - mit dem von Opensuse 10.0 funktionierte es jetzt.

Viel Glück! Sandy -- Antworten bitte nur in die Mailingliste! PMs bitte an: news-reply2 (@) japantest (.) homelinux (.) com

Peter Wiersig

26 Jun 26 Jun

19:55

On Mon, Jun 26, 2006 at 03:25:58PM +0200, Tobias Crefeld wrote:

...

Wenn ich versuche, dass RAID zu starten mit mdadm --run /dev/md1 bekomme ich eine Meldung: mdadm: failed to run array /dev/md1: Input/output error

Irgendwelche Ideen, was das heisst bzw. wie es sich reparieren laesst?

Was ergibt ein Vergleich von dmesg vor und nach dem Aufruf von --run? Peter -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Tobias Crefeld

21:51

On Mon, 26 Jun 2006 21:55:15 +0200 Peter Wiersig <peter@friesenpeter.de> wrote:

...

On Mon, Jun 26, 2006 at 03:25:58PM +0200, Tobias Crefeld wrote:

...
Wenn ich versuche, dass RAID zu starten mit mdadm --run /dev/md1 bekomme ich eine Meldung: mdadm: failed to run array /dev/md1: Input/output error

Irgendwelche Ideen, was das heisst bzw. wie es sich reparieren laesst?

Was ergibt ein Vergleich von dmesg vor und nach dem Aufruf von --run?

diff sagt:

...

raid5: device hda3 operational as raid disk 0 raid5: device hdc2 operational as raid disk 1 raid5: cannot start dirty degraded array for md1 RAID5 conf printout: --- rd:3 wd:2 fd:1 disk 0, o:1, dev:hda3 disk 1, o:1, dev:hdc2 raid5: failed to run raid set md1 md: pers->run() failed ...

Gruß, Tobias. -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Rolf Masfelder

27 Jun 27 Jun

08:12

Hallo, Am Montag 26 Juni 2006 23:51 schrieb Tobias Crefeld:

...

On Mon, 26 Jun 2006 21:55:15 +0200 Peter Wiersig

<peter@friesenpeter.de> wrote:

...
On Mon, Jun 26, 2006 at 03:25:58PM +0200, Tobias Crefeld wrote:

...
Wenn ich versuche, dass RAID zu starten mit mdadm --run /dev/md1 bekomme ich eine Meldung: mdadm: failed to run array /dev/md1: Input/output error

Irgendwelche Ideen, was das heisst bzw. wie es sich reparieren laesst?

Was ergibt ein Vergleich von dmesg vor und nach dem Aufruf von --run?

diff sagt:

...
raid5: device hda3 operational as raid disk 0 raid5: device hdc2 operational as raid disk 1 raid5: cannot start dirty degraded array for md1 RAID5 conf printout: --- rd:3 wd:2 fd:1 disk 0, o:1, dev:hda3 disk 1, o:1, dev:hdc2 raid5: failed to run raid set md1 md: pers->run() failed ...

was sagt ein 'cat /proc/mdstat' ? Welche Platte (Partition) hast du aus dem Array entfernt? Hast du mal "mdadm -a /dev/<entfernte Partition>" probiert? was passiert? Ein RAID5 mit nur zwei Platten weigert sich, ein RAID5 mit zwei laufenden und einer eingebundenen Platte die erst noch synchronisiert werden muß sollte aber laufen. Solange das System synchronisiert (cat /proc/mdstat !!) solltest Du das Array in Ruhe lassen.

...

Gruß, Tobias.

Viel Glück -- MfG Rolf Masfelder EMail: rolf.masfelder@nector.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com

Tobias Crefeld

15:12

New subject: Fixed! Re: Software RAID error

On Tue, 27 Jun 2006 10:12:03 +0200 Rolf Masfelder <suse@nector.de> wrote:

...

Hallo, Am Montag 26 Juni 2006 23:51 schrieb Tobias Crefeld:

...
diff sagt:

...
raid5: device hda3 operational as raid disk 0 raid5: device hdc2 operational as raid disk 1 raid5: cannot start dirty degraded array for md1

...

was sagt ein 'cat /proc/mdstat' ? Welche Platte (Partition) hast du aus dem Array entfernt?

Habe jetzt leider keine Verbindung zwischen den PCs gehabt, deswegen nur sinngemäß: Im Kern stehen da die beiden devices (Partitionen) drin und eine Summe von ca. 5300000. Wenn ich eine dritte Partition einbinde, dann ist die mit "2" und "S" markiert. Das Array bleibt aber inactive.

...

Hast du mal "mdadm -a /dev/<entfernte Partition>" probiert? was passiert?

Die ursprüngliche Partition gibt es schon nicht mehr, aber ich habe eine weitere /dev/hdg2 ausreichender Größe angelegt, als RAID-dev mit FD markiert und die wird dann per "hot-add" als spare eingetragen. Deren superblock ist natürlich falsch, aber das sollte ja bei einem spare wurscht sein. Wird auch unter --details so angezeigt, aber sonst tut sich da nichts.

...

Ein RAID5 mit nur zwei Platten weigert sich, ein RAID5 mit zwei laufenden und einer eingebundenen Platte die erst noch synchronisiert werden muß sollte aber laufen. Solange das System synchronisiert (cat /proc/mdstat !!) solltest Du das Array in Ruhe lassen.

Leider läuft da kein Synchronisationsprozeß an. Auch nicht mit einem erneuten --run. Selbe input/output-error-Meldung wie zuvor. Es wird sehr wohl das dritte device als drive[2] gelistet, aber nicht unter den "normalen" active-devices des array, sondern darunter in der Liste der spares. FIX: Das Problem scheint mit dem verwendeten mdadm zusammenzuhängen. Kann natürlich auch ne andere Ursache haben, aber mich irritierten schon länger die immer wieder wechselnden Angaben über die Parameter von mdadm, die bei mir teilweise nicht funktionierten. Bei Opensuse 10.1 ist jedenfalls mdadm V2.2 vom 05.12.2005 dabei. Damit habe ich die ganze Zeit probiert - ohne Erfolg. Dann bin ich mal auf die CD1 Openuse 10.0 gewechselt und habe dort den Reparaturkernel gebootet und damit funktioniert es dann so, wie es soll und wie es auch bei http://www.holviala.com/~kimmy/diary/2005/04/cannot_start_dirty_degraded_arr... beschrieben steht - mit Ausnahme, daß bei mir halt ein reiserfsck statt dem e2fsck anfiel. Die mdadm-Version bei der Opensuse 10.0 ist die V1.12.0 vom 14.06.2005 - mit der geht es. Eine nicht ganz neue Knoppix o.ä. tut es wahrscheinlich genauso. KANN natürlich auch ein Problem des Kernels sein, der sich ja auch seither geändert hat. Glaube ich eher nicht. In Kurzform und auch nur, wenn man sich sicher ist, daß die im "degraded array" verbliebenen Platten in Ordnung sind, heißt das: 1.) Auch bei Opensuse 10.1 mit Opensuse 10.0 in den Reparaturbetrieb booten. 2.) mdadm --assemble --force /dev/md1 /dev/hda3 /dev/hdc2 ... dabei nur die gültigen devices / partitions des betreffenden RAID angeben. md1 kann natürlich auch md0, md2, mdhome usw. heißen. Danach sollte das Array schon aktiv sein - cat /proc/mdstat ist ein guter Tip, war mir neu. 3.) Filesystem checken mit reiserfsck /dev/md1 oder e2fsck /dev/md1 4.) mdadm --add /dev/md1 /dev/hdg2 Ab da läuft es dann von selbst los und synchronisiert relativ schnell. :-) Danke an alle für die Ratschläge, auch wenn der Hund offenbar diesmal woanders begraben lag! Gruß, Tobias.

6822

Age (days ago)

6824

Last active (days ago)

List overview

Download

17 comments

5 participants

participants (5)

David Haller
Peter Wiersig
Rolf Masfelder
Sandy Drobic
Tobias Crefeld