SUSE LINUX und Software-RAID1 - seltsames Problem mit einer HD
Hi! Ich hab hier ein sehr merkwürdiges Problem mit einem Software-RAID unter SUSE LINUX in einem Server: Immer um Mitternacht wird einer von drei Partitionen der /dev/hdc Platte als defekt aus dem RAID rausgenommen. Wenn ich dann morgens mittels "mdadm" die Partition remove und wieder dazu füge, wird das RAID wieder aufgebaut und arbeitet bis Mitternacht einwandfrei. Und zwar jedes Mal. Ich hatte zuerst ein unzureichendes oder defektes Festplattenkabel in Verdacht und hab dieses ausgetauscht. Doch eine Änderung brachte das nicht. Auch mag ich ich eigentlich dran glauben, das diese Platte einen Defekt hat, denn wieso sollte sie dann immer um Mitternacht das RAID kaputt machen? Cronjobs laufen um diese Zeit nicht. Also was kann das sein? Viele Grüße... Frederic -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Hi Frederic, Am Mittwoch, 14. Juni 2006 10:09 schrieb Frederic Daguenet:
Cronjobs laufen um diese Zeit nicht. Also was kann das sein?
bist du sicher? cron.daily ist ein ganz heißer Kandidat für sowas. Gruß Falk -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Hallo Falk,
Cronjobs laufen um diese Zeit nicht. Also was kann das sein? bist du sicher? cron.daily ist ein ganz heißer Kandidat für sowas.
Ja, laut crontab wird cron.daily um 4:14 aufgerufen. Viele Grüße.... Frederic -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Hi Frederic, Am Mittwoch, 14. Juni 2006 10:47 schrieb Frederic Daguenet:
Cronjobs laufen um diese Zeit nicht. Also was kann das sein?
bist du sicher? cron.daily ist ein ganz heißer Kandidat für sowas.
Ja, laut crontab wird cron.daily um 4:14 aufgerufen.
dann könnte es noch irgend ein dienst sein der um 0:00 Uhr sein log rotiert oder aufräumt, squid o.ä. aber lange Rede schwacher Sinn in so einem Fall ist es besser die Platte aus dem Raidverbund heraus zu nehmen und mal ein dd if=/dev/zero of=/dev/hdx zu versuchen oder ein anderes (Test)programm bonnie o.ä. auf die Platte zu hetzen. Wohl wäre mir dabei aber nicht, ich tät vorher erstmal Ersatz beschaffen und die Platte auf einer echten Spielwiese testen, schlimmstenfalls hat man dann eine spare Platte. Ich geb zu ich bin feige wenn es um wichtige Daten geht. Gruß Falk -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Hallo Falk,
dann könnte es noch irgend ein dienst sein der um 0:00 Uhr sein log rotiert oder aufräumt, squid o.ä. aber lange Rede schwacher Sinn in so einem Fall ist es besser die Platte aus dem Raidverbund heraus zu nehmen und mal ein dd if=/dev/zero of=/dev/hdx zu versuchen oder ein anderes (Test)programm bonnie o.ä. auf die Platte zu hetzen.
Was genau passiert bei diesem dd Aufruf?
Wohl wäre mir dabei aber nicht, ich tät vorher erstmal Ersatz beschaffen und die Platte auf einer echten Spielwiese testen, schlimmstenfalls hat man dann eine spare Platte. Ich geb zu ich bin feige wenn es um wichtige Daten geht.
Ein Ersatz wird wohl angeschafft. Aber was mich an einer defekten Platte zweifeln läßt, ist das es immer um die gleiche Zeit geschieht. Viele Grüße.... Frederic -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Hi Frederic, Am Mittwoch, 14. Juni 2006 12:35 schrieb Frederic Daguenet:
und mal ein dd if=/dev/zero of=/dev/hdx zu versuchen oder ein anderes (Test)programm bonnie o.ä. auf die Platte zu hetzen.
Was genau passiert bei diesem dd Aufruf?
die platte wird vom ersten bis zum letzten byte mit nullen überschrieben. mit einem zusätzlichen bs=32000 kann man die Performance bei dieser Aktion noch deutlich steigern. David wird sicherlich gleich wieder sagen das man diese bs doch auf eine plattengeometriespezifische Größe stellen sollte aber ich denke das kommt bei dem test ob die platte tut nicht wirklich drauf an, erst recht wenn man es auf der Spielwiese macht.
Ein Ersatz wird wohl angeschafft. Aber was mich an einer defekten Platte zweifeln läßt, ist das es immer um die gleiche Zeit geschieht.
wie gesagt ich vermute irgendwas bewegt sich doch im System und damit evtl. auf der platte just um 0:00 Uhr, und wenn nicht hast du Ersatz. Das nächste was dann untersucht gehört ist der Speicherverbrauch und die Aktivitäten des Systems gegen 0:00 Uhr, sar könnte dabei dein Freund werden. Gruß Falk -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Hi! So, ich hab das Problem jetzt mal einkreisen können: Um 23:20 läuft ein Script, was Server-Daten tar-t und einige mysql-dumps anlegt. Bei einem dieser tars wird das RAID geplättet. Dann hab ich das RAID wieder aufgebaut und rausgefunden, das das RAID fehlerhaft wird, wenn man aus einem bestimmten Verzeichnis Daten kopiert. Ein fsck hab ich schon drüber laufen lassen über die einzelne HD, aber noch nicht übers RAID. Gruß... Vader -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Hi Frederic, Am Do 15.Juni 2006 14:59 schrieb Frederic Daguenet:
So, ich hab das Problem jetzt mal einkreisen können:
Um 23:20 läuft ein Script, was Server-Daten tar-t und einige mysql-dumps anlegt. Bei einem dieser tars wird das RAID geplättet.
Dann hab ich das RAID wieder aufgebaut und rausgefunden, das das RAID fehlerhaft wird, wenn man aus einem bestimmten Verzeichnis Daten kopiert.
Ein fsck hab ich schon drüber laufen lassen über die einzelne HD, aber noch nicht übers RAID.
ähem, das mußte jetzt mal näher erläutern, das kann nur funktionieren wenn du ein RAID1 verwendest, bei einem RAID5 würde ein fsck über eine einzelne Platte nicht funktionieren. Ich gehe jetzt mal von einem RAID1 aus ... häng die fraglich Platte aus und teste sie separat, wenn sie in Ordnung ist mach das gleiche mit der vermeintlich guten Platte, natürlich nach dem remirror. Ach ja, ich würde mal ein Backup außer der Reihe machen, vorher. Gruß Falk -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Hallo Falk,
ähem, das mußte jetzt mal näher erläutern, das kann nur funktionieren wenn du ein RAID1 verwendest, bei einem RAID5 würde ein fsck über eine einzelne Platte nicht funktionieren.
hab ich irgendwo RAID5 geschrieben? Wenn ja... UPS, sorry. Es ist die ganze Zeit von einem RAID1 die Rede. Soweit ich weiß geht mit LINUX auch nur als Software-RAID RAID1.
häng die fraglich Platte aus und teste sie separat, wenn sie in Ordnung ist mach das gleiche mit der vermeintlich guten Platte, natürlich nach dem remirror.
Hab sie getestet... fsck findet keine Fehler. Die andere teste ich noch. Ich berichte dann.
Ach ja, ich würde mal ein Backup außer der Reihe machen, vorher.
Das mach ich sowieso jeden Tag. Meine Vermutung ist: Auf der RAID-Partition ist ein Filesystemfehler, der immer wieder das RAID platzen läßt. Da wir dann aber beim Rebuild immer wieder diesen Fehler auf die andere Platte übertragen, bleibt dieser erhalten. Gruß... Frederic -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Hallo, Am Freitag 16 Juni 2006 09:49 schrieb Frederic Daguenet:
Hallo Falk,
ähem, das mußte jetzt mal näher erläutern, das kann nur funktionieren wenn du ein RAID1 verwendest, bei einem RAID5 würde ein fsck über eine einzelne Platte nicht funktionieren.
hab ich irgendwo RAID5 geschrieben? Wenn ja... UPS, sorry. Es ist die ganze Zeit von einem RAID1 die Rede. Soweit ich weiß geht mit LINUX auch nur als Software-RAID RAID1.
Ich hab hier SW-RAID5 (!!) laufen (4 x 160GB Brutto => Device mit 480GB Netto).
...
Meine Vermutung ist: Auf der RAID-Partition ist ein Filesystemfehler, der immer wieder das RAID platzen läßt. Da wir dann aber beim Rebuild immer wieder diesen Fehler auf die andere Platte übertragen, bleibt dieser erhalten.
Welches Dateisystem? ReiserFs? Jetzt werden hier einige sagen "Daran wirds liegen!" Ich meine: gutes Dateisystem, aber bitte "man reiserfsck" lesen und entsprechend das System checken....
Gruß... Frederic
viel Glück -- MfG Rolf Masfelder EMail: rolf.masfelder@nector.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Frederic Daguenet wrote:
Hallo Falk,
Cronjobs laufen um diese Zeit nicht. Also was kann das sein?
bist du sicher? cron.daily ist ein ganz heißer Kandidat für sowas.
Ja, laut crontab wird cron.daily um 4:14 aufgerufen.
Hi Gibts denn keine interessanten meldungen im messages/warn ?? Oder durchsuch mal alle anderen Logs nach Einträgen um die Zeit rum wo das raid auseinanderfliegt Könnte es sein dass ein Programm nicht über mdX geht sondern über hdXY und so das Raid irgendwie kaputtiert? Leider kenn ich mich damit zu wenig aus ob das ein Problem darstellt oder nicht, aber ich könnte mir vorstellen dass so das raid aus dem tritt gebracht werden könnte wenn darumherum gestochert wird...?! Grüsse Matti -- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
participants (4)
-
Falk Sauer
-
Frederic Daguenet
-
Matthias Keller
-
Rolf Masfelder