Festplattenproblem, Absturz nach schreibendem Zugriff
Hallo, ein Server stürzt manchmal völlig bei einem schreibenden Zugriff ab. Dabei ist es egal, ob über das Netzwerk auf ein NFS Share geschreiben oder lokal gearbeitet wird, weshalb ich Netzwerk/NFS/Clientprogramme als Ursache mittlerweile ausschließe. D. h. es ist kein login (weder remote noch lokal) möglich, er läßt sich nicht mehr herunterfahren und es hilft nur noch ein Hardware-Reset. In den Logfiles ist nichts ungewöhnliches zu erkennen, ein Filesystem Check bringt keine Fehler. Der Server hat zwei Partitionen (beides Raid Arrays am internen Hardware Controller), eine als / und eine als /home gemountet. Das Problem tritt nur bei einem schreibenden Zugriff auf /home auf, weshalb ich auch den Raidcontroller als Fehlerquelle für unwahrscheinlich halte. Bleibt noch ein Hardwareschaden an einer der Platten. Dazu die Frage: wie findet man so etwas heraus? Es handel sich um Platten von Fujitsu (MAJ3182ML). Oder hat jemand sonst noch eine Idee woran es liegen könnte? Der Server ist ein Dell PowerEdge 2400 mit onBoard Raid Controller Perc2/Si mit SuSE Prof. 9.2. Danke, Verena
Verena Ruff, Donnerstag, 5. Mai 2005 09:24:
Bleibt noch ein Hardwareschaden an einer der Platten. Dazu die Frage: wie findet man so etwas heraus?
badblocks kennst Du? Da gäbe es v.a. die Optionen -n und -w, welch letztere allerdings mit Vorsicht zu genießen ist. Du könntest mit dd if=/dev/pladde of=/dev/null gucken, ob man Deine Platten von Anfang bis Ende auslesen kann. Memtest gemacht? -- Antworten an lists@feile.net werden in /dev/null archiviert! Bitte ggf. lists... durch mail... ersetzen. Andreas Feile www.feile.net
Hallo Verena, das Problem hatte ich mehrfach mit den Versionen 9.1 und 9.2 - die 9.3 scheint da etwas weiter zu sein. Wenn ich den DMA-Modus ausgeschaltet habe, hatte ich erfahrungsgemäss keine Probleme. Es passiert bei solchen brutalen Abstürzen zumeist folgdes, dass der IDE- bzw. RAID-Controller im DMA Modus ein Byte schlabbert und damit den aktuellen Transfer nie beendet. In der 9.1 und 9.2 trat es häufig auf, dass bei der Installation alles ok war und beim ersten Booten das Schreiben daneben ging. Die Festplatten können dieses Problem beeinflussen, wenn z.B. sehr lange IDE-Kabel verwendet werden, freie Kabelenden nach der letzten Platte existieren, etc. Ich würde an Deiner Stelle mal die 9.3 versuchen. Das IDE und das SCSI-Interface hat hier grosse Fortschritte gemacht und läuft viel fehlertoleranter. Ausserdem ist mir mal bei einem Server folgendes passiert, das den gleichen Effekt hatte: Ich hatte das Timing zu aggressiv eingestellt und es kam zu den gleichen Problemen. Entweder FSB-Frequency oder CPU-Clock. Der ISE und vielfach auch der SCSI-Transfer setzt voraus, dass die beteiligten Komponenten quasi fliegend miteinander harmonieren - eine kleine Abweichung und Du bist als Admin gefordert. -- Viel Erfolg und einen schönen Feiertag Bernd
Verena Ruff wrote:
Hallo,
ein Server stürzt manchmal völlig bei einem schreibenden Zugriff ab. Dabei ist es egal, ob über das Netzwerk auf ein NFS Share geschreiben oder lokal gearbeitet wird, weshalb ich Netzwerk/NFS/Clientprogramme als Ursache mittlerweile ausschließe. D. h. es ist kein login (weder remote noch lokal) möglich, er läßt sich nicht mehr herunterfahren und es hilft nur noch ein Hardware-Reset.
Das klingt nach einem Hardware- oder Kernel-Problem.
In den Logfiles ist nichts ungewöhnliches zu erkennen, ein Filesystem Check bringt keine Fehler.
Was für ein Dateisystem?
Der Server hat zwei Partitionen (beides Raid Arrays am internen Hardware Controller), eine als / und eine als /home gemountet. Das Problem tritt nur bei einem schreibenden Zugriff auf /home auf, weshalb ich auch den Raidcontroller als Fehlerquelle für unwahrscheinlich halte. Bleibt noch ein Hardwareschaden an einer der Platten. Dazu die Frage: wie findet man so etwas heraus? Es handel sich um Platten von Fujitsu (MAJ3182ML). Oder hat jemand sonst noch eine Idee woran es liegen könnte? Der Server ist ein Dell PowerEdge 2400 mit onBoard Raid Controller Perc2/Si mit SuSE Prof. 9.2.
Laut der Doku von Dell (5 MINUTEN SUCHE NOTWENDIG!!) handelt es sich um einen Adaptec RAID-Controller, welche Version habe ich leider nicht gesehen. Ich hatte ein ähnliches Problem mit einem Adaptec RAID, was nur zu beheben war, indem ich Kernel 2.4 verwendete, sprich zu Suse 9.0 zurückging. Das Problem hängt mit dem aac-raid Modul zusammen, das ich einfach nicht robust zum Laufen bekommen habe. Bei mir gab es ebenfalls harte Hänger bei Samba-Schreibzugriffen, wo nur noch ein Reset half. Wenn du die Liste nach Adaptec + RAID + Kernel 2.6 durchsuchst, dann wirst du auf viele verärgerte Hilfeschreie treffen. Inzwischen mache ich einen großen Bogen um Adaptec RAID-Controller, wenn Kernel 2.6 eingesetzt werden soll. Sandy
participants (4)
-
Andreas Feile
-
Bernd Glueckert
-
Sandy Drobic
-
Verena Ruff