OT: ArecaRAID: Diskausfall ohne Fehler
Hi, ich weiß, es ist OT, aber da die Areca-RAIDs als Empfehlung für Linux gelten, gibts hier vielleicht ein paar Wissende: Ich habe hier ein ARC-1210 mit 2x1TB SATAs (WD1003FBYX) als RAID1 am Laufen. OS ist OpenSuse 11.4 auf AMD Phenom(tm) II X4/3200, 8GB RAM. Gestern meldete mir das RAID den Ausfall der 2.Platte, degradete, ein Kaltstart brachte nichts. Dann habe ich im Lauf den SATA-Datenstecker der "defekten" Platte gezogen und wieder gesteckt - das RAID startete einen Rebuild und meldete später Erfolg. Bin etwas ratlos, wie ernst ich das nehmen muss: Das RAID-eventlog liefert nix: 2012-03-22 19:55:25 ARC-1210-VOL#00 Complete Rebuild 2012-03-22 15:50:49 ARC-1210-VOL#00 Start Rebuilding 2012-03-22 15:47:50 IDE Channel #03 Device Inserted 2012-03-22 15:47:29 IDE Channel #03 Device Removed 2012-03-22 15:38:26 H/W MONITOR Raid Powered On 2012-03-22 15:35:30 Raid Set # 00 RaidSet Degraded 2012-03-22 15:35:30 ARC-1210-VOL#00 Volume Degraded 2012-03-22 15:30:04 RS232 Terminal VT100 Log In 2012-03-22 15:29:35 Incomplete RAID Discovered 2012-03-22 15:29:35 H/W MONITOR Raid Powered On 2012-03-22 14:54:16 IDE Channel #03 Device Failed 2012-03-22 14:54:16 Raid Set # 00 RaidSet Degraded 2012-03-22 14:54:16 ARC-1210-VOL#00 Volume Degraded SMART liefet auch keinerlei Auffälligkeiten, kein Wert mit Fehlern: (ich habe die uninteressanten Spalten wegen der Umbrüche mal rausgenommen, WHEN-FAILED war immer "-") Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME VALUE WORST THRESH RAW_VALUE 1 Raw_Read_Error_Rate 200 200 051 6 3 Spin_Up_Time 221 173 021 1950 4 Start_Stop_Count 100 100 000 226 5 Reallocated_Sector_Ct 200 200 140 0 7 Seek_Error_Rate 200 200 000 0 9 Power_On_Hours 096 096 000 3024 10 Spin_Retry_Count 100 100 000 0 11 Calibration_Retry_Count 100 100 000 0 12 Power_Cycle_Count 100 100 000 224 192 Power-Off_Retract_Count 200 200 000 223 193 Load_Cycle_Count 200 200 000 2 194 Temperature_Celsius 103 086 000 44 196 Reallocated_Event_Count 200 200 000 0 197 Current_Pending_Sector 200 200 000 0 198 Offline_Uncorrectable 100 253 000 0 199 UDMA_CRC_Error_Count 200 200 000 0 200 Multi_Zone_Error_Rate 100 253 000 0 Die Platten laufen seit ein paar Monaten und bis auf einen nächtlichen Reboot immer durch. Die Temperatur 44°C ist zugleich die höchste, die ich je gesehen habe, soweit ich es nachvollziehen konnte, war sie auch bei dem "Fail" nicht höher. Die Stecker schienen alle ordentlich fest zu sein (haben auch Einraster), das würde ich für wenig wahrscheinlich halten... Gibt es was, was ich testen könnte? Soll ich die Platte reklamieren? Danke für jeden Tipp cu jth -- www.teddylinx.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hi Jörg, Am Freitag, 23. März 2012, 09:34:15 schrieb Joerg Thuemmler:
ich weiß, es ist OT, aber da die Areca-RAIDs als Empfehlung für Linux gelten, gibts hier vielleicht ein paar Wissende: Ich habe hier ein ARC-1210 mit 2x1TB SATAs (WD1003FBYX) als RAID1 am Laufen. OS ist OpenSuse 11.4 auf AMD Phenom(tm) II X4/3200, 8GB RAM. Gestern meldete mir das RAID den Ausfall der 2.Platte, degradete, ein Kaltstart brachte nichts. Dann habe ich im Lauf den SATA-Datenstecker der "defekten" Platte gezogen und wieder gesteckt - das RAID startete einen Rebuild und meldete später Erfolg. Bin etwas ratlos, wie ernst ich das nehmen muss: Das RAID-eventlog liefert nix:
so haben die beiden letzten 2 Arecas die ich noch im Einsatz hatte bei mir auch das langsame Sterben angefangen, degradete RAIDs ohne erkennbaren Grund über einen längeren Zeitraum und dann letztens beide im Abstand von wenigen Tagen erst gejammere des Controllers über einen RAM checksum error (da hilft nur ein kaltstart, sonst hört der schreihals nicht auf) und dann kurz drauf Totalausfall, nur gut das ich den 1. RAM defekt durch einen prophylaktischen Austausch des controllers beseitigt hatte, damit konnte ich von dem 2. nach dessen Ablebens wenigstens noch die Daten retten. 3 Tage später war der dann auch komplett tot. Die arecas waren aber auch alt genug, das muß man zu deren Ehrenrettung auch sagen, im Betrieb wurden meine beiden aber auch ziemlich warm, sowas geht eben nicht ewig gut. Auch wenn sie /etwas/ teurer sind nehme ich aktuell diese: 02:00.0 RAID bus controller: Adaptec AAC-RAID (rev 09) Subsystem: Adaptec ASR5805 und ja ich habe auch noch einen in Reseve liegen. ;-) also nimm es lieber ernst, überprüf die Backup Strategie und kläre jetzt schon wo im Fall der Fälle schneller Ersatz her kommt. Gruss Falk -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am 23.03.2012 11:17, schrieb Falk Sauer:
Hi Jörg,
Am Freitag, 23. März 2012, 09:34:15 schrieb Joerg Thuemmler:
ich weiß, es ist OT, aber da die Areca-RAIDs als Empfehlung für Linux gelten, gibts hier vielleicht ein paar Wissende: Ich habe hier ein ARC-1210 mit 2x1TB SATAs (WD1003FBYX) als RAID1 am Laufen. OS ist OpenSuse 11.4 auf AMD Phenom(tm) II X4/3200, 8GB RAM. Gestern meldete mir das RAID den Ausfall der 2.Platte, degradete, ein Kaltstart brachte nichts. Dann habe ich im Lauf den SATA-Datenstecker der "defekten" Platte gezogen und wieder gesteckt - das RAID startete einen Rebuild und meldete später Erfolg. Bin etwas ratlos, wie ernst ich das nehmen muss: Das RAID-eventlog liefert nix:
so haben die beiden letzten 2 Arecas die ich noch im Einsatz hatte bei mir auch das langsame Sterben angefangen, degradete RAIDs ohne erkennbaren Grund über einen längeren Zeitraum und dann letztens beide im Abstand von wenigen Tagen erst gejammere des Controllers über einen RAM checksum error (da hilft nur ein kaltstart, sonst hört der schreihals nicht auf) und dann kurz drauf Totalausfall, nur gut das ich den 1. RAM defekt durch einen prophylaktischen Austausch des controllers beseitigt hatte, damit konnte ich von dem 2. nach dessen Ablebens wenigstens noch die Daten retten. 3 Tage später war der dann auch komplett tot. Die arecas waren aber auch alt genug, das muß man zu deren Ehrenrettung auch sagen, im Betrieb wurden meine beiden aber auch ziemlich warm, sowas geht eben nicht ewig gut.
Auch wenn sie /etwas/ teurer sind nehme ich aktuell diese:
02:00.0 RAID bus controller: Adaptec AAC-RAID (rev 09) Subsystem: Adaptec ASR5805
und ja ich habe auch noch einen in Reseve liegen. ;-)
also nimm es lieber ernst, überprüf die Backup Strategie und kläre jetzt schon wo im Fall der Fälle schneller Ersatz her kommt.
Gruss Falk
Hi, danke, das fände ich aber bei einem knappen 3/4 Jahr Besitz und etwa 4 Monaten heißem Lauf des Dings ein wenig unpassend. Ich werde mich aber mal umsehen... Backups sind ohnehin Pflichtveranstaltung... Unabhängig davon - an die Daten müsste man doch aber auch ohne RAID rankommen, vorausgesetzt, das RAID hat die Platte nicht zerlegt. Oder gehe ich falsch darin, dass ich eine einzelne Platte bei einem RAID 1 auch wieder einzeln betreiben kann? Müsste ich glatt mal testen, könnte sie ja mal abschalten, abziehen und einzeln wo reinhängen, das müsste ja sogar online gehen... Danke cu jth -- www.teddylinx.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am 23.03.2012 12:21, schrieb Joerg Thuemmler:
Unabhängig davon - an die Daten müsste man doch aber auch ohne RAID rankommen, vorausgesetzt, das RAID hat die Platte nicht zerlegt. Oder gehe ich falsch darin, dass ich eine einzelne Platte bei einem RAID 1 auch wieder einzeln betreiben kann? Müsste ich glatt mal testen, könnte sie ja mal abschalten, abziehen und einzeln wo reinhängen, das müsste ja sogar online gehen...
Kommt drauf an ob und wie der Controller die Platte ggf. noch konfiguriert/eingerichtet hat. Ich würde mich nicht blind drauf verlassen. Gruß Ralf Prengel Manager Customer Care Comline AG Hauert 8 D-44227 Dortmund/Germany Fon +49 231 97575 904 Fax +49 231 97575 257 Mobil +49 151 10831 157 EMail Ralf.Prengel@comline.de www.comline.de Vorstand Stephan Schilling, Erwin Leonhardi Aufsichtsrat Dr. Franz Schoser (Vorsitzender) HR Dortmund B 14570 USt.-ID-Nr. DE 124727422 Für die Erstellung unserer Dokumente benutzen wir die Produkte aus dem Microsoft Office 2007 Paket. Sollte sich ein Anhang in der Mail befinden, der mit einer älteren Office Version nicht geöffnet werden kann, installieren Sie bitte das Compatibility Pack für Office 2007. http://www.microsoft.com/downloads/details.aspx?FamilyID=941b3470-3ae9-4aee-8f43-c6bb74cd1466&DisplayLang=de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo Jörg, danke für Deine Hilfe. ich benutze jetzt das Areaca-Raids für für meinen Scanner. Was muß ich da in der Konsole eingeben? Annelie Joerg Thuemmler schrieb:
Am 23.03.2012 11:17, schrieb Falk Sauer:
Hi Jörg,
Am Freitag, 23. März 2012, 09:34:15 schrieb Joerg Thuemmler:
ich weiß, es ist OT, aber da die Areca-RAIDs als Empfehlung für Linux gelten, gibts hier vielleicht ein paar Wissende: Ich habe hier ein ARC-1210 mit 2x1TB SATAs (WD1003FBYX) als RAID1 am Laufen. OS ist OpenSuse 11.4 auf AMD Phenom(tm) II X4/3200, 8GB RAM. Gestern meldete mir das RAID den Ausfall der 2.Platte, degradete, ein Kaltstart brachte nichts. Dann habe ich im Lauf den SATA-Datenstecker der "defekten" Platte gezogen und wieder gesteckt - das RAID startete einen Rebuild und meldete später Erfolg. Bin etwas ratlos, wie ernst ich das nehmen muss: Das RAID-eventlog liefert nix:
so haben die beiden letzten 2 Arecas die ich noch im Einsatz hatte bei mir auch das langsame Sterben angefangen, degradete RAIDs ohne erkennbaren Grund über einen längeren Zeitraum und dann letztens beide im Abstand von wenigen Tagen erst gejammere des Controllers über einen RAM checksum error (da hilft nur ein kaltstart, sonst hört der schreihals nicht auf) und dann kurz drauf Totalausfall, nur gut das ich den 1. RAM defekt durch einen prophylaktischen Austausch des controllers beseitigt hatte, damit konnte ich von dem 2. nach dessen Ablebens wenigstens noch die Daten retten. 3 Tage später war der dann auch komplett tot. Die arecas waren aber auch alt genug, das muß man zu deren Ehrenrettung auch sagen, im Betrieb wurden meine beiden aber auch ziemlich warm, sowas geht eben nicht ewig gut.
Auch wenn sie /etwas/ teurer sind nehme ich aktuell diese:
02:00.0 RAID bus controller: Adaptec AAC-RAID (rev 09) Subsystem: Adaptec ASR5805
und ja ich habe auch noch einen in Reseve liegen. ;-)
also nimm es lieber ernst, überprüf die Backup Strategie und kläre jetzt schon wo im Fall der Fälle schneller Ersatz her kommt.
Gruss Falk
Hi,
danke, das fände ich aber bei einem knappen 3/4 Jahr Besitz und etwa 4 Monaten heißem Lauf des Dings ein wenig unpassend. Ich werde mich aber mal umsehen... Backups sind ohnehin Pflichtveranstaltung...
Unabhängig davon - an die Daten müsste man doch aber auch ohne RAID rankommen, vorausgesetzt, das RAID hat die Platte nicht zerlegt. Oder gehe ich falsch darin, dass ich eine einzelne Platte bei einem RAID 1 auch wieder einzeln betreiben kann? Müsste ich glatt mal testen, könnte sie ja mal abschalten, abziehen und einzeln wo reinhängen, das müsste ja sogar online gehen...
Danke
cu jth
-- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
participants (4)
-
Falk Sauer
-
Joerg Thuemmler
-
Ralf Prengel
-
teddybaer