Hallo, Am Sonntag, 19. Januar 2003 21:45 schrieb Jan Trippler:
On Son, 19 Jan 2003 at 20:52 (+0100), Torsten Hallmann wrote:
Am Sam, 2003-01-18 um 01.07 schrieb Jan Trippler:
aber der IDE-Bug hat mich beim Aufsetzen eines neuen Fileservers eiskalt erwischt (auf einem Rechner, der vorher klaglos lief) - das hat mich serverseitig nach Debian vertrieben (und da bleibe ich auch)! Ein Fehler dieser Kategorie ist in der Automobilindustrie ein Grund für eine Rückrufaktion. Bei SuSE gabs noch nicht mal eine Warnung auf suse-announce. Das hat mich zum ersten Mal bei SuSE _richtig_ enttäuscht.
1. Ist die Ursache im genauen noch nicht bekannt sondern nur das Symptom.
Aha - und solange die Ursache nicht bekannt ist, lassen wir einfach mal die Kundenrechner abschmieren, die Kunden nach dem Fehler forschen, tagelang neuinstallieren, Datenverluste und Ausfallzeiten riskieren ...
Tolle Einstellung! Eine Mail per suse-announce mit einer Warnung vor diesem Fehler ist also zuviel verlangt, ja? Sorry, aber wenn es bei SuSE _so_ läuft, dann ist bei mir hier und jetzt Schluss mit dem Kauf von SuSE-Produkten.
Ich verstehe deinen Frust. Aber was hätten wir in diese Warnung schreiben können/sollen? "Achtung: Kernel kann abstürzen!" Die verschiedenen Reports konnten bei uns leider nicht nachvollzogen werden. Wir hatten sehr lange keinerlei echte Anhaltspunkte (Kernel-Oops durch ksymoops zum Beispiel). Wie verschwommen das Fehlerbild war kannst du nicht zuletzt daran erkennen, dass hier immer von "dem IDE-Bug" die Rede ist (oft in Verbindung mit der Aussage, dass der nur auf Systemen mit mindestens zwei IDE-Platten auftaucht). Keiner scheint aber jemals genauer gewusst zu haben, was das eigentlich sein soll. Wir auch nicht :-(
2. Stellt sich hier die Frage ob es nicht letztenendes ein Fehler der Hardware ist, wenn Sie auf einen flush-Test merkwürdig reagiert.
Das ich persönlich davon ausgehe das SAMSUNG hier wieder einmal Mist gebaut hat, liegt daran, daß dieses Unternehmen sich vor gar nicht allzulanger Zeit auch einen massiven Brüller in der IDE-Spezifikation seiner Brennerlaufwerke erlaubt hat.
3. Solange die genaue Ursache nicht klar ist, warum sollte sich die SuSE den Schuh anziehen?
Das sehe ich etwas anders. Wenn es tatsächlich einen benennbaren Fehler gibt, dann sollte der uns selbstverständlich interessieren. Das hat erst mal nichts mit "Schuh anziehen" zu tun. Das Problem lag bei "benennbar".
Siehe oben. Es interessiert mich erstmal einen Sch<zensiert>dreck, wer Schuld ist. Ich möchte nur gewarnt werden, wenn es möglich ist.
Richtig.
Der Fehler ist offenbar seit etlichen Tagen bekannt (wenn man sich mal das Archiv hier anschaut), da ist es IMHO nicht zuviel verlangt, wenn SuSE sich mal im Interesse ihrer Kunden dazu äußert.
Ihr habt mitgekriegt, wie lange wir gebraucht haben um das Problem zu fixen (im Endeffekt durch das offizielle Kernel-Update). Das war ein langes "Try and Error". Aber selbst als das Problem offenbar gelöst war, war noch immer nicht klar, was das Problem ursprünglich eigentlich war. Unter http://suse.de/de/private/download/updates/81_i386.html (aber auch im Patch Info zum Update-Kernel) findet sich beispielsweise folgende Information: "Dieses Kernel-Update behebt mehrere Probleme, die zu Abstuerzen oder anderen Fehlfunktionen führen können, insbesondere bei Einsatz von ICP Vortex RAID Controllern und bei Verwendung von mehreren IDE Festplatten im System." Klingt gut - oder? Ich hab mir heute mal erklären lassen wie diese Beschreibung zustande gekommen ist. Tatsächlich wurden ja eine ganze Reihe von Huberts Test-Kerneln durchprobiert. Als dann endlich eine Lösung in dem Sinne gefunden war, dass die Systeme die zuvor instabil waren jetzt stabil liefen, war aber immer noch nicht klar, was genau das ursprüngliche Problem war. Also wurde die wage (aber vermutlich nicht ganz zutreffende) Beschreibung aus den Fehlerreports übernommen in der von "mehreren IDE Festplatten" die Rede war. Tatsächlich waren es wohl die "Barrier Patches" (und frag mich jetzt bitte keiner was das ist :-( ) Seit heute gibt es einen SDB-Artikel zum offiziellen Kernel Update: http://sdb.suse.de/de/sdb/html/81_update_kernel.html Er kam reichlich spät. Das ist leider nicht zu bestreiten.
Wenn das nämlich nicht geschieht, gehe ich im Normalfall von _einzelnen_ _exotischen_ Konfigurationen aus.
So sah es für uns lange Zeit aus. Wie häufig der Fehler tatsächlich auftritt ist zumindest mir immer noch nicht klar. Der entscheidende Punkt war, dass wir selbst kein solches System hatten - und wir haben _viele_ (auch viele unterschiedliche) System. Es war kein böser Wille. Die Sache war schlecht greifbar und ist es in gewisser Weise bis heute geblieben. Hier auf der Liste hat es sich früh etabliert von "dem IDE-Bug" zu sprechen. Dadurch wurde für alle Beteiligten das Gefühl vermittelt es gehe tatsächlich um eine greifbare konkrete Sache. Vor diesem Hintergrund war das scheinbare nicht-reagieren von SuSE natürlich umso erstaunlicher. Ich denke mal das grade die alten Hasen hier auf der Liste wissen, dass weder Hubert Mantel im Speziellen oder unsere Entwickler im Allgemeinen unfähig oder unangagiert wären. Das das Problem nicht früher gelöst und besser kommuniziert wurde hat also bestimmt seine Gründe. Phillip Thomas war damals als Entwickler mit dran am Thema - vielleicht kann er noch mal was zur Historie des Problems sagen. Ich hab Phillip mal bewusst ins Cc genommen, damit er die Mail nicht übersehen kann ;-)
Hätte SuSE mal Laut gegeben, hätte ich mir den Update zweimal überlegt (und hätte jetzt wahrscheinlich noch einen SuSE-Fileserver - wenn auch mit einer älteren Version).
Aber so ist es auch gut: Meine Linux-Updatepolitik (privat + Firma) ist jetzt klar.
Schade. Schöne Grüße aus Bremen hartmut