kernel panic watchdog detected hard lockup on cpu 4

Hallo allerseits, sein einiger Zeit macht mir mein SuSe 12.3 bzw. inzwischen auf gehieftes 13.1 System Sorgen. Der Server bleibt einfach alle 2-3 Tage stehen, ohne Ankündigung. Heute nun sass ich ausnahmsweise mal dovor als es passierte. Auf der Konsole erschein dann folgende Meldung kernel panic - not syncing watchdog detected hard LOCKUP on cpu 4 shutting down cpus with NMI wer weis Rat? Habe ich ein Hardware-Problem?
SuSe 13.1 / 64 bit mit allen Updates Bye Jürgen -- Dr.rer.nat. Jürgen Vollmer, Am Rennbuckel 21, D-76185 Karlsruhe Tel: +49(721) 92 04 87 1 Fax: +49(721) 92 04 87 2 Juergen.Vollmer@informatik-vollmer.de www.informatik-vollmer.de ------------------------------------------------------------------------------- Diese EMail ist elektronisch mittels GPG / PGP signiert. Diese elektronische Unterschrift ist in einem EMail-Anhang enthalten. Leider kann die Signatur ohne die Installation entsprechender Programme weder geprüft noch angezeigt werden. Mehr dazu unter: http://www.gnupg.org oder auch http://www.pgpi.org -------------------------------------------------------------------------------

Hi, On Thu, Dec 19, 2013 at 01:08:58PM +0100, Dr. Juergen Vollmer wrote:
Ich würde auch ein Hardware-Problem vermuten. Einen Speichertest würde ich empfehlen. Zudem eine Aktivierung von Kerneldumps, weil man damit besser nachverfolgen kann was beim oder kurz vorm Crash passierte. Das geht bequem mit "yast2 kdump", wenn yast2-kdump installiert ist. -- Ciao, Stephan Barth SUSE MaintenanceSecurity - SUSE LINUX Products GmbH GF: Jeff Hawn, Jennifer Guild, Felix Imendörffer HRB 21284 (AG Nürnberg) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org

Am 19.12.2013 13:35, schrieb Stephan Barth:
Hi, thermisches Problem? Klingt so, als ob die CPU 4 sich selbst abschaltet. Mal beobachten, ob es immer CPU 4 ist. Könnte dann ein Heat-Sink sein (Kühlkörper locker o.ä.). Wenn es auch mal eine andere CPU ist, könnte die Kühlung generell ein Problem haben... Netzteil wäre auch denkbar, wenn es im entscheidenden Moment die Prozessorspannung nicht bringt, stoppt der auch. Ich denke, da reicht ein Step im "verbotenen" Bereich Kann natürlich auch sein, dass der Prozessor eine Macke hat. Aber ich kenne da nur geht oder geht nicht mehr. Speicher denke ich eher nicht, da kriegst Du eher CRC-Fehler oder unklareres Zeug. Board kann auch sein, obwohl das nach meinen Erfahrungen auch nur geht/nicht geht. Aber denkbar ist, dass es zeitabhängig, weil thermisch bedingt spinnt. Nicht gänzlich unmöglich ist ein Softwareproblem, obwohl ich dazu keine Idee hätte, was es schafft die CPU, noch dazu eine Intel, zum Stop zu bewegen. cu jth -- www.teddylinx.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org

Hi, On Thu, Dec 19, 2013 at 02:01:47PM +0100, Joerg Thuemmler wrote:
Das läßt sich ja ganz gut mit sensors überwachen. Ggfs. per Cronjob.
Das habe ich noch nicht erlebt, dass ein kaputtes Netzteil CPU-Fehler ausgelöst hat. Da sind die Ausfälle dann direkter bzw. dramatischer.
Kann natürlich auch sein, dass der Prozessor eine Macke hat. Aber ich kenne da nur geht oder geht nicht mehr.
Vermutlich, muß aber nicht sein.
Speicherfehler sind heutzutage sehr vielfältig und können sich durch solche Probleme andeuten. CRC-Fehler sind mir schon über 10 Jahre nicht mehr untergekommen. Die sieht wohl eher der Hardwaretester. -- Ciao, Stephan Barth SUSE MaintenanceSecurity - SUSE LINUX Products GmbH GF: Jeff Hawn, Jennifer Guild, Felix Imendörffer HRB 21284 (AG Nürnberg) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org

Hah. Noch jemand. Der Laptop meiner Freundin ist fast schrott (Batterie defekt, sehr starke hitze probleme, obwohl staubfrei) laueft aber noch und wird noch genutzt mit openSUSE 12.3, die Fehlermeldung seh ich auch ab und zu, liegt an der temperatur. Am 23. Dezember 2013 11:50 schrieb Stephan Barth <snbarth@suse.de>:
-- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org

Hallo, Am Montag, 23. Dezember 2013, 11:50:42 schrieb Stephan Barth:
Ich glaube nicht an die Kühlung. Bei mir kam das mit der 12.3 auch vor, aber fast immer eine andere CPU 990X hat sechs / zwölf davon. Leider habe ich mir das Board abgeschossen mit einem Bios update (zur falschen Zeit ein Stromausfall) :(.
-- mit freundlichen Grüßen / best Regards, Günther J. Niederwimmer -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org

Hi Stephan, Am Montag 23 Dezember 2013, 11:50:42 schrieb Stephan Barth:
kurz (ca. 1. Minute vor) vom dem Absturz war die Temperatur der CPU's noch ok, max. 70 Grad C
kann man das irgendwie protokollieren, sensors hat vor dem Absturz alles im grünen Bereich angezeigt
Bye Jürgen -- Dr.rer.nat. Jürgen Vollmer, Am Rennbuckel 21, D-76185 Karlsruhe Tel: +49(721) 92 04 87 1 Fax: +49(721) 92 04 87 2 Juergen.Vollmer@informatik-vollmer.de www.informatik-vollmer.de ------------------------------------------------------------------------------- Diese EMail ist elektronisch mittels GPG / PGP signiert. Diese elektronische Unterschrift ist in einem EMail-Anhang enthalten. Leider kann die Signatur ohne die Installation entsprechender Programme weder geprüft noch angezeigt werden. Mehr dazu unter: http://www.gnupg.org oder auch http://www.pgpi.org -------------------------------------------------------------------------------

Hi, On Fri, Dec 27, 2013 at 02:16:45PM +0100, Dr. Juergen Vollmer wrote:
70°C sind nicht schlimm. Eigentlich, aber eventuell ist das BIOS da sensibel? Eher auszuschließen, aber sicher prüfenswert. Da kein Kerneldump erzeugt wurde, wird es immer wahrscheinlicher, dass der Computer hart ausgeschaltet wird, was ein Hardwarefehler bedeuten könnte. -- Ciao, Stephan Barth SUSE MaintenanceSecurity - SUSE LINUX Products GmbH GF: Jeff Hawn, Jennifer Guild, Felix Imendörffer HRB 21284 (AG Nürnberg) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org

Hallo Stephan m Donnerstag 19 Dezember 2013, 13:35:24 schrieb Stephan Barth:
hab's installiert und aktiviert, nur wo sehe ich das Protokoll, denn inzwischen gab's wieder ein Absturz... Bye Jürgen -- Dr.rer.nat. Jürgen Vollmer, Am Rennbuckel 21, D-76185 Karlsruhe Tel: +49(721) 92 04 87 1 Fax: +49(721) 92 04 87 2 Juergen.Vollmer@informatik-vollmer.de www.informatik-vollmer.de ------------------------------------------------------------------------------- Diese EMail ist elektronisch mittels GPG / PGP signiert. Diese elektronische Unterschrift ist in einem EMail-Anhang enthalten. Leider kann die Signatur ohne die Installation entsprechender Programme weder geprüft noch angezeigt werden. Mehr dazu unter: http://www.gnupg.org oder auch http://www.pgpi.org -------------------------------------------------------------------------------

Hi, On Wed, Dec 25, 2013 at 11:00:37AM +0100, Dr. Juergen Vollmer wrote:
hab's installiert und aktiviert, nur wo sehe ich das Protokoll, denn inzwischen gab's wieder ein Absturz...
Falls ein Kerneldump erzeugt werden könnte, dann befindet sich dieser defaultmäßig unter /var/crash. -- Ciao, Stephan Barth SUSE MaintenanceSecurity - SUSE LINUX Products GmbH GF: Jeff Hawn, Jennifer Guild, Felix Imendörffer HRB 21284 (AG Nürnberg) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org

Hi Stephan, Am Freitag 27 Dezember 2013, 13:55:25 schrieben Sie:
da liegt leider nichts, Jürgen -- Dr.rer.nat. Jürgen Vollmer, Am Rennbuckel 21, D-76185 Karlsruhe Tel: +49(721) 92 04 87 1 Fax: +49(721) 92 04 87 2 Juergen.Vollmer@informatik-vollmer.de www.informatik-vollmer.de ------------------------------------------------------------------------------- Diese EMail ist elektronisch mittels GPG / PGP signiert. Diese elektronische Unterschrift ist in einem EMail-Anhang enthalten. Leider kann die Signatur ohne die Installation entsprechender Programme weder geprüft noch angezeigt werden. Mehr dazu unter: http://www.gnupg.org oder auch http://www.pgpi.org -------------------------------------------------------------------------------
participants (5)
-
Damian Ivanov
-
Dr. Juergen Vollmer
-
Günther J. Niederwimmer
-
Joerg Thuemmler
-
Stephan Barth