kernel panic watchdog detected hard lockup on cpu 4
cat /proc/cpuinfo
Hallo allerseits, sein einiger Zeit macht mir mein SuSe 12.3 bzw. inzwischen auf gehieftes 13.1 System Sorgen. Der Server bleibt einfach alle 2-3 Tage stehen, ohne Ankündigung. Heute nun sass ich ausnahmsweise mal dovor als es passierte. Auf der Konsole erschein dann folgende Meldung kernel panic - not syncing watchdog detected hard LOCKUP on cpu 4 shutting down cpus with NMI wer weis Rat? Habe ich ein Hardware-Problem? processor : 0 vendor_id : GenuineIntel cpu family : 6 model : 30 model name : Intel(R) Core(TM) i7 CPU 860 @ 2.80GHz stepping : 5 microcode : 0x3 SuSe 13.1 / 64 bit mit allen Updates Bye Jürgen -- Dr.rer.nat. Jürgen Vollmer, Am Rennbuckel 21, D-76185 Karlsruhe Tel: +49(721) 92 04 87 1 Fax: +49(721) 92 04 87 2 Juergen.Vollmer@informatik-vollmer.de www.informatik-vollmer.de ------------------------------------------------------------------------------- Diese EMail ist elektronisch mittels GPG / PGP signiert. Diese elektronische Unterschrift ist in einem EMail-Anhang enthalten. Leider kann die Signatur ohne die Installation entsprechender Programme weder geprüft noch angezeigt werden. Mehr dazu unter: http://www.gnupg.org oder auch http://www.pgpi.org -------------------------------------------------------------------------------
Hi, On Thu, Dec 19, 2013 at 01:08:58PM +0100, Dr. Juergen Vollmer wrote:
sein einiger Zeit macht mir mein SuSe 12.3 bzw. inzwischen auf gehieftes 13.1 System Sorgen. Der Server bleibt einfach alle 2-3 Tage stehen, ohne Ankündigung. Heute nun sass ich ausnahmsweise mal dovor als es passierte. Auf der Konsole erschein dann folgende Meldung
kernel panic - not syncing watchdog detected hard LOCKUP on cpu 4 shutting down cpus with NMI
wer weis Rat? Habe ich ein Hardware-Problem?
Ich würde auch ein Hardware-Problem vermuten. Einen Speichertest würde ich empfehlen. Zudem eine Aktivierung von Kerneldumps, weil man damit besser nachverfolgen kann was beim oder kurz vorm Crash passierte. Das geht bequem mit "yast2 kdump", wenn yast2-kdump installiert ist. -- Ciao, Stephan Barth SUSE MaintenanceSecurity - SUSE LINUX Products GmbH GF: Jeff Hawn, Jennifer Guild, Felix Imendörffer HRB 21284 (AG Nürnberg) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am 19.12.2013 13:35, schrieb Stephan Barth:
Hi,
On Thu, Dec 19, 2013 at 01:08:58PM +0100, Dr. Juergen Vollmer wrote:
sein einiger Zeit macht mir mein SuSe 12.3 bzw. inzwischen auf gehieftes 13.1 System Sorgen. Der Server bleibt einfach alle 2-3 Tage stehen, ohne Ankündigung. Heute nun sass ich ausnahmsweise mal dovor als es passierte. Auf der Konsole erschein dann folgende Meldung
kernel panic - not syncing watchdog detected hard LOCKUP on cpu 4 shutting down cpus with NMI
wer weis Rat? Habe ich ein Hardware-Problem?
Ich würde auch ein Hardware-Problem vermuten. Einen Speichertest würde ich empfehlen. Zudem eine Aktivierung von Kerneldumps, weil man damit besser nachverfolgen kann was beim oder kurz vorm Crash passierte. Das geht bequem mit "yast2 kdump", wenn yast2-kdump installiert ist.
Hi, thermisches Problem? Klingt so, als ob die CPU 4 sich selbst abschaltet. Mal beobachten, ob es immer CPU 4 ist. Könnte dann ein Heat-Sink sein (Kühlkörper locker o.ä.). Wenn es auch mal eine andere CPU ist, könnte die Kühlung generell ein Problem haben... Netzteil wäre auch denkbar, wenn es im entscheidenden Moment die Prozessorspannung nicht bringt, stoppt der auch. Ich denke, da reicht ein Step im "verbotenen" Bereich Kann natürlich auch sein, dass der Prozessor eine Macke hat. Aber ich kenne da nur geht oder geht nicht mehr. Speicher denke ich eher nicht, da kriegst Du eher CRC-Fehler oder unklareres Zeug. Board kann auch sein, obwohl das nach meinen Erfahrungen auch nur geht/nicht geht. Aber denkbar ist, dass es zeitabhängig, weil thermisch bedingt spinnt. Nicht gänzlich unmöglich ist ein Softwareproblem, obwohl ich dazu keine Idee hätte, was es schafft die CPU, noch dazu eine Intel, zum Stop zu bewegen. cu jth -- www.teddylinx.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hi, On Thu, Dec 19, 2013 at 02:01:47PM +0100, Joerg Thuemmler wrote:
thermisches Problem? Klingt so, als ob die CPU 4 sich selbst abschaltet. Mal beobachten, ob es immer CPU 4 ist. Könnte dann ein Heat-Sink sein (Kühlkörper locker o.ä.). Wenn es auch mal eine andere CPU ist, könnte die Kühlung generell ein Problem haben...
Das läßt sich ja ganz gut mit sensors überwachen. Ggfs. per Cronjob.
Netzteil wäre auch denkbar, wenn es im entscheidenden Moment die Prozessorspannung nicht bringt, stoppt der auch. Ich denke, da reicht ein Step im "verbotenen" Bereich
Das habe ich noch nicht erlebt, dass ein kaputtes Netzteil CPU-Fehler ausgelöst hat. Da sind die Ausfälle dann direkter bzw. dramatischer.
Kann natürlich auch sein, dass der Prozessor eine Macke hat. Aber ich kenne da nur geht oder geht nicht mehr.
Vermutlich, muß aber nicht sein.
Speicher denke ich eher nicht, da kriegst Du eher CRC-Fehler oder unklareres Zeug. Board kann auch sein, obwohl das nach meinen Erfahrungen auch nur geht/nicht geht. Aber denkbar ist, dass es zeitabhängig, weil thermisch bedingt spinnt.
Speicherfehler sind heutzutage sehr vielfältig und können sich durch solche Probleme andeuten. CRC-Fehler sind mir schon über 10 Jahre nicht mehr untergekommen. Die sieht wohl eher der Hardwaretester. -- Ciao, Stephan Barth SUSE MaintenanceSecurity - SUSE LINUX Products GmbH GF: Jeff Hawn, Jennifer Guild, Felix Imendörffer HRB 21284 (AG Nürnberg) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hah. Noch jemand. Der Laptop meiner Freundin ist fast schrott
(Batterie defekt, sehr starke hitze probleme, obwohl staubfrei) laueft
aber noch und wird noch genutzt mit openSUSE 12.3, die Fehlermeldung
seh ich auch ab und zu, liegt an der temperatur.
Am 23. Dezember 2013 11:50 schrieb Stephan Barth
Hi,
On Thu, Dec 19, 2013 at 02:01:47PM +0100, Joerg Thuemmler wrote:
thermisches Problem? Klingt so, als ob die CPU 4 sich selbst abschaltet. Mal beobachten, ob es immer CPU 4 ist. Könnte dann ein Heat-Sink sein (Kühlkörper locker o.ä.). Wenn es auch mal eine andere CPU ist, könnte die Kühlung generell ein Problem haben...
Das läßt sich ja ganz gut mit sensors überwachen. Ggfs. per Cronjob.
Netzteil wäre auch denkbar, wenn es im entscheidenden Moment die Prozessorspannung nicht bringt, stoppt der auch. Ich denke, da reicht ein Step im "verbotenen" Bereich
Das habe ich noch nicht erlebt, dass ein kaputtes Netzteil CPU-Fehler ausgelöst hat. Da sind die Ausfälle dann direkter bzw. dramatischer.
Kann natürlich auch sein, dass der Prozessor eine Macke hat. Aber ich kenne da nur geht oder geht nicht mehr.
Vermutlich, muß aber nicht sein.
Speicher denke ich eher nicht, da kriegst Du eher CRC-Fehler oder unklareres Zeug. Board kann auch sein, obwohl das nach meinen Erfahrungen auch nur geht/nicht geht. Aber denkbar ist, dass es zeitabhängig, weil thermisch bedingt spinnt.
Speicherfehler sind heutzutage sehr vielfältig und können sich durch solche Probleme andeuten. CRC-Fehler sind mir schon über 10 Jahre nicht mehr untergekommen. Die sieht wohl eher der Hardwaretester.
-- Ciao,
Stephan Barth
SUSE MaintenanceSecurity - SUSE LINUX Products GmbH GF: Jeff Hawn, Jennifer Guild, Felix Imendörffer HRB 21284 (AG Nürnberg) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
-- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo, Am Montag, 23. Dezember 2013, 11:50:42 schrieb Stephan Barth:
Hi,
On Thu, Dec 19, 2013 at 02:01:47PM +0100, Joerg Thuemmler wrote:
thermisches Problem? Klingt so, als ob die CPU 4 sich selbst abschaltet. Mal beobachten, ob es immer CPU 4 ist. Könnte dann ein Heat-Sink sein (Kühlkörper locker o.ä.). Wenn es auch mal eine andere CPU ist, könnte die Kühlung generell ein Problem haben...
Das läßt sich ja ganz gut mit sensors überwachen. Ggfs. per Cronjob.
Ich glaube nicht an die Kühlung. Bei mir kam das mit der 12.3 auch vor, aber fast immer eine andere CPU 990X hat sechs / zwölf davon. Leider habe ich mir das Board abgeschossen mit einem Bios update (zur falschen Zeit ein Stromausfall) :(.
Netzteil wäre auch denkbar, wenn es im entscheidenden Moment die Prozessorspannung nicht bringt, stoppt der auch. Ich denke, da reicht ein Step im "verbotenen" Bereich
Das habe ich noch nicht erlebt, dass ein kaputtes Netzteil CPU-Fehler ausgelöst hat. Da sind die Ausfälle dann direkter bzw. dramatischer.
Kann natürlich auch sein, dass der Prozessor eine Macke hat. Aber ich kenne da nur geht oder geht nicht mehr.
Vermutlich, muß aber nicht sein.
Speicher denke ich eher nicht, da kriegst Du eher CRC-Fehler oder unklareres Zeug. Board kann auch sein, obwohl das nach meinen Erfahrungen auch nur geht/nicht geht. Aber denkbar ist, dass es zeitabhängig, weil thermisch bedingt spinnt.
Speicherfehler sind heutzutage sehr vielfältig und können sich durch solche Probleme andeuten. CRC-Fehler sind mir schon über 10 Jahre nicht mehr untergekommen. Die sieht wohl eher der Hardwaretester.
-- mit freundlichen Grüßen / best Regards, Günther J. Niederwimmer -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hi Stephan, Am Montag 23 Dezember 2013, 11:50:42 schrieb Stephan Barth:
On Thu, Dec 19, 2013 at 02:01:47PM +0100, Joerg Thuemmler wrote:
thermisches Problem? Klingt so, als ob die CPU 4 sich selbst abschaltet. Mal beobachten, ob es immer CPU 4 ist. Könnte dann ein Heat-Sink sein (Kühlkörper locker o.ä.). Wenn es auch mal eine andere CPU ist, könnte die Kühlung generell ein Problem haben...
Das läßt sich ja ganz gut mit sensors überwachen. Ggfs. per Cronjob.
kurz (ca. 1. Minute vor) vom dem Absturz war die Temperatur der CPU's noch ok, max. 70 Grad C
Netzteil wäre auch denkbar, wenn es im entscheidenden Moment die Prozessorspannung nicht bringt, stoppt der auch. Ich denke, da reicht ein Step im "verbotenen" Bereich
kann man das irgendwie protokollieren, sensors hat vor dem Absturz alles im grünen Bereich angezeigt
Das habe ich noch nicht erlebt, dass ein kaputtes Netzteil CPU-Fehler ausgelöst hat. Da sind die Ausfälle dann direkter bzw. dramatischer.
Kann natürlich auch sein, dass der Prozessor eine Macke hat. Aber ich kenne da nur geht oder geht nicht mehr.
Vermutlich, muß aber nicht sein.
Speicher denke ich eher nicht, da kriegst Du eher CRC-Fehler oder unklareres Zeug. Board kann auch sein, obwohl das nach meinen Erfahrungen auch nur geht/nicht geht. Aber denkbar ist, dass es zeitabhängig, weil thermisch bedingt spinnt.
Speicherfehler sind heutzutage sehr vielfältig und können sich durch solche Probleme andeuten. CRC-Fehler sind mir schon über 10 Jahre nicht mehr untergekommen. Die sieht wohl eher der Hardwaretester.
Bye Jürgen -- Dr.rer.nat. Jürgen Vollmer, Am Rennbuckel 21, D-76185 Karlsruhe Tel: +49(721) 92 04 87 1 Fax: +49(721) 92 04 87 2 Juergen.Vollmer@informatik-vollmer.de www.informatik-vollmer.de ------------------------------------------------------------------------------- Diese EMail ist elektronisch mittels GPG / PGP signiert. Diese elektronische Unterschrift ist in einem EMail-Anhang enthalten. Leider kann die Signatur ohne die Installation entsprechender Programme weder geprüft noch angezeigt werden. Mehr dazu unter: http://www.gnupg.org oder auch http://www.pgpi.org -------------------------------------------------------------------------------
Hi, On Fri, Dec 27, 2013 at 02:16:45PM +0100, Dr. Juergen Vollmer wrote:
Hi Stephan,
Am Montag 23 Dezember 2013, 11:50:42 schrieb Stephan Barth:
On Thu, Dec 19, 2013 at 02:01:47PM +0100, Joerg Thuemmler wrote:
thermisches Problem? Klingt so, als ob die CPU 4 sich selbst abschaltet. Mal beobachten, ob es immer CPU 4 ist. Könnte dann ein Heat-Sink sein (Kühlkörper locker o.ä.). Wenn es auch mal eine andere CPU ist, könnte die Kühlung generell ein Problem haben...
Das läßt sich ja ganz gut mit sensors überwachen. Ggfs. per Cronjob.
kurz (ca. 1. Minute vor) vom dem Absturz war die Temperatur der CPU's noch ok, max. 70 Grad C
70°C sind nicht schlimm. Eigentlich, aber eventuell ist das BIOS da sensibel? Eher auszuschließen, aber sicher prüfenswert. Da kein Kerneldump erzeugt wurde, wird es immer wahrscheinlicher, dass der Computer hart ausgeschaltet wird, was ein Hardwarefehler bedeuten könnte. -- Ciao, Stephan Barth SUSE MaintenanceSecurity - SUSE LINUX Products GmbH GF: Jeff Hawn, Jennifer Guild, Felix Imendörffer HRB 21284 (AG Nürnberg) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo Stephan m Donnerstag 19 Dezember 2013, 13:35:24 schrieb Stephan Barth:
Hi,
On Thu, Dec 19, 2013 at 01:08:58PM +0100, Dr. Juergen Vollmer wrote:
sein einiger Zeit macht mir mein SuSe 12.3 bzw. inzwischen auf gehieftes 13.1 System Sorgen. Der Server bleibt einfach alle 2-3 Tage stehen, ohne Ankündigung. Heute nun sass ich ausnahmsweise mal dovor als es passierte. Auf der Konsole erschein dann folgende Meldung
kernel panic - not syncing watchdog detected hard LOCKUP on cpu 4 shutting down cpus with NMI
wer weis Rat? Habe ich ein Hardware-Problem?
Ich würde auch ein Hardware-Problem vermuten. Einen Speichertest würde ich empfehlen. Zudem eine Aktivierung von Kerneldumps, weil man damit besser nachverfolgen kann was beim oder kurz vorm Crash passierte. Das geht bequem mit "yast2 kdump", wenn yast2-kdump installiert ist.
hab's installiert und aktiviert, nur wo sehe ich das Protokoll, denn inzwischen gab's wieder ein Absturz... Bye Jürgen -- Dr.rer.nat. Jürgen Vollmer, Am Rennbuckel 21, D-76185 Karlsruhe Tel: +49(721) 92 04 87 1 Fax: +49(721) 92 04 87 2 Juergen.Vollmer@informatik-vollmer.de www.informatik-vollmer.de ------------------------------------------------------------------------------- Diese EMail ist elektronisch mittels GPG / PGP signiert. Diese elektronische Unterschrift ist in einem EMail-Anhang enthalten. Leider kann die Signatur ohne die Installation entsprechender Programme weder geprüft noch angezeigt werden. Mehr dazu unter: http://www.gnupg.org oder auch http://www.pgpi.org -------------------------------------------------------------------------------
Hi, On Wed, Dec 25, 2013 at 11:00:37AM +0100, Dr. Juergen Vollmer wrote:
hab's installiert und aktiviert, nur wo sehe ich das Protokoll, denn inzwischen gab's wieder ein Absturz...
Falls ein Kerneldump erzeugt werden könnte, dann befindet sich dieser defaultmäßig unter /var/crash. -- Ciao, Stephan Barth SUSE MaintenanceSecurity - SUSE LINUX Products GmbH GF: Jeff Hawn, Jennifer Guild, Felix Imendörffer HRB 21284 (AG Nürnberg) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hi Stephan, Am Freitag 27 Dezember 2013, 13:55:25 schrieben Sie:
Hi,
On Wed, Dec 25, 2013 at 11:00:37AM +0100, Dr. Juergen Vollmer wrote:
hab's installiert und aktiviert, nur wo sehe ich das Protokoll, denn inzwischen gab's wieder ein Absturz...
Falls ein Kerneldump erzeugt werden könnte, dann befindet sich dieser defaultmäßig unter /var/crash.
da liegt leider nichts, Jürgen -- Dr.rer.nat. Jürgen Vollmer, Am Rennbuckel 21, D-76185 Karlsruhe Tel: +49(721) 92 04 87 1 Fax: +49(721) 92 04 87 2 Juergen.Vollmer@informatik-vollmer.de www.informatik-vollmer.de ------------------------------------------------------------------------------- Diese EMail ist elektronisch mittels GPG / PGP signiert. Diese elektronische Unterschrift ist in einem EMail-Anhang enthalten. Leider kann die Signatur ohne die Installation entsprechender Programme weder geprüft noch angezeigt werden. Mehr dazu unter: http://www.gnupg.org oder auch http://www.pgpi.org -------------------------------------------------------------------------------
participants (5)
-
Damian Ivanov
-
Dr. Juergen Vollmer
-
Günther J. Niederwimmer
-
Joerg Thuemmler
-
Stephan Barth