werner@wernerroth.de wrote:
Hallo Thomas,
Was ist nun zu tun?
Kannst du mal den powersave daemon ausschalten (chkconfig powersaved off), neubooten: - cat /proc/acpi/thermal_zone/*/trip_points >/tmp/powersave_off_trip_points
Hm, "/proc/acpi/thermal_zone/" gibt es gar nicht in diesem Zustand siehe [1] Ich habe mal manuell den powersave daemon gestoppt "powersave -T", wieder gestartet und noch mal "powersave -T" gemacht, siehe [2]. Fürchte das hilft nichts (die Werte sind gleich).
Du musst das thermal Modul vorher selber laden (das macht der powersave daemon, hab ich vergessen, sorry). Brauch ich aber eigentlich nicht mehr, die Werte mit gestartetem powersaved sind vernuenftig. Ich sehe zwei moegliche Fehlerquellen: 1) Der powersave daemon vertauscht Deine trippoints 2) Der kernel oder das BIOS bauen Mist (kurzzeitig falsch gelesene Temperatur oder was auch immer) Die Meldung im syslog: Jul 5 10:21:59 linux kernel: Critical temperature reached (112 C), shutting down. Tippe bei der Meldung eher auf letzteres, 112 Grad glaube ich nicht, dass Dein Rechner je erreicht hat. Eine thermal zone hat aber eindeutig (BIOS Fehler? Vielleicht doch Staub/Schmutz oder kurzzeitig Luefterloecher abgedeckt?) den Wert 112 gespeichert gehabt. Jul 5 10:21:59 linux kernel: Critical temperature reached (52 C), shutting down. Das kommt, nehme ich an, von der anderen thermal zone ausgeloesten kritischen Temperatur. Man koennte das als Bug sehen, dass er auch fuer diese Zone den code zum "reagiere auf kritische Temperatur" durchlaeuft, aber ausser das der Wert ein bisschen irritiert, nicht schlimm. Fazit: Ich bin mir ziemlich sicher, dass der powersave daemon Deine Trippoints richtig managed, dass heisst POWERSAVE_ENABLE_THERMAL_MANAGEMENT="off" wird wahrscheinlich nichts bringen. Die Temperatur 112 kommt vom BIOS und kann weder vom kernel, noch vom powersaved beeinflusst werden. Einen kernel bug schliesse ich an dieser Stelle eher aus. Die Temperatur muss innerhalb von 10 Sekunden (Takt in der der Kernel die Temperatur checkt) ueber 10 Grad gestiegen sein (von nicht critical (x < 103 C) auf 112 C). Kann der Rechner cpufreq? Wenn ja schalt ihn mal hoch (powersave -f) und schaue, ob es realistisch ist, dass Dein Rechner die Temperatur erreicht (watch -n1 cat /proc/acpi/thermal_zone/*/temperature). Wenn nicht, kannst Du mir gerne mal die Ausgabe von acpidmp >/tmp/acpidmp schicken. Vielleicht finde ich was im ACPI BIOS, kann aber nix versprechen ...
Hmmm, normal steht glaub ich auch im syslog, dass er die Kiste wegen der "critical temperature" runterfaehrt. Ich nehme an die Du hast eine solche Meldung in /var/log/messages ?
Ja, war schon im Originalposting, siehe [4] falls Du größere Stücke benötigst sag Bescheid.
Sorry, hab ich uebersehen. Thomas