[opensuse-es] MCE: The hardware reports a non fatal...
Con cierta frecuencia la cónsola se me queda "congelada" sin que ninguna acción de teclado ni de mause pueda ser reconocida. No me queda más opción que hacer un reset. El problema tiene cierto parecido con este bugzilla: https://bugzilla.novell.com/show_bug.cgi?id=259721 por lo que probé a añadir "noapic" como opción de arranque pero, por lo menos, una vez me ha vuelto a pasar. Rastreando el /var/log/messages he encontrado una correlación entre los bloqueos de pantalla y los siguientes mensajes: Sep 19 12:09:42 clot1 kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0. Sep 19 12:09:42 clot1 kernel: Bank 1: 9000000000000171 Sep 19 12:09:57 clot1 kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0. Sep 19 12:09:57 clot1 kernel: Bank 1: 9000000000000171 Sep 19 12:10:12 clot1 kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0. Sep 19 12:10:12 clot1 kernel: Bank 1: 9000000000000171 Los mensajes suelen repetirse varias veces, como en el caso mostrado, con pocos segundos de diferencia y después el sistema se congela. Pero no siempre: en ocasiones me aparecen esas mismas ristras de mensajes sin que la cosa derive en un bloqueo de pantalla. Agradeceré cualquier pista sobre la posible causa del problema. El s.o. es un Suse 10.2 y la CPU un AMD Duron 800 Saludos, Toni --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-09-19 a las 22:44 +0200, Toni escribió:
Sep 19 12:09:42 clot1 kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0. Sep 19 12:09:42 clot1 kernel: Bank 1: 9000000000000171 Sep 19 12:09:57 clot1 kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0. Sep 19 12:09:57 clot1 kernel: Bank 1: 9000000000000171
Me parece que tienes un problema de memoria. Usa la opción "Memory Test" del arranque para verificarlo; deja corriendo el programa varias horas. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFG8Z2ztTMYHG2NR9URAhQhAJ9e7NypAwMeqw2cD/YIpEkVTPzzHACgmU8P y0iMVuokTYKrkWuk4rdEf6c= =YbcR -----END PGP SIGNATURE-----
Carlos E. R. wrote:
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1
El 2007-09-19 a las 22:44 +0200, Toni escribió:
Sep 19 12:09:42 clot1 kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0. Sep 19 12:09:42 clot1 kernel: Bank 1: 9000000000000171 Sep 19 12:09:57 clot1 kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0. Sep 19 12:09:57 clot1 kernel: Bank 1: 9000000000000171
Me parece que tienes un problema de memoria. Usa la opción "Memory Test" del arranque para verificarlo; deja corriendo el programa varias horas.
- -- Saludos Carlos E.R.
He dejado correr el test de memoria 14h,30m (13 pases) y nada, errors = 0. Ahora he hecho la prueba del algodón: he quitado un banco de memoria, de los dos que había (2 x 250 MB) y lo dejaré así, a ver qué pasa. Según el resultado haré lo mismo con el otro. Contestando a Camaleon: ya me pasaba antes de poner la opción "noapic"; precisamente el ponerla fue por ver si se solucionaba. El foro "Linux Questions", que tu mismo enlazas, quita importancia a esos mensajes del kernel y los relaciona con un posible "overclock". No es mi caso. Bueno, es posible que a fin de cuentas los bloqueos y los mensajes no estén relacionados entre sí (?). Saludos, Toni --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El 21/09/07, Toni escribió:
He dejado correr el test de memoria 14h,30m (13 pases) y nada, errors = 0. Ahora he hecho la prueba del algodón: he quitado un banco de memoria, de los dos que había (2 x 250 MB) y lo dejaré así, a ver qué pasa. Según el resultado haré lo mismo con el otro.
El error te lo reportaba en el banco 1, como hayas quitado el 0... O:-) Tampoco deberías descartar el propio "slot" de memoria, quizá es quién tenga el fallo (tengo una placa en la que me falla el puerto ide de la placa, como no era el cable -se cambió- ni el disco duro -funciona perfecto en su caja usb- sólo me quedó un culpable).
Contestando a Camaleon: ya me pasaba antes de poner la opción "noapic"; precisamente el ponerla fue por ver si se solucionaba. El foro "Linux Questions", que tu mismo enlazas, quita importancia a esos mensajes del kernel y los relaciona con un posible "overclock". No es mi caso. Bueno, es posible que a fin de cuentas los bloqueos y los mensajes no estén relacionados entre sí (?).
En el archivo de la lista del kernel hay algunos mensajes con explicaciones interesantes, echa un vistazo: http://groups.google.com/group/linux.kernel/search?group=linux.kernel&q=MCE%3A+The+hardware+reports+a+non+fatal%2C+correctable+incident+occurred+on+CPU+0&qt_g=Buscar+en+este+grupo Hum, también hay un mensaje -antiguo- de Alan Cox: http://www.uwsg.iu.edu/hypermail/linux/kernel/0412.3/1099.html Saludos, -- Camaleón --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El 21/09/07, Toni <amontfes@yahoo.es> escribió:
He dejado correr el test de memoria 14h,30m (13 pases) y nada, errors = 0. Ahora he hecho la prueba del algodón: he quitado un banco de memoria, de los dos que había (2 x 250 MB) y lo dejaré así, a ver qué pasa. Según el resultado haré lo mismo con el otro.
Contestando a Camaleon: ya me pasaba antes de poner la opción "noapic"; precisamente el ponerla fue por ver si se solucionaba. El foro "Linux Questions", que tu mismo enlazas, quita importancia a esos mensajes del kernel y los relaciona con un posible "overclock". No es mi caso. Bueno, es posible que a fin de cuentas los bloqueos y los mensajes no estén relacionados entre sí (?).
Los errores que ves tienen relación con la variable CONFIG_X86_MCE_NONFATAL de compilación del kernel, es simplemente una característica del kernel para procesadores AMD "Check for non-fatal errors on Athlon/Duron" No es algo que este relacionado con tus cuelgues, lo que te recomiendo es que pruebes cambiando la fuente. Saludos.
El 19/09/07, Toni escribió:
Sep 19 12:09:42 clot1 kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0. Sep 19 12:09:42 clot1 kernel: Bank 1: 9000000000000171 Sep 19 12:09:57 clot1 kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0. Sep 19 12:09:57 clot1 kernel: Bank 1: 9000000000000171 Sep 19 12:10:12 clot1 kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0. Sep 19 12:10:12 clot1 kernel: Bank 1: 9000000000000171
Además de lo sugerido -memoria- por Carlos (en esta lista) y Rajko -volajes- (en la lista inglesa), pregunto: ¿los mensajes de arriba te aparecen sólo al pasar al kernel "noapic" o ya te aparecían antes también? Buscando en Google encontré un mensaje de la lista donde a Gabriel le pasaba lo mismo, no sé si lo llegó a solucionar: http://lists.opensuse.org/opensuse-es/2007-02/msg00212.html Saludos, -- Camaleón --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
participants (4)
-
Camaleón
-
Carlos E. R.
-
Gabriel .
-
Toni