SuSE 10: colgada total!!!!
Buenas, * Hace días me encontré con una cosa muy curiosa (y preocupante): estaba trabajando contra una máquina en la que estoy testeando la SuSE 10.0 vía ssh y se quedó totalmente colgada. Si si, totalmente. Ni mouse ni teclado: congelada. La única manera fue el reset mecánico. Lo reporté a la lista de OpenSuSE pensando que tenía que ver algo con ssh, pero me dijeron que no había ningún bug relacionado, con lo qual seguramente sea un problema de hardware (ethernet o algo así supongo). * La monda ya fue ayer cuando me paso trabajando sobre la misma máquina en local, es decir, si ssh ni nada. Y lo mismo: completamente tirada. No tengo ni idea por dónde puede venir el conflicto, pues es la primera vez desde que sou usuario de GNU/LInux que me pasa esto en un distro. ¿Por dónde empiezo? ¿Qué logs podría husmear con atención? ¿Cómo y con qué monitorizar? Gracias. -- ¡Share your knowledge! Linux user id 332494 # http://counter.li.org/ PGP id 0xC5ABA76A # http://pgp.mit.edu/
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2005-11-03 a las 09:43 +0100, Aquiles escribió:
No tengo ni idea por dónde puede venir el conflicto, pues es la primera vez desde que sou usuario de GNU/LInux que me pasa esto en un distro.
A mi no, varias veces. Por ejemplo, el kernel 2.6.11.4-21.9-default (el actual) del SuSE 9.3 es sabido que se cuelga en determinadas circunstancias, por algo del disco duro, algún driver. Y es posible que ese mismo fallo lo tenga la 10. Yo he tenido que retraerme al 2.6.11.4-21.8-default. Está reportado en la lista de seguridad | Date: Fri, 30 Sep 2005 14:05:35 +0200 (CEST) | From: Carlos E. R. | Subject: [suse-security] repeated kernel crash, posibly after last update (dma_timer_expiry) Anteriormente, el SuSE 8.1 tuvo un fallo muy gordo en el reiserfs que se quedaba frito, eso le pasó a bastante gente; teníamos que poner "barrie=none" en el fstab hasta que quitaron ese código en el kernel. Y recientemente, en el 9.1 el reiser también tuvo un fallo gordo, aunque no siempre catastrófico, en el manejo de ciertos nombres similares (nb3001 y mm3001, por ejemplo).
¿Por dónde empiezo? ¿Qué logs podría husmear con atención?
En el del kernel. - -- Saludos Carlos Robinson -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.0 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFDafJytTMYHG2NR9URAi9UAJ9KdqTq1nrT9J+y6NDwVXQperDv1QCfcL4r f+OKGzcPhtcjllAJWHisjUE= =Kwp7 -----END PGP SIGNATURE-----
En el del kernel.
Ok, a ello me pondré. -- ¡Share your knowledge! Linux user id 332494 # http://counter.li.org/ PGP id 0xC5ABA76A # http://pgp.mit.edu/
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2005-11-03 a las 16:48 +0100, Aquiles escribió:
En el del kernel.
Ok, a ello me pondré.
Por cierto, es posible que se caiga antes de que pueda escribir nada. En mi caso, el cuelgue reciente que mencioné, puedo ver los mensajes si estoy al teclado y me doy cuenta del problema rápidamente, y paso a la consola numero 10. Tengo un margen de unos 5-10 segundos antes de que se quede frito. Luego es cuestión de copiar los mensajes a mano. Si no, creo que la alternativa es hacer que registre los errores a la impresora o al puerto serie, para que los capture otro ordenador. No se como se hace eso, sólo lo he oido mencionar. - -- Saludos Carlos Robinson -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.0 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFDald8tTMYHG2NR9URAjd9AKCUhEt5PEoNnRig4FpEwDPwYRYtNQCfVcLa ayR4+0FU9k4Hrxc2FZrnutU= =RGfU -----END PGP SIGNATURE-----
Hola :) Aquiles wrote:
Buenas,
[...]
¿Por dónde empiezo? ¿Qué logs podría husmear con atención? ¿Cómo y con qué monitorizar?
Sería útil saber qué HW tienes entre manos, si has actualizado, qué estabas haciendo, ... En cuanto a logs, como te ha dicho Carlos, el del kernel y el messages. HTH Rafa
Hola: El jue, 03-11-2005 a las 09:43 +0100, Aquiles escribió:
Buenas,
* Hace días me encontré con una cosa muy curiosa (y preocupante): estaba trabajando contra una máquina en la que estoy testeando la SuSE 10.0 vía ssh y se quedó totalmente colgada. Si si, totalmente. Ni mouse ni teclado: congelada. La única manera fue el reset mecánico. Lo reporté a la lista de OpenSuSE pensando que tenía que ver algo con ssh, pero me dijeron que no había ningún bug relacionado, con lo qual seguramente sea un problema de hardware (ethernet o algo así supongo).
* La monda ya fue ayer cuando me paso trabajando sobre la misma máquina en local, es decir, si ssh ni nada. Y lo mismo: completamente tirada.
No tengo ni idea por dónde puede venir el conflicto, pues es la primera vez desde que sou usuario de GNU/LInux que me pasa esto en un distro.
¿Por dónde empiezo? ¿Qué logs podría husmear con atención? ¿Cómo y con qué monitorizar?
Gracias.
Pues yo acabo de salir de un problema así, y la conclusión afirmó mi teoría, esos cuelgues normalmente se deben a fallas del hardware, comprobé el disco duro corriendo el sistema de reparación insertando el DVD de SuSE y arrancando con el, y cada vez que llegaba a un cierto porcentaje, se pasmaba totalmente, lo curioso es que me daba tambien unos segundos, primero dejaba de responder las X, pero aun tenia el mouse y el teclado, afortunadamente el disco duro se arregló desmagnetizandolo, ahora lo que no me deja dormir es ¿se me habrá dañado información? no lo se, se el número de sector que se estaba magnetizado, pero no se que archivo o archivos eran los que ocupaban ese sector. Es solo una idea, para que tambien lo revises eso. Saludos
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2005-11-04 a las 01:58 -0600, Raquel Paz escribió:
Pues yo acabo de salir de un problema así, y la conclusión afirmó mi teoría, esos cuelgues normalmente se deben a fallas del hardware, comprobé el disco duro corriendo el sistema de reparación insertando el DVD de SuSE y arrancando con el, y cada vez que llegaba a un cierto porcentaje, se pasmaba totalmente, lo curioso es que me daba tambien unos segundos, primero dejaba de responder las X, pero aun tenia el mouse y el teclado, afortunadamente el disco duro se arregló desmagnetizandolo, ahora lo que no me deja dormir es ¿se me habrá dañado información? no lo se, se el número de sector que se estaba magnetizado, pero no se que archivo o archivos eran los que ocupaban ese sector.
Hay un cuelgue similar reportado por varias personas, pero relacionado con el kernel 2.6.11.4-21.9. El sistema de repente se vuelve muy lento y antes de 10 segundos las X se quedan fritas. Es claramente software, se resuelve con el kernel anterior, el 2.6.11.4-21.8. Es probable que el suse 10 esté afectado, no lo se. Y si me daba prisa con saltar a la consola 10 antes de que las X se colgaran, pude ver el mensaje de error: kernel: hdb dma_timer_expiry: dma status= 0x64 Es algo que han cambiado en el driver IDE. Por otra parte, si tienes errores de lectura-escritura en el disco, es normal que el sistema se quede frito al llegar a ellos. Eso se comprueba con el programa badblocks, o con el programa de comprobación del disco duro del fabricante del mismo. Y en los discos modernos, se resuelve simplemente intentando escribir en los sectores con error, porque entonces el "firmware" del propio disco interviene remapeando esos sectores a una zona reservada por el fabricante para esos casos. El sistema operativo ni se entera, salvo porque de repente esos sectores dejan de tener errores. - -- Saludos Carlos Robinson -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.0 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFDbVDdtTMYHG2NR9URAhxBAJ98ULmrFT/YB4p4h6KvVEOWjdCZFQCfTCDe TerfP4R9nMRb1rIH2nbs3xw= =0B7A -----END PGP SIGNATURE-----
Puedes comenzar testeando la memoria, con el utilitario que tienes en
el menu de arranque (por algo está allí).
Saludos,
Juan
El 3/11/05, Aquiles
Buenas,
* Hace días me encontré con una cosa muy curiosa (y preocupante): estaba trabajando contra una máquina en la que estoy testeando la SuSE 10.0 vía ssh y se quedó totalmente colgada. Si si, totalmente. Ni mouse ni teclado: congelada. La única manera fue el reset mecánico. Lo reporté a la lista de OpenSuSE pensando que tenía que ver algo con ssh, pero me dijeron que no había ningún bug relacionado, con lo qual seguramente sea un problema de hardware (ethernet o algo así supongo).
* La monda ya fue ayer cuando me paso trabajando sobre la misma máquina en local, es decir, si ssh ni nada. Y lo mismo: completamente tirada.
No tengo ni idea por dónde puede venir el conflicto, pues es la primera vez desde que sou usuario de GNU/LInux que me pasa esto en un distro.
¿Por dónde empiezo? ¿Qué logs podría husmear con atención? ¿Cómo y con qué monitorizar?
Gracias.
-- ¡Share your knowledge!
Linux user id 332494 # http://counter.li.org/ PGP id 0xC5ABA76A # http://pgp.mit.edu/
participants (5)
-
Aquiles
-
Carlos E. R.
-
Juan Erbes
-
Rafa Grimán
-
Raquel Paz