[opensuse-es] error y cuelgue
Hola a todos ! Alguien ha visto este error error?. El servidor se colgó completamente fue necesario reiniciar... ----------------------------------------------------------------------------------------------------- [4100099.449913] BUG: unable to handle kernel NULL pointer deref [4100099.458867] IP: [<ffffffff81443405>] _raw_spin_lock+0x5/0x20 [4100099.465407] PGD 0 [4100099.467855] Oops: 0002 [#1] SMP 191 out of 192 cpus in kdb, waiting for the rest, timeout in 10 second(s) ...1 cpu is not in kdb, its state is unknown Entering kdb (current=0xffff88042d902380, pid 1539) on processor 27 Oops: (null due to oops @ 0xffffffff81443405 r15 = 0xffff8823533b4dc0 r14 = 0xffff88042d905e80 r13 = 0xffff881baddca200 r12 = 0xffff880baf660a00 bp = 0x0000000000003ea8 bx = 0x0000000000004eb4 r11 = 0xffffffffa0021d70 r10 = 0x0000000000000007 r9 = 0x0000000000000000 r8 = 0x0000000000000000 ax = 0x0000000000010000 cx = 0xffff8823584207c8 dx = 0x0000000000003ea8 si = 0xffff8823584207c0 di = 0x0000000000000040 orig_ax = 0xffffffffffffffff ip = 0xffffffff81443405 cs = 0x0000000000000010 flags = 0x0000000000010002 sp = 0xffff88042d905d60 ss = 0x0000000000000018 ®s = 0xffff88042d905cc8 [27]kdb> ----------------------------------------------------------------------------------- -- Raphael Verdugo P. -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
2014-06-06 18:02 GMT-03:00 Raphael Verdugo P.
Hola a todos !
Alguien ha visto este error error?. El servidor se colgó completamente fue necesario reiniciar...
-----------------------------------------------------------------------------------------------------
[4100099.449913] BUG: unable to handle kernel NULL pointer deref [4100099.458867] IP: [<ffffffff81443405>] _raw_spin_lock+0x5/0x20 [4100099.465407] PGD 0 [4100099.467855] Oops: 0002 [#1] SMP 191 out of 192 cpus in kdb, waiting for the rest, timeout in 10 second(s) ...1 cpu is not in kdb, its state is unknown
Entering kdb (current=0xffff88042d902380, pid 1539) on processor 27 Oops: (null due to oops @ 0xffffffff81443405 r15 = 0xffff8823533b4dc0 r14 = 0xffff88042d905e80 r13 = 0xffff881baddca200 r12 = 0xffff880baf660a00 bp = 0x0000000000003ea8 bx = 0x0000000000004eb4 r11 = 0xffffffffa0021d70 r10 = 0x0000000000000007 r9 = 0x0000000000000000 r8 = 0x0000000000000000 ax = 0x0000000000010000 cx = 0xffff8823584207c8 dx = 0x0000000000003ea8 si = 0xffff8823584207c0 di = 0x0000000000000040 orig_ax = 0xffffffffffffffff ip = 0xffffffff81443405 cs = 0x0000000000000010 flags = 0x0000000000010002 sp = 0xffff88042d905d60 ss = 0x0000000000000018 ®s = 0xffff88042d905cc8 [27]kdb> -----------------------------------------------------------------------------------
192 CPU'S? Segun lo que pones IP: [<ffffffff81443405>] el problema se origina allí. Habría que ver los logs en forma más extensiva. Si realmente se trata de una dirección IP como dice, puedes ser que se trate de un ataque DOS por ICMP. Pero también, amen de revisar el hardware, hay que revisar las opciones de compilación del kernel y la configuración del firewall. Recuerdo que en otros tiempos, a un windows NT, lo volteabamos en 2 minutos, mandandole paquetes incompletos. Por esos mismos tiempos, los kernels linux, eran compilados con modulos para prevenir ese tipo de ataques, si mal no recuerdo, creo que era icmp cut. https://www.suse.com/documentation/sles11/singlehtml/book_hardening/book_har... -- USA LINUX OPENSUSE QUE ES SOFTWARE LIBRE, NO NECESITAS PIRATEAR NADA Y NI TE VAS A PREOCUPAR MAS POR LOS VIRUS Y SPYWARES: http://www.opensuse.org/es/ Puedes visitar mi blog en: http://jerbes.blogspot.com.ar/ -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
2014-06-06 23:51 GMT-04:00 Juan Erbes
2014-06-06 18:02 GMT-03:00 Raphael Verdugo P.
: Hola a todos !
Alguien ha visto este error error?. El servidor se colgó completamente fue necesario reiniciar...
-----------------------------------------------------------------------------------------------------
192 CPU'S?
Segun lo que pones IP: [<ffffffff81443405>] el problema se origina allí.
Habría que ver los logs en forma más extensiva.
Si realmente se trata de una dirección IP como dice, puedes ser que se trate de un ataque DOS por ICMP. Pero también, amen de revisar el hardware, hay que revisar las opciones de compilación del kernel y la configuración del firewall.
Recuerdo que en otros tiempos, a un windows NT, lo volteabamos en 2 minutos, mandandole paquetes incompletos. Por esos mismos tiempos, los kernels linux, eran compilados con modulos para prevenir ese tipo de ataques, si mal no recuerdo, creo que era icmp cut.
https://www.suse.com/documentation/sles11/singlehtml/book_hardening/book_har...
Sí, 192 CPUs, volvió a colgarse, pero con un error ligeramente distinto: ---------------------------------------------------------------------------------------------------------------------------------------------- login: [22159.145146] kernel tried to execute NX-protected page - exploit attempt? (uid: 1018) [22159.153801] BUG: unable to handle kernel paging request at ffff88042e475e20 [22159.161604] IP: [<ffff88042e475e20>] 0xffff88042e475e1f [22159.167515] PGD 1a04063 PUD 42e222063 PMD 42e0a2063 PTE 800000042e475163 [22159.175047] Oops: 0011 [#1] SMP Entering kdb (current=0xffff8823acd5e3c0, pid 10201) on processor 38 Oops: (null) due to oops @ 0xffff88042e475e20 r15 = 0x000000000000000e r14 = 0x000000000000004d r13 = 0xffff882360e357f0 r12 = 0x000000000000000c bp = 0x000000000000000e bx = 0xffffea007b917000 r11 = 0xffff88042e475e20 r10 = 0xffffea007b91700c r9 = 0x0000000000014892 r8 = 0x0000000000014894 ax = 0x0000000000000001 cx = 0x0000000000014850 dx = 0x0000000000000000 si = 0x0000000000000206 di = 0xffffea007b917000 orig_ax = 0xffffffffffffffff ip = 0xffff88042e475e20 cs = 0x0000000000000010 flags = 0x0000000000010206 sp = 0xffff8823acf1bcd0 ss = 0x0000000000000018 ®s = 0xffff8823acf1bc38 [38]kdb> -------------------------------------------------------------------------------------------------------------------------------------------- -- Raphael Verdugo P. -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
On 2014-06-07 06:02, Raphael Verdugo P. wrote:
Sí, 192 CPUs, volvió a colgarse, pero con un error ligeramente distinto:
---------------------------------------------------------------------------------------------------------------------------------------------- login: [22159.145146] kernel tried to execute NX-protected page - exploit attempt? (uid: 1018) [22159.153801] BUG: unable to handle kernel paging request at ffff88042e475e20 [22159.161604] IP: [<ffff88042e475e20>] 0xffff88042e475e1f [22159.167515] PGD 1a04063 PUD 42e222063 PMD 42e0a2063 PTE 800000042e475163 [22159.175047] Oops: 0011 [#1] SMP
Yo tengo uno algo parecido, que seguramente no tendrá nada que ver: ************************************* [62148.7840471] BUG: unable to handle kernel paging request at ffffc90019d54250 [62148.7840454] IP: [<ffffffff8105e7a9>] get_next_timer_interrupt+0xa9/0x270 [62148.7840456] PGD 23f027067 PUD 23f028067 PMD 19b255067 PTE 0 [62148.7840457] Oops: 0000 [#1] PREEMPT SMP ************************************* En mi caso, se dispara al escribir con "dd .... conv=fdatasync" en particiones reiserfs. -- Cheers / Saludos, Carlos E. R. (from 13.1 x86_64 "Bottle" at Telcontar)
El sáb, 07-06-2014 a las 00:51 -0300, Juan Erbes escribió:
2014-06-06 18:02 GMT-03:00 Raphael Verdugo P.
: Hola a todos !
Alguien ha visto este error error?. El servidor se colgó completamente fue necesario reiniciar...
-----------------------------------------------------------------------------------------------------
[4100099.449913] BUG: unable to handle kernel NULL pointer deref [4100099.458867] IP: [<ffffffff81443405>] _raw_spin_lock+0x5/0x20 [4100099.465407] PGD 0 [4100099.467855] Oops: 0002 [#1] SMP 191 out of 192 cpus in kdb, waiting for the rest, timeout in 10 second(s) ...1 cpu is not in kdb, its state is unknown
Entering kdb (current=0xffff88042d902380, pid 1539) on processor 27 Oops: (null due to oops @ 0xffffffff81443405 r15 = 0xffff8823533b4dc0 r14 = 0xffff88042d905e80 r13 = 0xffff881baddca200 r12 = 0xffff880baf660a00 bp = 0x0000000000003ea8 bx = 0x0000000000004eb4 r11 = 0xffffffffa0021d70 r10 = 0x0000000000000007 r9 = 0x0000000000000000 r8 = 0x0000000000000000 ax = 0x0000000000010000 cx = 0xffff8823584207c8 dx = 0x0000000000003ea8 si = 0xffff8823584207c0 di = 0x0000000000000040 orig_ax = 0xffffffffffffffff ip = 0xffffffff81443405 cs = 0x0000000000000010 flags = 0x0000000000010002 sp = 0xffff88042d905d60 ss = 0x0000000000000018 ®s = 0xffff88042d905cc8 [27]kdb> -----------------------------------------------------------------------------------
192 CPU'S?
Segun lo que pones IP: [<ffffffff81443405>] el problema se origina allí.
Habría que ver los logs en forma más extensiva.
Si realmente se trata de una dirección IP como dice, puedes ser que se trate de un ataque DOS por ICMP.
No os liéis, aunque se llame ip se refiere a "instruction pointer" o contador de programa de la CPU. Yo empezaría pasandole un test de RAM. -- Saludos Lluis -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
On 2014-06-07 05:51, Juan Erbes wrote:
Segun lo que pones IP: [<ffffffff81443405>] el problema se origina allí.
Habría que ver los logs en forma más extensiva.
Si realmente se trata de una dirección IP como dice, puedes ser que se trate de un ataque DOS por ICMP.
IP es "instruction pointer", el puntero de instrucciones o contador de programa. Nada que ver con redes. -- Cheers / Saludos, Carlos E. R. (from 13.1 x86_64 "Bottle" at Telcontar)
El día 7 de junio de 2014, 8:43, Carlos E. R.
On 2014-06-07 05:51, Juan Erbes wrote:
Segun lo que pones IP: [<ffffffff81443405>] el problema se origina allí.
Habría que ver los logs en forma más extensiva.
Si realmente se trata de una dirección IP como dice, puedes ser que se trate de un ataque DOS por ICMP.
IP es "instruction pointer", el puntero de instrucciones o contador de programa. Nada que ver con redes.
Nada que ver con las redes??? Y esto que es???: login: [22159.145146] kernel tried to execute NX-protected page - exploit attempt? (uid: 1018) Según el log que pone el colistero, allí empieza el cuelgue! Mira cuantas referencias: https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1085783 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/767927 https://jira.hpdd.intel.com/browse/LU-1925 https://lists.debian.org/debian-kernel/2012/11/msg00556.html https://groups.google.com/forum/#!topic/linux.kernel/f_F7-enYJR8 En este dice que el causante del fallo es el modulo test_nx (no quiere decir que sea el mismo modulo que le causa problemas, pero seguro que es algo de NX): https://forums.gentoo.org/viewtopic-t-937738-start-0.html Yes, not building test_nx has stopped the system from freezing. I forgot to mention before, though, that I was also getting an error at bootup: /etc/init.d/modules: line 59: 1613 killed modprobe -q test_nx Failed to load module test_nx Salu2 -- USA LINUX OPENSUSE QUE ES SOFTWARE LIBRE, NO NECESITAS PIRATEAR NADA Y NI TE VAS A PREOCUPAR MAS POR LOS VIRUS Y SPYWARES: http://www.opensuse.org/es/ Puedes visitar mi blog en: http://jerbes.blogspot.com.ar/ -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El día 7 de junio de 2014, 12:00, Juan Erbes
El día 7 de junio de 2014, 8:43, Carlos E. R.
escribió: On 2014-06-07 05:51, Juan Erbes wrote:
Segun lo que pones IP: [<ffffffff81443405>] el problema se origina allí.
Habría que ver los logs en forma más extensiva.
Si realmente se trata de una dirección IP como dice, puedes ser que se trate de un ataque DOS por ICMP.
IP es "instruction pointer", el puntero de instrucciones o contador de programa. Nada que ver con redes.
Nada que ver con las redes???
Y esto que es???:
login: [22159.145146] kernel tried to execute NX-protected page - exploit attempt? (uid: 1018)
Según el log que pone el colistero, allí empieza el cuelgue!
Mira cuantas referencias: https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1085783
https://bugs.launchpad.net/ubuntu/+source/linux/+bug/767927
https://jira.hpdd.intel.com/browse/LU-1925
https://lists.debian.org/debian-kernel/2012/11/msg00556.html
https://groups.google.com/forum/#!topic/linux.kernel/f_F7-enYJR8
En este dice que el causante del fallo es el modulo test_nx (no quiere decir que sea el mismo modulo que le causa problemas, pero seguro que es algo de NX): https://forums.gentoo.org/viewtopic-t-937738-start-0.html Yes, not building test_nx has stopped the system from freezing. I forgot to mention before, though, that I was also getting an error at bootup: /etc/init.d/modules: line 59: 1613 killed modprobe -q test_nx Failed to load module test_nx
Creo que lo más seguro, sería dejar de lado ese sistema de administración, basado en NX, y poner webmin o alguno similar. Salu2 -- USA LINUX OPENSUSE QUE ES SOFTWARE LIBRE, NO NECESITAS PIRATEAR NADA Y NI TE VAS A PREOCUPAR MAS POR LOS VIRUS Y SPYWARES: http://www.opensuse.org/es/ Puedes visitar mi blog en: http://jerbes.blogspot.com.ar/ -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
2014-06-07 11:03 GMT-04:00 Juan Erbes
redes???
Y esto que es???:
login: [22159.145146] kernel tried to execute NX-protected page - exploi
Creo que lo más seguro, sería dejar de lado ese sistema de administración, basado en NX, y poner webmin o alguno similar.
NoMachine, FreeNX , es un tema distinto (1) NX mencionado en el error es referente a la CPU 1 http://es.wikipedia.org/wiki/Tecnolog%C3%ADa_NX -- Raphael Verdugo P. -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El día 7 de junio de 2014, 18:50, Raphael Verdugo P.
2014-06-07 11:03 GMT-04:00 Juan Erbes
: redes???
Y esto que es???:
login: [22159.145146] kernel tried to execute NX-protected page - exploi
Creo que lo más seguro, sería dejar de lado ese sistema de administración, basado en NX, y poner webmin o alguno similar.
NoMachine, FreeNX , es un tema distinto (1)
NX mencionado en el error es referente a la CPU
1 http://es.wikipedia.org/wiki/Tecnolog%C3%ADa_NX
--
Sip, le erré. No pensé que algo tan interno del micro se compile en modulos separados. Claro, seguramente como el kernel se compila para distintas variantes X86-64, es posible que ese modulo varía según la arquitectura exacta. Tal como dices, que te aparece 181 GB RAM , en vez de 192GB RAM, debe estar fallando un modulo de memoria. A veces, es por rpoblemas electricos debido al polvo acumulado sobre los contactos de los chips de memoria, o algunos stickers sobre las pistas impresas del modulo de memoria, que en circujnstancias de elevada humedad ambiental, llegan a producir algun efecto resistivo/capacitivo, que llevan a la falla de ese modulo. Deberías correrle el memtest. En algunas versiones anteriores de opensuse, estaba en el dvd de instalación, y aparecía en el menú al bootear desde el dvd. Suerte! -- USA LINUX OPENSUSE QUE ES SOFTWARE LIBRE, NO NECESITAS PIRATEAR NADA Y NI TE VAS A PREOCUPAR MAS POR LOS VIRUS Y SPYWARES: http://www.opensuse.org/es/ Puedes visitar mi blog en: http://jerbes.blogspot.com.ar/ -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
On 2014-06-07 17:00, Juan Erbes wrote:
El día 7 de junio de 2014, 8:43, Carlos E. R. <> escribió:
IP es "instruction pointer", el puntero de instrucciones o contador de programa. Nada que ver con redes.
Nada que ver con las redes???
Lo de IP no, desde luego.
Y esto que es???:
login: [22159.145146] kernel tried to execute NX-protected page - exploit attempt? (uid: 1018)
Mira en http://en.wikipedia.org/wiki/NX_bit lo que es. :-) "The NX bit, which stands for No-eXecute, is a technology used in CPUs to segregate areas of memory for use by either storage of processor instructions (code) or for storage of data, a feature normally only found in Harvard architecture processors. However, the NX bit is being increasingly used in conventional von Neumann architecture processors, for security reasons." En español e incompleto: http://es.wikipedia.org/wiki/Bit_NX "NX significa No eXecute (no ejecutar). Es una tecnología utilizada en CPUs para separar las áreas de memoria usadas para albergar las instrucciones del procesador (código) y las de almacenamiento de datos. Cualquier sección de memoria designada con el atributo NX significa que sólo se usa para datos, por lo tanto las instrucciones del procesador no pueden ni deben residir ahí. Es una técnica utilizada para prevenir que cierto tipo de software malicioso tome el control de la máquina insertando su código en el área de almacenamiento de datos de otro programa y ejecute su propio código desde dentro de esta sección; esto se conoce como desbordamiento de búfer, y NX puede prevenirlo." La idea es marcar una zona de memoria como no ejecutable. Si un programa trata de ejecutar un area no ejecutable, puede ser un error de programador, o puede ser un ataque intencionado, normalmente local. Suponte que un programa (troyano) carga un array de datos en memoria (para lo cual tiene permiso absoluto, por supuesto). Pero esos datos también pueden ser un programa: basta con cargar como datos la secuencia de bytes que quieras. Luego el programa, de repente, hace un salto a ejecutar esos datos, que ahora se interpretan como código... un código que no ha instalado el administrador de sistema, que puede hacer algo malvado... o no. ¿Quien sabe? Mejor impedirlo. Bueno, con ese bit resulta imposible tratar de ejecutar esos datos. Cuando lo intentas, salta esa excepción, y el programa se aborta. Claro, si abortas alguna pieza de programa importante, pues puedes echar abajo el sistema entero, depende de lo crucial que sea ese programa... Puede ocurrir que haya un programa que ha estado funcionando bien durante años. Pero si el sistema operativo activa ese bit del procesador, el programa aborta con esa excepción porque tiene ese error de programación que nunca se detectó. Así que de repente no funciona. Y si está en el arranque del sistema, este no arranca. Uno de los bugzillas que he visto con ese error en el google afectaba al grub. -- Cheers / Saludos, Carlos E. R. (from 13.1 x86_64 "Bottle" at Telcontar)
2014-06-07 17:32 GMT-04:00 Carlos E. R.
On 2014-06-07 17:00, Juan Erbes wrote:
El día 7 de junio de 2014, 8:43, Carlos E. R. <> escribió:
IP es "instruction pointer", el puntero de instrucciones o contador de programa. Nada que ver con redes.
Nada que ver con las redes???
Lo de IP no, desde luego.
Y esto que es???:
login: [22159.145146] kernel tried to execute NX-protected page - exploit attempt? (uid: 1018)
Lo ha confudido con el sistema de administración remota grafica FreeNX, NoMachine... La maquina se ha colgado dos veces desde mi ultimo correo, ahora bootea y se cuelga en el login con el mismo error pero cambia el #CPU afectada salta de la 192 a la 33, 40 , etc. La apagué hasta que la pueda testear fisicamente. Además antes de colgarse observe que muestra activa 181 GB RAM , pero tiene 192GB RAM, por lo que parece ser algo "más serio". -- Raphael Verdugo P. -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
On 2014-06-07 23:45, Raphael Verdugo P. wrote:
Además antes de colgarse observe que muestra activa 181 GB RAM , pero tiene 192GB RAM, por lo que parece ser algo "más serio".
Ten cuidado que no haya confusión entre Gigabytes y Gibibytes. 192GB son 178 GiB, y 181 GiB son 194 GB, y esas cosas ;-) Si el kernel ha anulado alguna zona de memoria, podría salir en el registro de arranque. Esa máquina que tienes son palabras mayores, ahí las cosas normales que sabemos todos dejan de aplicar. -- Cheers / Saludos, Carlos E. R. (from 13.1 x86_64 "Bottle" at Telcontar)
participants (4)
-
Carlos E. R.
-
Juan Erbes
-
lluis martinez
-
Raphael Verdugo P.