Hola
No sé si a alguien por aqui le sonará esto.
Tenemos una maquina haciendo de firewall con iptables (es una HP DL 360 G4 open suse 11.4 X86).
El caso es que un tiempo después de arrancarla , a veces unas horas otras unos días el kernel se queda tonto, es decir no se puede entrar por SSH ni ejecutar en la consola casi ningún comando, algunos como "ls" o "df" funcionan pero otros como "ps aux" y similares no, es decir la maquina se queda tonta y no ejecuta el comando, a veces puedes teclear Ctrl-C y te devuelve el prompt de la bash pero no ejecuta nada.
El caso es que la maquina sigue dando servicio enrutando y filtrando paquetespero no se puede administrar ni nada,
Alguien me puede dar una pista de por donde rrascar algo??
Gracias,
PS: aunque sea un poco tarde Feliz año nuevo a todos
El 23 de enero de 2012 08:58, Angel J. Alvarez Miguel clist@uah.es escribió:
Hola
No sé si a alguien por aqui le sonará esto.
Tenemos una maquina haciendo de firewall con iptables (es una HP DL 360 G4 open suse 11.4 X86).
El caso es que un tiempo después de arrancarla , a veces unas horas otras unos días el kernel se queda tonto, es decir no se puede entrar por SSH ni ejecutar en la consola casi ningún comando, algunos como "ls" o "df" funcionan pero otros como "ps aux" y similares no, es decir la maquina se queda tonta y no ejecuta el comando, a veces puedes teclear Ctrl-C y te devuelve el prompt de la bash pero no ejecuta nada.
El caso es que la maquina sigue dando servicio enrutando y filtrando paquetespero no se puede administrar ni nada,
Alguien me puede dar una pista de por donde rrascar algo??
Revisaste los logs del horario en que se produce la falla?
Verificaste que no te hallan instalado un rootkit?
Verificaste las temperaturas de trabajo de los componentes, como cpu y memorias?
Le hiciste un memtest?
Revisaste que no halla excesiva acumulación de polvo y suciedad en el mobo, micros, memorias y coolers?
Salu2
2012/1/23 Juan Erbes jerbes@gmail.com:
El 23 de enero de 2012 08:58, Angel J. Alvarez Miguel clist@uah.es escribió:
Hola
No sé si a alguien por aqui le sonará esto.
Tenemos una maquina haciendo de firewall con iptables (es una HP DL 360 G4 open suse 11.4 X86).
El caso es que un tiempo después de arrancarla , a veces unas horas otras unos días el kernel se queda tonto, es decir no se puede entrar por SSH ni ejecutar en la consola casi ningún comando, algunos como "ls" o "df" funcionan pero otros como "ps aux" y similares no, es decir la maquina se queda tonta y no ejecuta el comando, a veces puedes teclear Ctrl-C y te devuelve el prompt de la bash pero no ejecuta nada.
El caso es que la maquina sigue dando servicio enrutando y filtrando paquetespero no se puede administrar ni nada,
Alguien me puede dar una pista de por donde rrascar algo??
Revisaste los logs del horario en que se produce la falla?
Verificaste que no te hallan instalado un rootkit?
Verificaste las temperaturas de trabajo de los componentes, como cpu y memorias?
Le hiciste un memtest?
Revisaste que no halla excesiva acumulación de polvo y suciedad en el mobo, micros, memorias y coolers?
Yo sumaría: verifica con HP la versión de firmware y de BIOS que necesitas. A veces tienen actualizaciones de BIOS y/o firmware.
HTH
Rafa
Gracias por las respuestas a todos!
La cosa es que está limpio y en un CPD bien refrigerado, antes de tener este problem tenía una SUSE SLES 10.x y ahora unaopen suse 11.4 así que debe ser o bien algo de firmaware o bien podria ser algun tema como el de las interrupciones....
De momento trataré de reiniciarlo, aunque se de botonazo...
Salu2
On Lunes, 23 de Enero de 2012 17:29:08 Rafa Griman escribió:
2012/1/23 Juan Erbes jerbes@gmail.com:
El 23 de enero de 2012 08:58, Angel J. Alvarez Miguel clist@uah.es
escribió:
Hola
No sé si a alguien por aqui le sonará esto.
Tenemos una maquina haciendo de firewall con iptables (es una HP DL 360 G4 open suse 11.4 X86).
El caso es que un tiempo después de arrancarla , a veces unas horas otras unos días el kernel se queda tonto, es decir no se puede entrar por SSH ni ejecutar en la consola casi ningún comando, algunos como "ls" o "df" funcionan pero otros como "ps aux" y similares no, es decir la maquina se queda tonta y no ejecuta el comando, a veces puedes teclear Ctrl-C y te devuelve el prompt de la bash pero no ejecuta nada.
El caso es que la maquina sigue dando servicio enrutando y filtrando paquetespero no se puede administrar ni nada,
Alguien me puede dar una pista de por donde rrascar algo??
Revisaste los logs del horario en que se produce la falla?
Verificaste que no te hallan instalado un rootkit?
Verificaste las temperaturas de trabajo de los componentes, como cpu y memorias?
Le hiciste un memtest?
Revisaste que no halla excesiva acumulación de polvo y suciedad en el mobo, micros, memorias y coolers?
Yo sumaría: verifica con HP la versión de firmware y de BIOS que necesitas. A veces tienen actualizaciones de BIOS y/o firmware.
HTH
Rafa
Hola
Ante todo gracias por las respuestas, por si alguien le interesa os detallos el final de este caso:
2 maquinas HP priliant DL380 G4 " Iguales"
Tras un multi apagón y fallo de un disco raid (el "ultimo mohicano") la maquina queda con el filesystem destrozaoo y reinstalamos un open suse 11.4 para ya que hay que ponerse darle un emujon hacia una versi´on mas nueva.
La otra queda dando servicio con SLES 10 pero debido a un atrjeta recalcitrante que no queiere negocia a 1000 Mbit/s Full duplex tuvimos que pasara el rol activo al opensuse 11.4 y este empezó a colgarse una y otra vez quedando la consola fuera de servicio aunque iptables y el nueclo de red funcionamaban.
Tras la consultas y varias actualizaciones del kernel y parametros como "noacpi" etc... conseguimos que la SLES 10 negociara bien las tarjetas y damos de baja el nodo con opensuse 11.4 despues de comprobar que efectivamente no habia rootkits ni similares verificando por md5 los paquetes instalados contra los CDs originales (si ya se que no es muy seguro pero con eso me vale)
Fin de la historia. en unos meses esta instalacion que lleva 10 largos añitos filtrando en la uah será sustituida por un firewall tipo fortinet, palo alto o similar que uno ya no está para montarse cosas con la que está cayendo...
en fin Saludos y Gracias
On Lunes, 23 de Enero de 2012 13:56:25 usted escribió:
El 23 de enero de 2012 08:58, Angel J. Alvarez Miguel clist@uah.es escribió:
Hola
No sé si a alguien por aqui le sonará esto.
Tenemos una maquina haciendo de firewall con iptables (es una HP DL 360 G4 open suse 11.4 X86).
El caso es que un tiempo después de arrancarla , a veces unas horas otras unos días el kernel se queda tonto, es decir no se puede entrar por SSH ni ejecutar en la consola casi ningún comando, algunos como "ls" o "df" funcionan pero otros como "ps aux" y similares no, es decir la maquina se queda tonta y no ejecuta el comando, a veces puedes teclear Ctrl-C y te devuelve el prompt de la bash pero no ejecuta nada.
El caso es que la maquina sigue dando servicio enrutando y filtrando paquetespero no se puede administrar ni nada,
Alguien me puede dar una pista de por donde rrascar algo??
Revisaste los logs del horario en que se produce la falla?
Verificaste que no te hallan instalado un rootkit?
Verificaste las temperaturas de trabajo de los componentes, como cpu y memorias?
Le hiciste un memtest?
Revisaste que no halla excesiva acumulación de polvo y suciedad en el mobo, micros, memorias y coolers?
Salu2
El día 26 de enero de 2012 06:39, Angel J. Alvarez Miguel clist@uah.es escribió:
Hola
Ante todo gracias por las respuestas, por si alguien le interesa os detallos el final de este caso:
2 maquinas HP priliant DL380 G4 " Iguales"
Tras un multi apagón y fallo de un disco raid (el "ultimo mohicano") la maquina queda con el filesystem destrozaoo y reinstalamos un open suse 11.4 para ya que hay que ponerse darle un emujon hacia una versi´on mas nueva.
La otra queda dando servicio con SLES 10 pero debido a un atrjeta recalcitrante que no queiere negocia a 1000 Mbit/s Full duplex tuvimos que pasara el rol activo al opensuse 11.4 y este empezó a colgarse una y otra vez quedando la consola fuera de servicio aunque iptables y el nueclo de red funcionamaban.
Tras la consultas y varias actualizaciones del kernel y parametros como "noacpi" etc... conseguimos que la SLES 10 negociara bien las tarjetas y damos de baja el nodo con opensuse 11.4 despues de comprobar que efectivamente no habia rootkits ni similares verificando por md5 los paquetes instalados contra los CDs originales (si ya se que no es muy seguro pero con eso me vale)
Fin de la historia. en unos meses esta instalacion que lleva 10 largos añitos filtrando en la uah será sustituida por un firewall tipo fortinet, palo alto o similar que uno ya no está para montarse cosas con la que está cayendo...
Por si lo vuelves a intentar, hay algunos puntos a revisar:
SLES trae algunos drivers propietarios, que Opensuse no los trae.
Esos drivers o actualizaciones de firmware de la bios, se pueden descargar del sitio del fabricante. Pero lo mas probable, es que estén orientados a versiones Linux empresariales.
Habías verificado eso?
Salu2
Hola :)
Se me olvidaba ...
2012/1/23 Angel J. Alvarez Miguel clist@uah.es:
Hola
No sé si a alguien por aqui le sonará esto.
Tenemos una maquina haciendo de firewall con iptables (es una HP DL 360 G4 open suse 11.4 X86).
El caso es que un tiempo después de arrancarla , a veces unas horas otras unos días el kernel se queda tonto, es decir no se puede entrar por SSH ni ejecutar en la consola casi ningún comando, algunos como "ls" o "df" funcionan pero otros como "ps aux" y similares no, es decir la maquina se queda tonta y no ejecuta el comando, a veces puedes teclear Ctrl-C y te devuelve el prompt de la bash pero no ejecuta nada.
¿Memoria RAM? ¿CPU? ¿Disco y controladora? ¿tarjetas de red?
Lo de que "no funcionan" ... me imagino que es que tarda mucho en responder. ¿Da algún error? Si da error es cuando puedes afirmar que "no funciona" ;) De lo contrario ... más paciencia ;)
Si "ls" o "df" funcionan y "ps aux" "no funciona/responde"... me da que puede ser la CPU que está "muy ocupada". Si fuera el disco el cuello de botella, ocurriría al revés.
Lo de la red influye en la CPU si no trabajas con Jumbo Frames ya que se producen muchas interrupciones/context switching y eso hace que la CPU tenga que trabajar mucho ... por ejemplo. Aunque puede que sea otro proceso el que esté ahogando la CPU.
A mi me gusta un sw de monitorización "tiempo real" muy sencillo para este tipo de cosas, se llama saidar (puede aparecer como libsaidar o libstatgrab o algo así) y es en línea de comando. Es muy sencillo y ves al instante CPU, RAM, disco y red. A partir de ahí tienes que usar otras herramientas (sar y compañía, por ejemplo) para afinar el tiro.
http://www.i-scream.org/libstatgrab/ http://www.i-scream.org/libstatgrab/docs/saidar.1.html
BTW, si ves que "no responde" el ps aux ... redireccionalo a un fichero:
ps axfu > ps_axfu
Luego, con less/more/most lo ves. A mi me gusta usar la opción f de ps porque te saca un árbol de quién es el proceso padre y el hijo.
El caso es que la maquina sigue dando servicio enrutando y filtrando paquetespero no se puede administrar ni nada,
La tiene ahogadita a la pobre ... mira que eres cruel y malo ... Recuerda: "We cannot treat computers as Humans, computers need love" ;)
Ahora en serio, comprueba la CPU. Hay algo que está consumiendo bastante CPU, IMHO.
Alguien me puede dar una pista de por donde rrascar algo??
Happy troubleshooting ;)
Rafa