Seltsames Problem: "syslog-ng" beendet sich oder crasht evtl. nach SIGHUP

31 Oct 2005

      Hallo,

ich habe seit einigen Wochen einen AMD-Opteron-basierten File-Server 
im Testeinsatz. Auf dieser Maschine ist SuSE Linux 10.0 installiert,
als Kernel läuft ein Vanilla-2.6.14.

Am Samstag um 10:30 Uhr hat "cron.daily" das Kommando "logrotate" ge-
startet. So weit - so gut. 

Gegen Mittag wollte ich mich remote via SSH auf der Maschine einloggen. 
Zwar kam ich noch bis zur Passwortabfrage des SSH-Clients, aber dann 
hing das Login. Andere Dienste, die auf das ebenfalls auf dieser Ma-
schine gehaltene OpenLDAP-Verzeichnis zugreifen wollten, hingen eben-
falls. 

Der auf der selben Maschine laufende Webserver dagegen publizierte zur 
gleichen Zeit die vorhandenen Test-Webseiten absolut problemlos.  

Ich fuhr dann am Samstagnachmittag hin zum Standort des Servers und 
stellte fest: Auch an der Konsole ist kein Login mehr möglich. Eben-
falls war nichts Spannendes auf der Konsole, die per "ALT+F10" erreich-
bar ist, zu finden. Die Maschine an sich lief aber noch. Der darauf
laufende Webserver antwortete einwandfrei und performant.

Nach einem Reset lief der Rechner wieder "normal".

Interessant war: Seit 10:30:01 Uhr gab es keine Logfile-Einträge in
"/var/log/messages" bzw. "/var/log/warn" mehr.

Also gut - ich dachte, der OpenLDAP-Server hatte sich aufgehängt und
daher Probleme mit dem Login gemacht. Ich hatte anschließend auch in
"/etc/ldap.conf" Timeout-Parameter gesetzt, damit im Falle eines nicht
erreichabren OpenLDAP-Servers das PAM nicht ewig wartet, sondern lo-
kale Benutzer "zur Not" auch bei nicht funktionierendem OpenLDAP-Server
reinlässt. Also gut - getestet - Login klappt zur Not auch ohne einen
laufenden OpenLDAP-Server nach einem gewissen Timeout von 30 Minuten.

Über die Tatsache, weshalb seit 10:30:01 Uhr kein Logfile-Eintrag 
mehr geschrieben wurde, machte ich mir dort aber noch keine Gedanken. 

Nächstes Ereignis:

Am Sonntag war ich schon am frühen morgen per SSH einloggt (besser ge-
sagt - ich hatte die Shell noch vom Samstagabend her offen, und hatte 
den ganzen Sonntag noch nicht auf der Maschine gearbeitet). Gegen 14 
Uhr wollte ich mich mit einer weiteren Shell einloggen, da ich zwei 
Kommandozeilenfenster zum Server haben wollte für diverse Arbeiten. 

Aber: Das selbe Problem wie am Tag zuvor: Auf der zweiten Shell war 
kein Login möglich. SSH-Daemon fordert (ziemlich träge) das Passwort
an und macht nach Eingabe desselben gar nichts mehr.

Ich beendete und restartete in der ersten Shell diverse Dienste, da 
ich dachte, sie seien evtl. für das Verhalten verantwortlich. Nichts 
zu sehen. Auch nichts, was massenhaft CPU oder Speicher in Anspruch 
nahm. 

Dann blickte ich nach "/var/log/messages" und sah mir gegen 14 Uhr 
die letzten Ausgaben an:

 | Oct 30 09:30:02 fsa01-neu slapd[5549]: conn=0 op=583 SRCH base="dc=egu,dc=schule,dc=ulm,dc=de" scope=2 deref=0 filter="(&(objectClass=posixAccount)(uid=squid))"
 | Oct 30 09:30:02 fsa01-neu slapd[5549]: conn=0 op=583 SRCH attr=uid userPassword uidNumber gidNumber cn homeDirectory loginShell gecos description objectClass
 | Oct 30 09:30:02 fsa01-neu slapd[5549]: <= bdb_equality_candidates: (uid) index_param failed (18)
 | Oct 30 09:30:02 fsa01-neu slapd[5549]: conn=0 op=583 SEARCH RESULT tag=101 err=0 nentries=0 text=

 | Oct 30 09:30:02 fsa01-neu syslog-ng[4813]: SIGHUP received, restarting syslog-ng

 | Oct 30 09:30:03 fsa01-neu slapd[5549]: conn=0 op=584 SRCH base="dc=egu,dc=schule,dc=ulm,dc=de" scope=2 deref=0 filter="(&(objectClass=posixAccount)(uid=man))"

Ah ja. Die Maschine hatte die ganze Nacht durch diverse Meldungen
der OpenLDAP-DB nach "/var/log/messages" geschrieben. Ist ja auch
okay. 

Aber um 09:30 Uhr, genau 24 Stunden nach dem Log-Stopp am Samstag
(-> Zeitumstellung) hört das Logging erneut auf.

Nach einem Restart des "syslog-ng"...

 | Oct 30 14:39:09 fsa01-neu syslog-ng[5985]: syslog-ng version 1.6.8 starting

...konnte ich mich dann problemlos wieder einloggen:

 | Oct 30 14:39:14 fsa01-neu sshd[5889]: Accepted keyboard-interactive/pam for root from 10.0.0.1 port 35203 ssh2

Nun habe ich nicht darauf geachtet, ob der "syslog-ng" tot war oder
gar nicht mehr lief.

Mein Verdacht war dann: 

"logrotate" schickt (wenn es was zu rotieren gibt) - laut der Da-
tei "/etc/logrotate.d/syslog" ein "/etc/init.d/syslog reload". Das
wiederum dürfte ein "SIGHUP" senden.

Heute (Montag) ist nichts passiert. "syslog-ng" loggt einwandfrei
und neue SSH-Connections sind auch kein Problem. Aber heute hat
"logrotate" auch nichts zum Rotieren gehabt. Also auch keine "post-
rotate"-Kommandos, und damit kein "/etc/init.d/syslog reload".

Seltsamerweise kann ich das Aufhängen (oder Beenden) des "syslog-ng"
nicht provozieren, indem ich den "/etc/init.d/syslog reload" manuell 
ausführe. Ich warte jetzt also ab bis "logrotate" wieder rotiert. 

Die Fragen, die sich mir stellen, sind jetzt: 

 - Warum "spinnt" der "syslog-ng" herum, wenn er ein HUP-Signal ge-
sendet bekommt? Warum hört er dann mit dem Logging auf?

 - Hat dieses Verhalten denn sonst schon jemand beobachtet, ins-
besondere unter SuSE Linux 10.0 x86_64? 

Die neusten SuSE-Updates dürften alle eingespielt sein. Bis auf 
den Vanilla-2.6.14-Kernel sind eigentlich keine großartigen Ver-
änderungen an der Standardinstallation vorgenommen worden.

 - Wie verhält sich denn ein Rechner, bei dem der Syslog-Daemon gar 
nicht mehr läuft? Kann es tatsächlich zu dem von mir beobachteten
Fall kommen, dass nach einer gewissen Zeit die Dienste, die loggen
wollen, hängen? 

Wenn ich das richtig sehe, schreiben die Dienste, die loggen wollen,
in das "named socket" unter "/dev/log" rein. Was aber passiert, wenn 
dort niemand mehr rausliest? Puffert der Kernel eine Weile? Und erst
nach einer gewissen Anzahl an Meldungen passiert's? 

Denn, wenn ich den "syslog-ng" manuell beende, kann ich mich (zumin-
dest unmittelbar danach) noch problemlos via SSH einloggen oder an-
dere Dienste benutzen, die loggen (z.B. OpenLDAP-Anfragen stellen). 

Längere Zeit hatte ich den Syslog-Daemon bisher nicht absichtlich 
beendet lassen.

Oder treten die Hänger der Applikationen nur dann auf, wenn Syslog-
Daemon-Prozess zwar noch läuft, sich aber aufgehängt hat?

Fragen über Fragen. Vielleicht weiß ja hier jemand weiter oder kann 
zumindest Details zur Arbeit des Syslog-Daemons sagen. Ich wollte 
auf jeden Fall mal auf Nummer sicher gehen, bevor ich an SuSE einen
Bug melde bzgl. "syslog-ng". 

Danke und Grüße,

Steffen

Main

Development

Information

Community

Social Media

Other

Steffen Moser

Bernhard Schalk

Steffen Moser

Andreas Winkelmann

Steffen Moser

Andreas Winkelmann

Steffen Moser

Steffen Moser

Steffen Moser

Hans-Werner Hilse

Steffen Moser

Hans-Werner Hilse

Steffen Moser

Steffen Moser

Hans-Werner Hilse

Steffen Moser

Bernhard Schalk

Steffen Moser

Andreas Winkelmann

Steffen Moser

Andreas Winkelmann

Steffen Moser

tags

participants (4)