Netzwerk-Absturz nach seltsamen Log-Einträgen
Hallo, einer meiner gemieteten Root-Server mit Suse 10.0 32 bit macht in letzter Zeit immer häufiger die Grätsche. Genaugenommen finden sich zeitgleich mit der ersten Nicht-Erreichbarkeit seltsame Log-Einträge, die sich zu Tausenden wiederholen, ein Beispiel ist anbei. Diese Zeilen wiederholen sich immer und immer wieder, der Server ist in dieser Zeit nicht oder nur extrem selten erreichbar, helfen tut eigentlich nur ein Neustart, da SSH-Login nicht möglich ist. So wie ich das sehe (siehe angehängte Datei), handelt es sich um ein Problem mit der Netzwerk-Konfiguration. Die Zeile eth0: Interrupt posted but not delivered -- IRQ blocked by another device? lässt wohl darauf schließen, dass es sich eventuell um ein Interrupt Problem handeln könnte. Nach einigem Googeln habe ich den Tipp gelesen, den Server mit Kernel-Parameter noapic und acpi=off zu booten. Das habe ich jetzt auch getan - mal schaun, wie sich die Sache weiterentwickelt. Nun hätte ich ein paar Fragen dazu: 1.) Wie kann ich zur Laufzeit überprüfen, mit welchen Kernel-Parametern gebootet worden ist? Ich will überprüfen, ob meine modifizierte /boot/grub/menu.lst auch richtig verarbeitet worden ist. 2.) Das Abschalten von ACPI usw. ist ja nur ein Workaround. Wie kann / soll ich an die Sache herangehen, um den Fehler zu beheben? -- Michael Herrmann
Am Freitag, 4. Januar 2008 14:56:28 schrieb Michael Herrmann:
Hallo,
Selber Hallo... :) [...]
Nun hätte ich ein paar Fragen dazu: 1.) Wie kann ich zur Laufzeit überprüfen, mit welchen Kernel-Parametern gebootet worden ist? Ich will überprüfen, ob meine modifizierte /boot/grub/menu.lst auch richtig verarbeitet worden ist. 2.) Das Abschalten von ACPI usw. ist ja nur ein Workaround. Wie kann / soll ich an die Sache herangehen, um den Fehler zu beheben?
Zu 1) chubaka6:~ # cat /proc/cmdline root=/dev/disk/by-id/scsi-SATA_HITACHI_HTS5416_SB2441GJH8E08U-part4 vga=0x317 lapic acpi resume=/dev/sda3 splash=off apic agp=off zu 2) chubaka6:~ # cat /proc/interrupts CPU0 CPU1 0: 1989876 2640645 IO-APIC-edge timer 1: 5341 5 IO-APIC-edge i8042 8: 5 4 IO-APIC-edge rtc 9: 49 549755 IO-APIC-fasteoi acpi 12: 1209 295801 IO-APIC-edge i8042 14: 36 100198 IO-APIC-edge libata 15: 0 0 IO-APIC-edge libata 16: 2035379 0 IO-APIC-fasteoi uhci_hcd:usb4, yenta, nvidia 17: 4702 16 IO-APIC-fasteoi uhci_hcd:usb2 18: 1 58297 IO-APIC-fasteoi uhci_hcd:usb3 19: 3 1 IO-APIC-fasteoi ehci_hcd:usb1 21: 67 27662 IO-APIC-fasteoi uhci_hcd:usb5, ohci1394, HDA Intel 22: 0 0 IO-APIC-fasteoi uhci_hcd:usb6 23: 4694 0 IO-APIC-fasteoi ehci_hcd:usb7 215: 3 302463 PCI-MSI-edge eth0 216: 121659 205235 PCI-MSI-edge iwl4965 217: 92222 1481 PCI-MSI-edge ahci NMI: 0 0 LOC: 1603231 1567236 ERR: 0 MIS: 0 Aus dieser Ausgabe lässt sich z.B. ablesen, dass sich die Grafikkarte in meinem Rechner einen IRQ mit dem 4. USB-Controller teilt, und sich der Firewire-Controller einen mit dem 5. USB-Controller teilt. Schau mal bei Dir welche HW den selben IRQ belegt wie Dein eth0. Bzgl. ACPI abschalten: Das ist nicht generell die Lösung. Schau mal eher, ob nicht das explizite Einschalten von ACPI (beachte bei 1. die Optionen "acpi lapic apic") in Verbindung mit dem Einschalten des APIC Dein Problem löst. Der APIC ist nämlich für das Interrupt-Routing zuständig. Ohne ACPI geht das nicht und Du bist auf 15 IRQs beschränkt. Mit APIC hast Du da ein wenig mehr Möglichkeiten wie Du am o.g. Beispiel sehen kannst. Ich denke, dass ich Dir hiermit auch genügend Stichwörter für google und wikipedia geliefert habe. Gruss Mario -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
participants (2)
-
Mario van der Linde
-
Michael Herrmann