hallo, ich wende mich hier mit meinem problem an diese community, da ich absolut keine ahnung habe, was die ursache des folgenden problems ist. ich habe zu analyse zwecken des netzwerkverkehrs an einem switch mit 3 mirror ports ein system mit SLES 10 hängen. die 3 mirror ports sind mit den 3 sniffer karten des systems verbunden, die jeweils im monitormode laufen und über libpcap pakete sniffen. zusätzlich zu diesen 3 karten befindet sich noch eine 4. kommunikationskarte im server, über die der server administriert wird. die 4 nics im system sind jeweils intel pro/1000 gt server adapter, die mit dem intel treiber in version 7.6.9-NAPI bedient werden. die analyse des netzwerkverkehrs läuft auch ganz prima, bis auf die tatsache, dass sich das system nach einer undefinierten nicht reproduzierbaren zeitspanne ins nirvana weghängt und stehen bleibt. logs hören einfach auf etc., das system noch pingbar, aber nicht mehr zu bedienen. folgende vermutungen zu dem problem hatte ich, die aber das problem nicht behoben haben: - IRQ konflikt --> dadurch, dass sich die sniffer eth2 und eth3 einen interrupt teilen hatte ich auf einen irq konflikt getippt, allerdings hat ein entfernen der bei den anderen sniffer karten und der betrieb des systems mit nur einer sniffer karte das problem nicht gelöst. auch das tauschen der slots hat keine besserung erbracht. - NIC treiber problem --> den oben im text genannten treiber kompiliert und geladen, allerdings auch ohne erfolg. das system bleibt ebenfalls stehen. auch der neueste treiber für diese karten hat das problem nicht gelöst. - ACPI problem --> kernel mit den parametern noacpi, acpi=off etc. gebootet, ebenfalls keine besserung. - Grafikkartentreiber problem --> die karte läuft nur im VESA modus. - RAM problem --> RAM Timings umgestellt, RAM getestet. es ist aber alles in bester ordnung. - CPU temperatur zu hoch --> CPU temp ist konstant bei 50° - powersave daemon versucht geräte abzuschalten --> dieser daemon ist noch nie auf meinem system gelaufen /cat/proc/interrupts CPU0 0: 195768 IO-APIC-edge timer 1: 14 IO-APIC-edge i8042 2: 0 XT-PIC cascade 4: 76 IO-APIC-edge serial 8: 16 IO-APIC-edge rtc 15: 10874 IO-APIC-edge ide1 137: 0 IO-APIC-level uhci_hcd:usb1 153: 178520 IO-APIC-level 3w-9xxx, uhci_hcd:usb3, eth2 161: 94271 IO-APIC-level uhci_hcd:usb2, eth1, cmdrv 169: 61501 IO-APIC-level eth3 177: 81466 IO-APIC-level snd_ca0106, MTDRV 185: 172620 IO-APIC-level eth0, MTDRV 193: 3 IO-APIC-level ehci_hcd:usb4 NMI: 0 LOC: 195664 ERR: 0 MIS: 0 lspci output 00:00.0 Host bridge: Intel Corporation 82845G/GL[Brookdale-G]/GE/PE DRAM Controller/Host-Hub Interface (rev 03) 00:02.0 VGA compatible controller: Intel Corporation 82845G/GL[Brookdale-G]/GE Chipset Integrated Graphics Device (rev 03) 00:1d.0 USB Controller: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) USB UHCI Controller #1 (rev 02) 00:1d.1 USB Controller: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) USB UHCI Controller #2 (rev 02) 00:1d.2 USB Controller: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) USB UHCI Controller #3 (rev 02) 00:1d.7 USB Controller: Intel Corporation 82801DB/DBM (ICH4/ICH4-M) USB2 EHCI Controller (rev 02) 00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 82) 00:1f.0 ISA bridge: Intel Corporation 82801DB/DBL (ICH4/ICH4-L) LPC Interface Bridge (rev 02) 00:1f.1 IDE interface: Intel Corporation 82801DB (ICH4) IDE Controller (rev 02) 00:1f.3 SMBus: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) SMBus Controller (rev 02) 01:08.0 Ethernet controller: Intel Corporation 82801DB PRO/100 VE (CNR) Ethernet Controller (rev 82) 01:0d.0 Multimedia audio controller: Creative Labs SB Audigy LS 01:0e.0 RAID bus controller: 3ware Inc 9xxx-series SATA-RAID 01:0f.0 PCI bridge: Texas Instruments PCI2050 PCI-to-PCI Bridge (rev 02) 02:07.0 Ethernet controller: Intel Corporation 82541PI Gigabit Ethernet Controller (rev 05) 02:08.0 Ethernet controller: Intel Corporation 82541PI Gigabit Ethernet Controller (rev 05) 02:09.0 Ethernet controller: Intel Corporation 82541PI Gigabit Ethernet Controller (rev 05) 02:0a.0 Computer telephony device: MUSIC Semiconductors Unknown device 1016 02:0b.0 Computer telephony device: MUSIC Semiconductors Unknown device 1016 02:0c.0 Multimedia controller: PLD APPLICATIONS Unknown device 5020 (rev 01) ich habe auch schon versucht mit einem crashdump der ganzen geschichte auf die schliche zu kommen, allerdings ebenfalls ohne erfolg, da kein crashdump in dieser situation erzeugt wird. habe kexec und crash in diesem zusammenhang probiert. hat jemand schon mal ein ähnliches phänomen beobachtet? ich bin wirklich um jeden tip dankbar und werde ihn auch auf jeden fall ausprobieren. lasst es mich wissen falls ihr noch mehr input braucht, was das system angeht. vielen dank schon mal im vorraus ... -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Hi Benjamin, Am Dienstag 01 April 2008 14:40:19 schrieb Schmitt, Benjamin:
tatsache, dass sich das system nach einer undefinierten nicht reproduzierbaren zeitspanne ins nirvana weghängt und stehen bleibt. logs hören einfach auf etc., das system noch pingbar, aber nicht mehr zu bedienen.
folgende vermutungen zu dem problem hatte ich, die aber das problem nicht behoben haben:
- IRQ konflikt --> dadurch, dass sich die sniffer eth2 und eth3 einen interrupt teilen hatte ich auf einen irq konflikt getippt, allerdings hat ein entfernen der bei den anderen sniffer karten und der betrieb des systems mit nur einer sniffer karte das problem nicht gelöst. auch das tauschen der slots hat keine besserung erbracht.
- NIC treiber problem --> den oben im text genannten treiber kompiliert und geladen, allerdings auch ohne erfolg. das system bleibt ebenfalls stehen. auch der neueste treiber für diese karten hat das problem nicht gelöst.
- ACPI problem --> kernel mit den parametern noacpi, acpi=off etc. gebootet, ebenfalls keine besserung.
- Grafikkartentreiber problem --> die karte läuft nur im VESA modus.
- RAM problem --> RAM Timings umgestellt, RAM getestet. es ist aber alles in bester ordnung.
- CPU temperatur zu hoch --> CPU temp ist konstant bei 50°
- powersave daemon versucht geräte abzuschalten --> dieser daemon ist noch nie auf meinem system gelaufen
Da du ja schon selbst den Compiler angeworfen hast ... das wäre jetzt spätestens der Moment wo ich mir einen aktuellen Vanilla Kernel laden würde und mit dem weiter testen würde. Allerdings solltest du überprüfen ob du dann noch mehr austauschen mußt damit es keinen zusätzlichen hausgemachten Streß gibt. Gruss Falk -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Schmitt, Benjamin schrieb:
hallo, ich wende mich hier mit meinem problem an diese community, da ich absolut keine ahnung habe, was die ursache des folgenden problems ist.
ich habe zu analyse zwecken des netzwerkverkehrs an einem switch mit 3 mirror ports ein system mit SLES 10 hängen. die 3 mirror ports sind mit den 3 sniffer karten des systems verbunden, die jeweils im monitormode laufen und über libpcap pakete sniffen. zusätzlich zu diesen 3 karten befindet sich noch eine 4. kommunikationskarte im server, über die der server administriert wird. die 4 nics im system sind jeweils intel pro/1000 gt server adapter, die mit dem intel treiber in version 7.6.9-NAPI bedient werden. die analyse des netzwerkverkehrs läuft auch ganz prima, bis auf die tatsache, dass sich das system nach einer undefinierten nicht reproduzierbaren zeitspanne ins nirvana weghängt und stehen bleibt. logs hören einfach auf etc., das system noch pingbar, aber nicht mehr zu bedienen.
spannend wäre schon mal, wie das routing der Karten ausschaut....incl. der IP-Addressen
folgende vermutungen zu dem problem hatte ich, die aber das problem nicht behoben haben:
hm... interner Pufferüberlauf ? Snifferüberlauf ? spannender wäre da die Speicherbelegung ? + CPU-Last vielleicht TOP mitlaufen lassen ...(der Rechner hat doch beim Test wenigstens einen Monitor mit dran ?) manchmal läuft auch /tmp voll ..?
- IRQ konflikt --> dadurch, dass sich die sniffer eth2 und eth3 einen interrupt teilen hatte ich auf einen irq konflikt getippt, allerdings hat ein entfernen der bei den anderen sniffer karten und der betrieb des systems mit nur einer sniffer karte das problem nicht gelöst. auch das tauschen der slots hat keine besserung erbracht.
- NIC treiber problem --> den oben im text genannten treiber kompiliert und geladen, allerdings auch ohne erfolg. das system bleibt ebenfalls stehen. auch der neueste treiber für diese karten hat das problem nicht gelöst.
- ACPI problem --> kernel mit den parametern noacpi, acpi=off etc. gebootet, ebenfalls keine besserung.
- Grafikkartentreiber problem --> die karte läuft nur im VESA modus.
- RAM problem --> RAM Timings umgestellt, RAM getestet. es ist aber alles in bester ordnung.
- CPU temperatur zu hoch --> CPU temp ist konstant bei 50°
- powersave daemon versucht geräte abzuschalten --> dieser daemon ist noch nie auf meinem system gelaufen
kenne solche Effekte ... Hardware/IRQ Probleme stehen meist in /var/log/messages ... hab aber auch nicht immer alles gefunden ... manche sind bei einem reboot "verschwunden" und wurden nie wieder gesehen... ehm wozu 3 Sniffer karten ? womit schreibst du denn mit ? Ethereal (oder wie das jetzt heisst) brauchts nur eine Karte.... hoffe für dich, dass der Rechner im Runlevel 3 rennt ( ohne X/KDE ...)
/cat/proc/interrupts
CPU0 0: 195768 IO-APIC-edge timer 1: 14 IO-APIC-edge i8042 2: 0 XT-PIC cascade 4: 76 IO-APIC-edge serial 8: 16 IO-APIC-edge rtc 15: 10874 IO-APIC-edge ide1 137: 0 IO-APIC-level uhci_hcd:usb1 153: 178520 IO-APIC-level 3w-9xxx, uhci_hcd:usb3, eth2 161: 94271 IO-APIC-level uhci_hcd:usb2, eth1, cmdrv 169: 61501 IO-APIC-level eth3 177: 81466 IO-APIC-level snd_ca0106, MTDRV 185: 172620 IO-APIC-level eth0, MTDRV 193: 3 IO-APIC-level ehci_hcd:usb4 NMI: 0 LOC: 195664 ERR: 0 MIS: 0
lspci output
00:00.0 Host bridge: Intel Corporation 82845G/GL[Brookdale-G]/GE/PE DRAM Controller/Host-Hub Interface (rev 03) 00:02.0 VGA compatible controller: Intel Corporation 82845G/GL[Brookdale-G]/GE Chipset Integrated Graphics Device (rev 03) 00:1d.0 USB Controller: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) USB UHCI Controller #1 (rev 02) 00:1d.1 USB Controller: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) USB UHCI Controller #2 (rev 02) 00:1d.2 USB Controller: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) USB UHCI Controller #3 (rev 02) 00:1d.7 USB Controller: Intel Corporation 82801DB/DBM (ICH4/ICH4-M) USB2 EHCI Controller (rev 02) 00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 82) 00:1f.0 ISA bridge: Intel Corporation 82801DB/DBL (ICH4/ICH4-L) LPC Interface Bridge (rev 02) 00:1f.1 IDE interface: Intel Corporation 82801DB (ICH4) IDE Controller (rev 02) 00:1f.3 SMBus: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) SMBus Controller (rev 02) 01:08.0 Ethernet controller: Intel Corporation 82801DB PRO/100 VE (CNR) Ethernet Controller (rev 82) 01:0d.0 Multimedia audio controller: Creative Labs SB Audigy LS 01:0e.0 RAID bus controller: 3ware Inc 9xxx-series SATA-RAID 01:0f.0 PCI bridge: Texas Instruments PCI2050 PCI-to-PCI Bridge (rev 02) 02:07.0 Ethernet controller: Intel Corporation 82541PI Gigabit Ethernet Controller (rev 05) 02:08.0 Ethernet controller: Intel Corporation 82541PI Gigabit Ethernet Controller (rev 05) 02:09.0 Ethernet controller: Intel Corporation 82541PI Gigabit Ethernet Controller (rev 05) 02:0a.0 Computer telephony device: MUSIC Semiconductors Unknown device 1016 02:0b.0 Computer telephony device: MUSIC Semiconductors Unknown device 1016 02:0c.0 Multimedia controller: PLD APPLICATIONS Unknown device 5020 (rev 01)
ich habe auch schon versucht mit einem crashdump der ganzen geschichte auf die schliche zu kommen, allerdings ebenfalls ohne erfolg, da kein crashdump in dieser situation erzeugt wird. habe kexec und crash in diesem zusammenhang probiert.
hat jemand schon mal ein ähnliches phänomen beobachtet? ich bin wirklich um jeden tip dankbar und werde ihn auch auf jeden fall ausprobieren. lasst es mich wissen falls ihr noch mehr input braucht, was das system angeht.
vielen dank schon mal im vorraus ...
Gruss Fred -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
On Tue, 1 Apr 2008 14:40:19 +0200 "Schmitt, Benjamin"
ich habe zu analyse zwecken des netzwerkverkehrs an einem switch mit 3 mirror ports ein system mit SLES 10 hängen. die 3 mirror ports sind mit den 3 sniffer karten des systems verbunden, die jeweils im
So am Rande: Bist Du sicher, dass das System den damit potentiell verbundenen Traffic überhaupt verarbeiten kann?
/cat/proc/interrupts
CPU0 0: 195768 IO-APIC-edge timer 1: 14 IO-APIC-edge i8042 2: 0 XT-PIC cascade 4: 76 IO-APIC-edge serial 8: 16 IO-APIC-edge rtc 15: 10874 IO-APIC-edge ide1 137: 0 IO-APIC-level uhci_hcd:usb1 153: 178520 IO-APIC-level 3w-9xxx, uhci_hcd:usb3, eth2 161: 94271 IO-APIC-level uhci_hcd:usb2, eth1, cmdrv 169: 61501 IO-APIC-level eth3 177: 81466 IO-APIC-level snd_ca0106, MTDRV 185: 172620 IO-APIC-level eth0, MTDRV 193: 3 IO-APIC-level ehci_hcd:usb4
Nachdem PC-Server üblicherweise eher sparsam in der Dimensionierung des IO-Durchsatz sind, würde ich nach Möglichkeit alle Sonderkarten a la Sound, Telefonie, etc. weglassen. Plattensubsysteme sollten einen exklusiven Interrupt haben. Bei etwas ähnlichen Systemen (DHCP, Logging) hatte ich schon dasselbe beobachtet. Das hatte sich dann als Überlast-Problem im Plattenbereich herausgestellt und liess sich durch Umkonfiguration des EIDE- in ein SATA-Interface beheben. Drauf gekommen bin ich damals durch die Beobachtung, dass die Prozesse klogd und kjournald signifikant höhere Last produzierten als andere Systeme, die stabil liefen. Daraus kann man ein paar Überlegungen ableiten: Brauche ich klogd auf diesem System? Zumindest Loglevel adäquat niedrig, z.B. auf 1 setzen. Netzwerkprotokollierung bei syslogd abschalten. libpcap-dump in eine separate Partition loggen, die ohne Journaling auskommt. Zum Test kann man auch mal probieren, was passiert, wenn man längere Zeit nach /dev/null loggt. Wenn es dann noch immer hängt, dann liegt es wohl eher nicht am Plattensystem. -- Gruß, Tobias. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
-----Ursprüngliche Nachricht----- Von: Tobias Crefeld [mailto:tc-lx@myway.de] Gesendet: Dienstag, 1. April 2008 16:55 An: opensuse-de@opensuse.org Betreff: Re: (Snifferproblem)
On Tue, 1 Apr 2008 14:40:19 +0200 "Schmitt, Benjamin"
wrote: ich habe zu analyse zwecken des netzwerkverkehrs an einem switch mit 3 mirror ports ein system mit SLES 10 hängen. die 3 mirror ports sind mit den 3 sniffer karten des systems verbunden, die jeweils im
So am Rande: Bist Du sicher, dass das System den damit potentiell verbundenen Traffic überhaupt verarbeiten kann?
das sollte der rechner schon schaffen und selbst wenn er es nicht schafft, dann sollte er maximal die pakete verwerfen und nicht abstürzen.
/cat/proc/interrupts
CPU0 0: 195768 IO-APIC-edge timer 1: 14 IO-APIC-edge i8042 2: 0 XT-PIC cascade 4: 76 IO-APIC-edge serial 8: 16 IO-APIC-edge rtc 15: 10874 IO-APIC-edge ide1 137: 0 IO-APIC-level uhci_hcd:usb1 153: 178520 IO-APIC-level 3w-9xxx, uhci_hcd:usb3, eth2 161: 94271 IO-APIC-level uhci_hcd:usb2, eth1, cmdrv 169: 61501 IO-APIC-level eth3 177: 81466 IO-APIC-level snd_ca0106, MTDRV 185: 172620 IO-APIC-level eth0, MTDRV 193: 3 IO-APIC-level ehci_hcd:usb4
Nachdem PC-Server üblicherweise eher sparsam in der Dimensionierung des IO-Durchsatz sind, würde ich nach Möglichkeit alle Sonderkarten a la Sound, Telefonie, etc. weglassen. Plattensubsysteme sollten einen exklusiven Interrupt haben.
karten kann ich keine ausbauen, die brauch ich leider alle. der tip mit dem exclusiven interrupt für den hdd controller ist allerdings ein guter tip den ich weiter verfolgen werde.
Bei etwas ähnlichen Systemen (DHCP, Logging) hatte ich schon dasselbe beobachtet. Das hatte sich dann als Überlast-Problem im Plattenbereich herausgestellt und liess sich durch Umkonfiguration des EIDE- in ein SATA-Interface beheben. Drauf gekommen bin ich damals durch die Beobachtung, dass die Prozesse klogd und kjournald signifikant höhere Last produzierten als andere Systeme, die stabil liefen.
der 3ware controller ist ein sata raid controller. die sache mit klogd und kjournald werde ich allerdings mal beobachten.
Daraus kann man ein paar Überlegungen ableiten: Brauche ich klogd auf diesem System? Zumindest Loglevel adäquat niedrig, z.B. auf 1 setzen. Netzwerkprotokollierung bei syslogd abschalten. libpcap-dump in eine separate Partition loggen, die ohne Journaling auskommt.
den traffic, den ich mit libpcap erhalte, verarbeite ich gleich weiter zu analysezwecken. primär bin ich ja auch nur an voip traffic interessiert der in die verarbeitung kommen soll. der rest der noch über das netz kommt, wird nicht beachtet.
Zum Test kann man auch mal probieren, was passiert, wenn man längere Zeit nach /dev/null loggt. Wenn es dann noch immer hängt, dann liegt es wohl eher nicht am Plattensystem.
Von: Tobias Crefeld [mailto:tc-lx@myway.de]
So am Rande: Bist Du sicher, dass das System den damit potentiell verbundenen Traffic überhaupt verarbeiten kann?
das sollte der rechner schon schaffen und selbst wenn er es nicht schafft, dann sollte er maximal die pakete verwerfen und nicht abstürzen.
Naja, wir reden von PC-Hardware. Die mag es grundsätzlich nicht, wenn irgendwas überlastet ist und reagiert darauf nicht immer vorhersagbar. Ich habe hier auch schon Fastethernet-NICs gehabt, die sich bei symmetrischer, nicht mal besonders hoher Last nach wenigen Stunden so weg gehängt haben, dass nur noch ein rmmod/modprobe das Interface wieder reaktvierte. Eine AS400 kannst Du problemlos permanent wochenlang auf 90% und mehr betreiben, ohne das es irgend wen stört. Die kostet halt dafür auch ein "paar Cent" mehr. ;)
der 3ware controller ist ein sata raid controller. die sache mit klogd und kjournald werde ich allerdings mal beobachten.
Poste doch mal ein Ergebnis, wenn Du was herausbekommen hast. Zu 3ware habe ich schon die komplette Bandbreite an Beurteilungen zu hören bekommen. -- Gruß, Tobias. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
-----Ursprüngliche Nachricht----- Von: Tobias Crefeld [mailto:tc-lx@myway.de] Gesendet: Mittwoch, 2. April 2008 16:04 An: opensuse-de@opensuse.org Betreff: Re: (Snifferproblem)
wrote: Von: Tobias Crefeld [mailto:tc-lx@myway.de]
So am Rande: Bist Du sicher, dass das System den damit potentiell verbundenen Traffic überhaupt verarbeiten kann?
das sollte der rechner schon schaffen und selbst wenn er es nicht schafft, dann sollte er maximal die pakete verwerfen und nicht abstürzen.
Naja, wir reden von PC-Hardware. Die mag es grundsätzlich nicht, wenn irgendwas überlastet ist und reagiert darauf nicht immer vorhersagbar. Ich habe hier auch schon Fastethernet-NICs gehabt, die sich bei symmetrischer, nicht mal besonders hoher Last nach wenigen Stunden so weg gehängt haben, dass nur noch ein rmmod/modprobe das Interface wieder reaktvierte. Eine AS400 kannst Du problemlos permanent wochenlang auf 90% und mehr betreiben, ohne das es irgend wen stört. Die kostet halt dafür auch ein "paar Cent" mehr. ;)
das würde ich ja auch auf jeden fall verstehen, wenn sich die karte weghängen würde. aber, dass das komplette system abstürzt und nich mehr zu bedienen ist, versteh ich nicht. das verhalten, dass du beschreibst, dass die karte abstürzt kenn ich bis jetzt nur von karten mit realtek 8139 chipset und das ist ja bekanntlich: "the least featured piece of hardware you can call a ethernet controller".
der 3ware controller ist ein sata raid controller. die sache mit klogd und kjournald werde ich allerdings mal beobachten.
Poste doch mal ein Ergebnis, wenn Du was herausbekommen hast. Zu 3ware habe ich schon die komplette Bandbreite an Beurteilungen zu hören bekommen.
ich habe jetzt die system last die durch klogd und kjournald verursacht wird über mehrere tage beobachtet und nichts abnormales feststellen können. das einzigste was ich mir noch vorstellen kann ist, dass der pci bus des gerätes überlastet ist mit 3 Gbit NICs, RAID controller und soundkarte. denn bei einer netzwerk lastspitze überlaste ich den bus ja schon alleine mit dem traffic das NICs und dann könnte es krachen. vg benni
On Thu, 3 Apr 2008 09:23:51 +0200 "Schmitt, Benjamin"
-----Ursprüngliche Nachricht----- Von: Tobias Crefeld [mailto:tc-lx@myway.de]
Eine AS400 kannst Du problemlos permanent wochenlang auf 90% und mehr betreiben, ohne das es irgend wen stört. Die kostet halt dafür auch ein "paar Cent" mehr. ;)
das würde ich ja auch auf jeden fall verstehen, wenn sich die karte weghängen würde. aber, dass das komplette system abstürzt und nich mehr zu bedienen ist, versteh ich nicht. das verhalten, dass du beschreibst, dass die karte abstürzt kenn ich bis jetzt nur von karten mit realtek 8139 chipset und das ist ja bekanntlich: "the least featured piece of hardware you can call a ethernet controller".
In diesem Fall war das zwar ein sundance-Treiber, aber Dlink als Hersteller oder Realtek als Chip nehmen sich wohl nicht viel. ;) Mitunter funktionieren auch noch Teile des Systems, nur nicht mehr die, die Du verwenden möchtest. Oder alles geht nur noch extrem langsam. "Abstürzen" ist ein relativer Begriff.
ich habe jetzt die system last die durch klogd und kjournald verursacht wird über mehrere tage beobachtet und nichts abnormales feststellen können. das einzigste was ich mir noch vorstellen kann ist, dass der pci bus des gerätes überlastet ist mit 3 Gbit NICs, RAID controller und soundkarte. denn bei einer netzwerk lastspitze überlaste ich den bus ja schon alleine mit dem traffic das NICs und dann könnte es krachen.
Ja, die Beurteilung des max. IO-Durchsatz meinte ich mit der Frage nach dem potentiell erreichbaren Traffic. Nachdem so ein Transfer meist via IRQ getriggert wird, bietet er bei verkehrter Priorisierung der Abarbeitung zumindest das Potential für dead locks. Bei hoher Last ist Ereignissteuerung per se schlechter als periodisches Scannen. Ich bin kein Serverspezialist, aber vielleicht gibt es PC-Server mit getrennten PCI-Bussen oder sonstwie getrennten IO-Kanälen. Auf alle Fälle halte ich PCI-X und 64 Bit in so einem Szenario für Pflicht, weil ein Gigabit-Adapter kann sonst schon allein einen klassischen PCI-Bus überlasten. Hinzu kommen noch Einschränkungen, wenn man mehrere Adapter steckt: http://www.heise.de/glossar/entry/71e29175d0dbee42 Selbst wenn das System "nur" Prozessdaten verlieren würde, würde es Dich bei Deiner eigentlichen Monitoringaufgabe behindern. -- Gruß, Tobias. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
participants (4)
-
Falk Sauer
-
Fred Ockert
-
Schmitt, Benjamin
-
Tobias Crefeld