Mailinglist Archive: opensuse-bugs (5061 mails)

< Previous Next >
[Bug 750417] New: Samba 3.6.x looses network connection
  • From: bugzilla_noreply@xxxxxxxxxx
  • Date: Mon, 5 Mar 2012 09:55:24 +0000
  • Message-id: <bug-750417-21960@http.bugzilla.novell.com/>

https://bugzilla.novell.com/show_bug.cgi?id=750417

https://bugzilla.novell.com/show_bug.cgi?id=750417#c0


Summary: Samba 3.6.x looses network connection
Classification: openSUSE
Product: openSUSE.org
Version: unspecified
Platform: x86-64
OS/Version: openSUSE 12.1
Status: NEW
Severity: Critical
Priority: P5 - None
Component: 3rd party software
AssignedTo: opensuse-communityscreening@xxxxxxxxxxxxxxxxxxxxxx
ReportedBy: st-schaefer@xxxxxxxxxxxxxxxx
QAContact: opensuse-communityscreening@xxxxxxxxxxxxxxxxxxxxxx
Found By: ---
Blocker: ---


User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:10.0.2) Gecko/20100101
Firefox/10.0.2

Sorry, the following text is in german. My english isn't good enough for
this...

Fehler:
--------
Die Verbindung zu einem Samba Server unterbricht sporadisch. Dabei spielt es
keine Rolle, ob gerade Daten übertragen werden oder nicht.

Wenn das Problem während einer Datenübertragung auftritt, tauchen auf den
Windows Clients Fehlermeldungen wie "Der Netzwerkpfad wurde nicht gefunden."
oder unter Windows 7 der Fehlercode "0x80070035" auf.

In den Samba Logs lassen sich ggf. solche Einträge finden:

" WIKUT+administrator opened file FSP_Service/Software/Office/BCM/Program
Files/Microsoft Small Business/Business Contact
Manager/de-DE/Microsoft.BusinessSolutions.eCRM.Reports2.resources.dll read=No
write=Yes
(numopen=2)
[2012/02/24 20:37:09.118596, 2] smbd/reply.c:553(reply_special)
netbios connect: name1=WIKUTKT-FS 0x20 name2=WIKUT-SBS 0x0
[2012/02/24 20:37:09.118799, 2] smbd/reply.c:573(reply_special)
netbios connect: local=wikutkt-fs remote=wikut-sbs, name type = 0
[2012/02/24 20:37:09.142835, 2] smbd/sesssetup.c:1279(setup_new_vc_session)
setup_new_vc_session: New VC == 0, if NT4.x compatible we would close all old
resources.
[2012/02/24 20:37:20.256300, 1] smbd/process.c:457(receive_smb_talloc)
receive_smb_raw_talloc failed for client 100.0.0.5 read error =
NT_STATUS_CONNECTION_RESET.
[2012/02/24 20:37:20.256635, 2] smbd/close.c:691(close_normal_file)
WIKUT+administrator closed file FSP_Service/Software/Office/BCM/Program
Files/Microsoft
Small Business/Business Contact Man
ager/de-DE/Microsoft.BusinessSolutions.eCRM.Reports2.resources.dll (numopen=1)
NT_STATUS_OK
[2012/02/24 20:37:20.256733, 1] smbd/process.c:167(srv_send_smb)
[2012/02/24 20:37:20.256977, 2] lib/util_sock.c:1070(get_peer_addr_internal)
getpeername failed. Error was Der Socket ist nicht verbunden
pid[2629] Error writing 75 bytes to client 0.0.0.0. -1. (Datenübergabe
unterbrochen
(broken pipe))
[2012/02/24 20:37:20.257153, 1] smbd/service.c:1345(close_cnum)
wikut-sbs (100.0.0.5) closed connection to service IT-Service
[2012/02/24 20:37:20.877015, 1] smbd/server.c:300(remove_child_pid)
Scheduled cleanup of brl and lock database after unclean shutdown
[2012/02/24 20:37:40.889542, 1] smbd/server.c:272(cleanup_timeout_fn)
Cleaning up brl and lock database after unclean shutdown
[2012/02/24 20:39:30.676461, 1] lib/serverid.c:197(serverid_deregister)
Deleting serverid.tdb record failed: NT_STATUS_NOT_FOUND
[2012/02/24 20:39:30.676602, 1] smbd/server.c:309(remove_child_pid)
Could not remove pid 2663 from serverid.tdb
[2012/02/24 20:39:30.676656, 1] smbd/server.c:323(remove_child_pid)
Could not find child 2663 -- ignoring
[2012/02/24 20:48:09.586613, 2] smbd/process.c:2455(deadtime_fn)
Closing idle connection
[2012/02/24 20:52:31.397876, 1] lib/serverid.c:197(serverid_deregister)
Deleting serverid.tdb record failed: NT_STATUS_NOT_FOUND
[2012/02/24 20:52:31.398008, 1] smbd/server.c:309(remove_child_pid)
Could not remove pid 2686 from serverid.tdb
[2012/02/24 20:52:31.398062, 1] smbd/server.c:323(remove_child_pid)
Could not find child 2686 -- ignoring"

oder:

"[2012/02/26 11:18:59.930997, 1] smbd/process.c:457(receive_smb_talloc)
receive_smb_raw_talloc failed for client 100.0.0.5 read error =
NT_STATUS_CONNECTION_RESET.
[2012/02/26 11:18:59.931259, 1] smbd/process.c:167(srv_send_smb)
[2012/02/26 11:18:59.931322, 2] lib/util_sock.c:1070(get_peer_addr_internal)
getpeername failed. Error was Der Socket ist nicht verbunden
pid[7168] Error writing 75 bytes to client 0.0.0.0. -1. (Datenübergabe
unterbrochen
(broken pipe))
[2012/02/26 11:18:59.931487, 1] smbd/service.c:1345(close_cnum)
100.0.0.5 (100.0.0.5) closed connection to service CAD
[2012/02/26 11:18:59.931550, 3] smbd/connection.c:35(yield_connection)
Yielding connection to CAD
[2012/02/26 11:18:59.995721, 3] smbd/server_exit.c:180(exit_server_common)
Server exit (failed to receive smb request)
[2012/02/26 11:19:00.694226, 3] smbd/server.c:292(remove_child_pid)
smbd/server.c:292 Unclean shutdown of pid 7168
[2012/02/26 11:19:00.697665, 1] smbd/server.c:300(remove_child_pid)
Scheduled cleanup of brl and lock database after unclean shutdown
[2012/02/26 11:19:20.717864, 1] smbd/server.c:272(cleanup_timeout_fn)
Cleaning up brl and lock database after unclean shutdown"

Der Fehler scheint nicht vom übertragenen Datenvolumen oder den Größen der
einzelnen Dateien abzuhängen, sondern zyklisch alle 10-15 Minuten aufzutreten.

Der Samba-Server schreibt nicht bei jeder Unterbrechung entsprechende Einträge
in die Logs. Es scheint, als bekommt er die Unterbrechnungen nicht jedes mal
mit.

Umgebung:
---------
- PDC in der Domäne ist ein Windows Server 2003 SP2 mit Active Directory. In
Sachen Patches ist der Server auf dem neuesten Stand.

- Samba ist als ADS-Member Server in die Domain integriert. Kerberos-Anbindung
und Domänen-Beitritt funktionierten fehlerfrei. Es kommt Samba in Version
3.6.3-89.1.x86_64 aus dem network:samba:stable Repository auf openSUSE 12.1
x86_64 zum Einsatz. Die SuSE ist ebenfalls auf aktuellem Patchlevel. (Der
Fehler tritt auch bei den original Paketen aus der Distribution auf.) Die
Firewall des Servers ist während der Tests abgeschaltet.

- In der Domain befinden sich zwei weitere Member-Server. Sie werden unter
w2k3-R2 bzw. W2k8 betrieben.

- Die Clients bewegen sich zwischen Windows XP und Windows 7. Es sind ca. 40
Clients im Netz.


smb.conf:
---------

Für die Tests arbeite ich mit einer minimalistischen smb.conf, um dusselige
Konfigurationsfehler auszuschließen:

[global]
server string = Fileserver
idmap gid = 10000-20000
idmap uid = 10000-20000
realm = WIKUT.LOCAL
security = ADS
template homedir = "/home/%D/%U"
template shell = /bin/bash
usershare allow guests = No
winbind refresh tickets = yes
workgroup = WIKUT
log level = 3
max protocol = SMB2
wins server = 100.0.0.5

socket options = IPTOS_LOWDELAY TCP_NODELAY SO_KEEPALIVE

[CAD]
comment = Konstruktionen
path = /srv/shares/cad
read only = No
inherit acls = Yes
create mask = 0660
directory mask = 0770

[Transfer]
comment = Dateiaustausch
path = /srv/shares/transfer
read only = No
public = yes
create mask = 0666
directory mask = 0777

Hardware:
---------

Der Samba Server ist auf einer Intel XEON 3GHZ (Chipsatz: E7520) Plattform
aufgebaut. Das System ist auf einem Software-RAID L5 installiert. LVM kommt
ebenfalls zum Einsatz, das verwendete Dateisystem ist EXT4. Zur Erweiterung der
beiden Onboard-SATA Schnittstellen kommt (leider) ein Highpoint 1740 Controller
zum Einsatz.

Der genannte Highpoint Controller verursachte anfangs Fehler (Rücksetzen der
ATA-Kanäle nach "frozen" Meldungen) vermutlich aufgrund von IRQ-Problemen.
Diese konnten jedoch durch abschalten aller nicht benötigten Komponenten auf
dem Board, sowie wechseln des PCI-Steckplatzes eliminiert werden.

Getestet wurde mit drei verschieden GBit NICs (Intel 82541GI, Marvel Yukon
beide onboard sowie einem Realtek RTL 8169SC als PCI Karte). Die Fehler treten
unabhängig vom verwendeten NIC auf.

ifconfig zeigt keine Fehler allerdings dropped packages:

"eth1 Link encap:Ethernet Hardware Adresse 00:04:23:C9:F3:BC
inet Adresse:100.0.0.10 Bcast:100.255.255.255 Maske:255.0.0.0
inet6 Adresse: fe80::204:23ff:fec9:f3bc/64
Gültigkeitsbereich:Verbindung
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:82772682 errors:0 dropped:12320 overruns:0 frame:0
TX packets:17775898 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 Sendewarteschlangenlänge:1000
RX bytes:122412244924 (116741.4 Mb) TX bytes:1146489696 (1093.3 Mb)"

Beide Server, wie auch der zum Testen genutzte Windows 7 PC hängen am gleichen
Switch. Zum Einsatz kommt ein Netgear GS748T. Der Switch meldet keinerlei
Fehler.


Verhalten der Clients:
----------------------

Windows 7

-> Das Übertragen großer Datenmengen (ca. 30 GB) klappte bei den Tests
fehlerfrei. Dies scheint allerdings daran zu liegen, dass hier die
Netzwerk-Performance so hoch ist, dass ich vermutlich die Datenübertraung in
einem Zeitfenster zwischen den Unterbrechungen durch bekommen habe. Die
Geschwindiglkeit erreichte bis zu 40MB/s beim Schreiben auf den
Samba-Server.

-> Nach einer Benutzeranmeldung am System dauert es sehr lange bis über die
Browsing-List auf den Samba Server zugegriffen werden kann. Es kommt dabei
immer wieder eine Fehlermeldung mit oben genanntem Fehlercode.

-> Auffällig ist, dass der Zugriff auf den Server mit \\IP-Addresse oder \\FQDN
in der Regel sofort funktioniert, während \\NETBIOS-NAME zu besagtem Fehler
führt.

-> Das Verbinden von Netzlaufwerken funktioniert zuverlässig bei Angabe der IP
oder dem FQDN. Sie verlieren jedoch auch immer wieder die Verbindung zum
Server. Dies zeigt sich auf dreierlei Weise:
-> Rotes X
-> Füllstandsbalken verschwindet
-> Der Inhalt des Laufwerks ist beim Öffnen nicht aktuell.

Ich habe hier mit dem Abschalten von IPv6 und dem NTLM-Verhalten
experimentiert. Nur letzteres schint (ist subjektiv) die Situation geringfügig
zu verbessern.

W2k3

-> Beim Übertragen von Datenmengen größer 10 - 15GB bricht die Verbindung
regelmäßig ab. Hier ist allerdings die Netzwerk-Performance trotz theoretisch
gleicher Geschwindigkeit des NICs deutlich kleiner als bei Windows 7. Es werden
Datenübertragungsraten von 10-15MB/s erreicht. D.h. der Kopiervorgang dauerte
immer länger als 10 Minuten.

-> Aufgefallen ist hier beim Blick in die WINS-Datenbank, dass die
WINS-Einträge des Samba-Servers als "freigegeben" gekennzeichnet waren Nachdem
ich statische Einträge erzeugt hatte schien (ist sehr subjektiv) sich die
Datenübertragungsgeswchwindigkeit zu erhöhen. Beim ersten Test ca 20GB Daten
auf den Samba-Server zu kopieren brach die Verbindung nicht ab, beim zweiten
Test war alles wieder wie gewohnt: Abbruch.

Die Windows Ereignisanzeige gibt weder unter Windwos 7 noch unter W2k3 etwas
her.

Windows XP

Windows XP zeigt ähnliche Verhaltensweisen, hier nutzt allerdings im Fehlerfall
auch \\IP-Addresse nichts.

Reproducible: Always

Steps to Reproduce:
1. Copy data over network, and wait...
2. Just wait 10 - 15 minutes and open network environment
3.
Actual Results:
look obove


assign this bug to: samba-maintainers@xxxxxxx

--
Configure bugmail: https://bugzilla.novell.com/userprefs.cgi?tab=email
------- You are receiving this mail because: -------
You are on the CC list for the bug.
< Previous Next >