midiboy
Goto Top

Massive Geschwindigkeitsprobleme Gigabitnetz

Hi Leute,

vielleicht fällt euch zu meinem problem was ein. ich bin ratlos. Bei einer Firma wo ich als Admin tätig bin haben wir einen Dlink Gigabit SWITCH (nix besonderes, billigmodell) sowie mehrere Server, die via Intel 1000GT Karten an diesen switch angeschlossen sind. Die Kabel sind alle Cat5e oder Cat6.

Vor Kurzem haben wir einen Backupserver installiert mit Hardware RAID5 auf PCI-X Basis der die ca. 700GB an Daten mittels NTBackup von allen rechnern holen und am RAID speichern soll. Die Maschine ist ne DualXeon Maschine, also recht flott. Alle Server sind Windows 2003 oder Windows 2000 Maschinen.

NIC Kartentreiber sind alle aktualisiert.

Nun das Problem: Das Backup der ca. 700GB dauert ca. 4 Tage und Nächte, also nicht durchführbar.

Habe in den letzten Tagen tausende Dinge getestet, aber ich komm nicht auf das Problem drauf. Das Backup eines 1 GB grossen files übers netzwerk dauert ca. 4 Minuten, das entspricht wohl ner Datenrate von ca. 4 MB/s. Das ist ja sogar für ein 10Mbitnetzwerk zuwenig, geschweige denn für ein 1 GBIT Netzwerk.

Ich habe den switch gegen einen HP Procurve switch getauscht > selbes problem
Habe 2 betroffene server direkt mittels CAT6 Kabel miteinander verbunden -> selbes Problem.
Habe die Netzwerkkarten getauscht (hatte aber nur anderer Intel Pro1000GT bzw. MT Karten).
Habe die Kabel getauscht
Habe alle möglichen Settings in den Treibern verändert

Bringt alles nix. Die Karten und der switch melden Gigabit connections aber über diese 4MB/s komm ich nicht raus.

Es ist keine Firewall installiert oder ähnliches installiert, Windows 2003 ist am letzten stand, auf den meisten servern ist nichtmal ein AV Programm installiert.

Die CPU auslastung ist unter 10%, die Datenrate mit der auf das RAID geschrieben werden kann liegt so bei 80MB/s (das hab ich getestet).

Die Netzwerkauslastung liegt immer unter 8%.

Interessanterweise steigt diese wenn ich 2 backups von 2 servern gleichzeitig mache. Aber wieso wird das 1 GB file nicht so schnell wie möglich übertragen sondern nur mit so geringer geschwindigkeit ?

Auf dem Procurve switch, der managebar ist sieht man auch sehr schön dass die geschwindigkeit nicht über 8MB/s rübergeht. Ich weiss nur nicht wieso ...

Hat jemand Ideen ? Wär super, ich bin am Verzweifeln face-sad
Danke !
Alex

Content-ID: 43127

Url: https://administrator.de/contentid/43127

Ausgedruckt am: 04.11.2024 um 22:11 Uhr

Supaman
Supaman 26.10.2006 um 21:05:24 Uhr
Goto Top
QoS in der netzwerkkarte aktiviert? das frisst massig durchsatz..
midiboy
midiboy 26.10.2006 um 21:15:42 Uhr
Goto Top
Hi !

Danke für deine Antwort. Ich denke nicht dass QoS aktiviert. ist. QoS ist bei Windows Server auch gar ned installiert standardmässig (zumindest taucht es nicht wie bei WinXP in den Netzwerkeigenschaften auf)
aqui
aqui 26.10.2006 um 21:16:18 Uhr
Goto Top
Da es ja scheinbar am Switch nicht liegen kann da die Direktverbindung Server zu Server mit Crosskabel ja auch solche schlechten Werte zeigt, kann es nur der Server oder der Treiber der NIC selber sein.
Einen Riesenfehler machst du allerdings: Du vertraust blind darauf das deine Backup Applikation das Netzwerk mit Wirespeed bedient. Das kann ein Trugschluss sein und um das sicher auszuschliessen solltest du erstmal besser die nackte Serverhardware OHNE irgendwelche Applikationen auf den Netzwerkdurchsatz testen.

Das macht man am einfachsten mit NetIO:

http://www.ars.de/ars/ars.nsf/docs/netio

Die Binärdateien entpacken und einfach in der Eingabeaufforderung starten. Auf der einen Seite mit -s als Server und die andere Seite einfach mit netio <Ziel IP>
Ein Aufruf ohne Parameter zeigt dir die Syntax.
Der Test testet die NIC bzw. den Netzwerkdurchsatz für unterschieldiche Packetgrößen. Du solltest den Test ebenfalls einmal direkt mit Crosskabel und mit Switch machen um sicher zu gehen.
Die Resultate davon sind verlässliche Durchsatzraten fürs Netzwerk. Danach kannst du dann entscheiden ob es die HW, die Applikation oder das Netz ist.
Nebenbei bemerkt ist es schon komisch bei solcher teuren Serverhardware Switching HW eines Billig Consumer Herstellers zu verwenden.....aber das ist eine andere Baustelle.

Die QoS Einstellung sollte aber schon bei XP in den Adaptereigenschaften auftauchen als "QoS Packetplaner". Das wird per Standard so installiert !?!
midiboy
midiboy 26.10.2006 um 21:30:42 Uhr
Goto Top
Hi nochmal,

hier mal ein Test mittels Sandra. Da sieht man den Durchsatz. Echt schlimm. Der Durchsatz ist auf manchen servern besser aber die meisten sind so bei 4-8 MB/s

http://members.chello.at/afmusic/Unbenannt.JPG
midiboy
midiboy 26.10.2006 um 22:16:56 Uhr
Goto Top
Hi aqui,

danke für deine ausführliche antwort !

Hier die netioresults:

http://members.chello.at/afmusic/Unbenannt2.JPG

Schon bissi niedrig oder ? Was heisst das jetzt konkret ? Dass die Hardware ned mehr kann ? Versteh ich aber nicht bei Intel 1000GT Karten.

Übrigens was den switch betrifft ... natürlich passt der ned ins netz, das ist so ein überbleibsel aus früheren Tagen. Ich bin dafür den gegen einen HP procurve auszutauschen, das will ich auch anregen aber offensichtlich wird das am Problem nichts ändern oder ?

QoS taucht bei Windows XP auf aber nicht bei Windows 2003 ...
Supaman
Supaman 27.10.2006 um 10:32:34 Uhr
Goto Top
mal ne andere frage: wie lang sind die kabel?

ich hab die erfahrung gemacht ,das grade bei längeren verbindungen und ev. zusätzlich schlecht geschirmten kabeln die rate auch böse in den keller gehen kann, auch abhängig davon wiw die umgebung der netzwerkkabel ist.
aqui
aqui 27.10.2006 um 13:23:08 Uhr
Goto Top
Solange er 100 Meter nicht überschreitet sollte das kein Thema sein. Ich denke mal das du den Test ja auch sicher Back to Back mit einem Kabel gemacht hast was nicht über 10 Meter geht oder ???
Die Werte von durchschnittlich 40 Mbit/s und dadrunter sind grottenschlecht und entsprechen nicht einmal dem Niveau einer 100 Mbit Karte und von den Realdaten einer 1000 Base T Karte sind sie natürlich meilenweit entfernt !!!
Armselig für eine Dual Xeon Maschine. Vermutlich ist da irgenwo der Wurm in der Hardwarekonfiguration. Auf alle Fälle liegt es de facto an der Maschine selber. Sind die NICs Chipsatz embedded oder externe Karten. Hoffentlich ist es kein PCI....
midiboy
midiboy 27.10.2006 um 14:50:27 Uhr
Goto Top
Hi Leute,

die Kabellänge zw. switch und server ist maximal 5m. Der switch selber hat natürlich noch nen uplink zu den anderen (fast ethernet) switches wo die ganzen clients dran hängen aber das hab ich jetzt auch schon abgehängt nur um sicherzugehen dass das ned stört.

Ich kann mir nicht vorstellen dass es an der Hardwareconfig der einzelnen server liegt. Die server sind alle komplett unterschiedlich. Einer ist ein Original Dell Server mit onboard Marvell GB NIC, der andere ist eben der DualXeon wo die Intel 1000MT Karte onboard am Asus board ist. Dann gibts noch paar low end server wo ne PCI Karte (eben die Intel 1000GT) drin ist aber wie gesagt sind alle unter 40MB/s und das ist noch gut. Einige der server haben gerade mal 3-8Mb/S durchsatz wie ihr an den pics sehen könnt.

Die Server haben de facto ausser dem Betriebssystem nix gemeinsam. In den meisten sind zwar diese Intel 1000GT PCI Karten drin aber wie gesagt gibts auch welche mit onboard Marvell und Intel nics und die sind auch ned viel besser.

Habt ihr noch irgendwelche Ideen ?
erikro
erikro 28.10.2006 um 00:43:03 Uhr
Goto Top
Hallo zusammen,

Du weißt ja schon, was es nicht ist. Es sind nicht die Kabel. Du hast sie getauscht und es auch mit Crossover-Kabel versucht. Es sind nicht die Treiber der NICs. Es sind verschiedene NICs, bei denen das gleiche Phänomen auftaucht. Es ist auch keine kaputte NIC. Sonst hätte es ja zwischen zwei Servern mal klappen müssen. Dass zwei oder drei gleichzeitig kaputt gehen, ist eher unwahrscheinlich. Der Switch ist es auch nicht. Den hast Du ja auch schon getauscht. Also musst Du den Fehler auf einer anderen Ebene suchen.

Die Festplatten-Subsysteme kannst Du auch ausschließen. Zum einen wäre auch das ein sehr unwahrscheinlicher Zufall, dass alle Server damit Probleme haben. Zum anderen sind die an dem Test, den Du gemacht hast, nicht beteiligt.

Ich würde als nächstes auf den Servern einen Sniffer laufen lassen und mal schauen, was da sonst noch so an Netzverkehr eingeht. Die Installation von SNMP-Clients wäre auch keine schlechte Idee. face-smile Vielleicht löst irgendwas wilde broadcasts aus.

Hast Du vielleicht ein Linux zur Verfügung? Vielleicht einfach mal Knoppix starten. face-smile Linux-Ping kann nämlich auch flood-ping und broadcast-ping. Beides kann man kombinieren. Das mit großen Paketen erzeugt reichlich Netzlast. Sowas würde ich auch mal auf die Server loslassen. Das läuft alleine mit ICMP und damit schließt Du die oberen Netzschichten vollständig aus. Du brauchst dafür root-Rechte.

Bei der Hardware sollten die Server selbst mehrere flood-pings von verschiedenen Stationen aus mit maximaler Paketgröße mit einem müden Lächeln wegstecken. Zur Orientierung: Ich habe das gerade im 100Mbit-Netzwerk gemacht. Da lagen die Antwortzeiten des Servers bei maximaler Paketgröße im Durchschnitt bei knapp 0,2 ms. Übermittelt wurden ca. 90.000 Pakete.

Wenn die Server da schon rumzicken, dann würde ich mir mal ganz genau anschauen, was denn da so alles an Diensten läuft und einen verdächtigen nach dem anderen abschalten. So lange, bis nichts mehr geht. *g* Und dann würde ich auch noch die laufenden Prozesse genau analysieren. Vielleicht ist da ja was, was da nicht hingehört.

hth

Liebe Grüße

Erik
aqui
aqui 28.10.2006 um 20:15:19 Uhr
Goto Top
Sniffer und SNMP (SNMP hilft hier gar nicht weiter...) Test ist eigentlich überflüssig, denn diese niedrigen Durchsatzraten treten ja auch mit einer Back to Back Verbindung mit einem Crossover auf den Server auf, also komplett OHNE ein Netzwerk im Hintergrund. Da ist die Frage von Traffic Volumen und Broadcasts relativ unwichtig....
Auch schnelle Antwortzeiten nützen ihm ja recht wenig wenn die Durchsatzraten so schlecht sind und sagen zudem nichts aus, wenns um Durchsatz geht.... Der Server bekommt halt nicht mehr Packete auf den Draht und das ist das Problem...
Aber wenn man alle Ausschlußkriterien berücksichtigt kann es eigentlich nur noch der Server bzw. die Serverhardware selber sein....
horst98
horst98 14.12.2006 um 17:51:43 Uhr
Goto Top
Vor Kurzem haben wir einen Backupserver
installiert mit Hardware RAID5 auf PCI-X
Basis der die ca. 700GB an Daten mittels
NTBackup von allen rechnern holen und am RAID
speichern soll. Die Maschine ist ne DualXeon
Maschine, also recht flott. Alle Server sind
Windows 2003 oder Windows 2000 Maschinen.
Ich hatte in der Vergangenheit ein massives Problem mit dem Schreiben auf ein RAID5-Array. Da kommen selbst gute Plattenarrays manchmal nur auf 5 bis 8 MB/s. Du solltest einmal die Nettorate bei einem Copy von einer Systemplatte intern auf das RAID5 Array mit dem 1 GB File messen. Nur Spitzenarrays kommen hier auf Werte über 30MB/s.

Wir selbst haben einen Backup-Server mit 1,5TB Platten. Wir sichern jede Nacht auf diese Platten und dann von dort einmal pro Woche am Tag auf ein LTO-Tape. Da man für diesen Zwischenspeicher nicht viel Sicherheit braucht haben wir RAID0 konfiguriert. Hier können wir ein Backupfile wirklich mit 35MB/s übers Netz schreiben. Ach ja, wir haben einen billigen P4 HT 2,8MHz im Einsatz. CPU Auslastung ca. 10%.

Ich vermute Euer Problem an einer ganz anderen Ecke. Die Sache mit den Diensten anzugehen halte ich auch für sehr gut zielführend. Dein Sandra Test zeigt schon in die richtige RIchtung. Sieh Dir einmal die irre große Latenzzeit an. Irgend etwas in Deinem Rechner sucht nach etwas, was es nicht findet. 17.200 us sind 17ms. Das sind typische Internet Ping Zeiten und viel zu lang für ein LAN.

Kann es sein, dass Euer Rechner irgendwas im Internet sucht? Ein falscher DNS-Eintrag oder so etwas?

Gruß
Horst Lüning
www.TheWhiskyStore.de