Massive Geschwindigkeitsprobleme Gigabitnetz
Hi Leute,
vielleicht fällt euch zu meinem problem was ein. ich bin ratlos. Bei einer Firma wo ich als Admin tätig bin haben wir einen Dlink Gigabit SWITCH (nix besonderes, billigmodell) sowie mehrere Server, die via Intel 1000GT Karten an diesen switch angeschlossen sind. Die Kabel sind alle Cat5e oder Cat6.
Vor Kurzem haben wir einen Backupserver installiert mit Hardware RAID5 auf PCI-X Basis der die ca. 700GB an Daten mittels NTBackup von allen rechnern holen und am RAID speichern soll. Die Maschine ist ne DualXeon Maschine, also recht flott. Alle Server sind Windows 2003 oder Windows 2000 Maschinen.
NIC Kartentreiber sind alle aktualisiert.
Nun das Problem: Das Backup der ca. 700GB dauert ca. 4 Tage und Nächte, also nicht durchführbar.
Habe in den letzten Tagen tausende Dinge getestet, aber ich komm nicht auf das Problem drauf. Das Backup eines 1 GB grossen files übers netzwerk dauert ca. 4 Minuten, das entspricht wohl ner Datenrate von ca. 4 MB/s. Das ist ja sogar für ein 10Mbitnetzwerk zuwenig, geschweige denn für ein 1 GBIT Netzwerk.
Ich habe den switch gegen einen HP Procurve switch getauscht > selbes problem
Habe 2 betroffene server direkt mittels CAT6 Kabel miteinander verbunden -> selbes Problem.
Habe die Netzwerkkarten getauscht (hatte aber nur anderer Intel Pro1000GT bzw. MT Karten).
Habe die Kabel getauscht
Habe alle möglichen Settings in den Treibern verändert
Bringt alles nix. Die Karten und der switch melden Gigabit connections aber über diese 4MB/s komm ich nicht raus.
Es ist keine Firewall installiert oder ähnliches installiert, Windows 2003 ist am letzten stand, auf den meisten servern ist nichtmal ein AV Programm installiert.
Die CPU auslastung ist unter 10%, die Datenrate mit der auf das RAID geschrieben werden kann liegt so bei 80MB/s (das hab ich getestet).
Die Netzwerkauslastung liegt immer unter 8%.
Interessanterweise steigt diese wenn ich 2 backups von 2 servern gleichzeitig mache. Aber wieso wird das 1 GB file nicht so schnell wie möglich übertragen sondern nur mit so geringer geschwindigkeit ?
Auf dem Procurve switch, der managebar ist sieht man auch sehr schön dass die geschwindigkeit nicht über 8MB/s rübergeht. Ich weiss nur nicht wieso ...
Hat jemand Ideen ? Wär super, ich bin am Verzweifeln
Danke !
Alex
vielleicht fällt euch zu meinem problem was ein. ich bin ratlos. Bei einer Firma wo ich als Admin tätig bin haben wir einen Dlink Gigabit SWITCH (nix besonderes, billigmodell) sowie mehrere Server, die via Intel 1000GT Karten an diesen switch angeschlossen sind. Die Kabel sind alle Cat5e oder Cat6.
Vor Kurzem haben wir einen Backupserver installiert mit Hardware RAID5 auf PCI-X Basis der die ca. 700GB an Daten mittels NTBackup von allen rechnern holen und am RAID speichern soll. Die Maschine ist ne DualXeon Maschine, also recht flott. Alle Server sind Windows 2003 oder Windows 2000 Maschinen.
NIC Kartentreiber sind alle aktualisiert.
Nun das Problem: Das Backup der ca. 700GB dauert ca. 4 Tage und Nächte, also nicht durchführbar.
Habe in den letzten Tagen tausende Dinge getestet, aber ich komm nicht auf das Problem drauf. Das Backup eines 1 GB grossen files übers netzwerk dauert ca. 4 Minuten, das entspricht wohl ner Datenrate von ca. 4 MB/s. Das ist ja sogar für ein 10Mbitnetzwerk zuwenig, geschweige denn für ein 1 GBIT Netzwerk.
Ich habe den switch gegen einen HP Procurve switch getauscht > selbes problem
Habe 2 betroffene server direkt mittels CAT6 Kabel miteinander verbunden -> selbes Problem.
Habe die Netzwerkkarten getauscht (hatte aber nur anderer Intel Pro1000GT bzw. MT Karten).
Habe die Kabel getauscht
Habe alle möglichen Settings in den Treibern verändert
Bringt alles nix. Die Karten und der switch melden Gigabit connections aber über diese 4MB/s komm ich nicht raus.
Es ist keine Firewall installiert oder ähnliches installiert, Windows 2003 ist am letzten stand, auf den meisten servern ist nichtmal ein AV Programm installiert.
Die CPU auslastung ist unter 10%, die Datenrate mit der auf das RAID geschrieben werden kann liegt so bei 80MB/s (das hab ich getestet).
Die Netzwerkauslastung liegt immer unter 8%.
Interessanterweise steigt diese wenn ich 2 backups von 2 servern gleichzeitig mache. Aber wieso wird das 1 GB file nicht so schnell wie möglich übertragen sondern nur mit so geringer geschwindigkeit ?
Auf dem Procurve switch, der managebar ist sieht man auch sehr schön dass die geschwindigkeit nicht über 8MB/s rübergeht. Ich weiss nur nicht wieso ...
Hat jemand Ideen ? Wär super, ich bin am Verzweifeln
Danke !
Alex
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 43127
Url: https://administrator.de/contentid/43127
Ausgedruckt am: 23.11.2024 um 01:11 Uhr
11 Kommentare
Neuester Kommentar
Da es ja scheinbar am Switch nicht liegen kann da die Direktverbindung Server zu Server mit Crosskabel ja auch solche schlechten Werte zeigt, kann es nur der Server oder der Treiber der NIC selber sein.
Einen Riesenfehler machst du allerdings: Du vertraust blind darauf das deine Backup Applikation das Netzwerk mit Wirespeed bedient. Das kann ein Trugschluss sein und um das sicher auszuschliessen solltest du erstmal besser die nackte Serverhardware OHNE irgendwelche Applikationen auf den Netzwerkdurchsatz testen.
Das macht man am einfachsten mit NetIO:
http://www.ars.de/ars/ars.nsf/docs/netio
Die Binärdateien entpacken und einfach in der Eingabeaufforderung starten. Auf der einen Seite mit -s als Server und die andere Seite einfach mit netio <Ziel IP>
Ein Aufruf ohne Parameter zeigt dir die Syntax.
Der Test testet die NIC bzw. den Netzwerkdurchsatz für unterschieldiche Packetgrößen. Du solltest den Test ebenfalls einmal direkt mit Crosskabel und mit Switch machen um sicher zu gehen.
Die Resultate davon sind verlässliche Durchsatzraten fürs Netzwerk. Danach kannst du dann entscheiden ob es die HW, die Applikation oder das Netz ist.
Nebenbei bemerkt ist es schon komisch bei solcher teuren Serverhardware Switching HW eines Billig Consumer Herstellers zu verwenden.....aber das ist eine andere Baustelle.
Die QoS Einstellung sollte aber schon bei XP in den Adaptereigenschaften auftauchen als "QoS Packetplaner". Das wird per Standard so installiert !?!
Einen Riesenfehler machst du allerdings: Du vertraust blind darauf das deine Backup Applikation das Netzwerk mit Wirespeed bedient. Das kann ein Trugschluss sein und um das sicher auszuschliessen solltest du erstmal besser die nackte Serverhardware OHNE irgendwelche Applikationen auf den Netzwerkdurchsatz testen.
Das macht man am einfachsten mit NetIO:
http://www.ars.de/ars/ars.nsf/docs/netio
Die Binärdateien entpacken und einfach in der Eingabeaufforderung starten. Auf der einen Seite mit -s als Server und die andere Seite einfach mit netio <Ziel IP>
Ein Aufruf ohne Parameter zeigt dir die Syntax.
Der Test testet die NIC bzw. den Netzwerkdurchsatz für unterschieldiche Packetgrößen. Du solltest den Test ebenfalls einmal direkt mit Crosskabel und mit Switch machen um sicher zu gehen.
Die Resultate davon sind verlässliche Durchsatzraten fürs Netzwerk. Danach kannst du dann entscheiden ob es die HW, die Applikation oder das Netz ist.
Nebenbei bemerkt ist es schon komisch bei solcher teuren Serverhardware Switching HW eines Billig Consumer Herstellers zu verwenden.....aber das ist eine andere Baustelle.
Die QoS Einstellung sollte aber schon bei XP in den Adaptereigenschaften auftauchen als "QoS Packetplaner". Das wird per Standard so installiert !?!
Solange er 100 Meter nicht überschreitet sollte das kein Thema sein. Ich denke mal das du den Test ja auch sicher Back to Back mit einem Kabel gemacht hast was nicht über 10 Meter geht oder ???
Die Werte von durchschnittlich 40 Mbit/s und dadrunter sind grottenschlecht und entsprechen nicht einmal dem Niveau einer 100 Mbit Karte und von den Realdaten einer 1000 Base T Karte sind sie natürlich meilenweit entfernt !!!
Armselig für eine Dual Xeon Maschine. Vermutlich ist da irgenwo der Wurm in der Hardwarekonfiguration. Auf alle Fälle liegt es de facto an der Maschine selber. Sind die NICs Chipsatz embedded oder externe Karten. Hoffentlich ist es kein PCI....
Die Werte von durchschnittlich 40 Mbit/s und dadrunter sind grottenschlecht und entsprechen nicht einmal dem Niveau einer 100 Mbit Karte und von den Realdaten einer 1000 Base T Karte sind sie natürlich meilenweit entfernt !!!
Armselig für eine Dual Xeon Maschine. Vermutlich ist da irgenwo der Wurm in der Hardwarekonfiguration. Auf alle Fälle liegt es de facto an der Maschine selber. Sind die NICs Chipsatz embedded oder externe Karten. Hoffentlich ist es kein PCI....
Hallo zusammen,
Du weißt ja schon, was es nicht ist. Es sind nicht die Kabel. Du hast sie getauscht und es auch mit Crossover-Kabel versucht. Es sind nicht die Treiber der NICs. Es sind verschiedene NICs, bei denen das gleiche Phänomen auftaucht. Es ist auch keine kaputte NIC. Sonst hätte es ja zwischen zwei Servern mal klappen müssen. Dass zwei oder drei gleichzeitig kaputt gehen, ist eher unwahrscheinlich. Der Switch ist es auch nicht. Den hast Du ja auch schon getauscht. Also musst Du den Fehler auf einer anderen Ebene suchen.
Die Festplatten-Subsysteme kannst Du auch ausschließen. Zum einen wäre auch das ein sehr unwahrscheinlicher Zufall, dass alle Server damit Probleme haben. Zum anderen sind die an dem Test, den Du gemacht hast, nicht beteiligt.
Ich würde als nächstes auf den Servern einen Sniffer laufen lassen und mal schauen, was da sonst noch so an Netzverkehr eingeht. Die Installation von SNMP-Clients wäre auch keine schlechte Idee. Vielleicht löst irgendwas wilde broadcasts aus.
Hast Du vielleicht ein Linux zur Verfügung? Vielleicht einfach mal Knoppix starten. Linux-Ping kann nämlich auch flood-ping und broadcast-ping. Beides kann man kombinieren. Das mit großen Paketen erzeugt reichlich Netzlast. Sowas würde ich auch mal auf die Server loslassen. Das läuft alleine mit ICMP und damit schließt Du die oberen Netzschichten vollständig aus. Du brauchst dafür root-Rechte.
Bei der Hardware sollten die Server selbst mehrere flood-pings von verschiedenen Stationen aus mit maximaler Paketgröße mit einem müden Lächeln wegstecken. Zur Orientierung: Ich habe das gerade im 100Mbit-Netzwerk gemacht. Da lagen die Antwortzeiten des Servers bei maximaler Paketgröße im Durchschnitt bei knapp 0,2 ms. Übermittelt wurden ca. 90.000 Pakete.
Wenn die Server da schon rumzicken, dann würde ich mir mal ganz genau anschauen, was denn da so alles an Diensten läuft und einen verdächtigen nach dem anderen abschalten. So lange, bis nichts mehr geht. *g* Und dann würde ich auch noch die laufenden Prozesse genau analysieren. Vielleicht ist da ja was, was da nicht hingehört.
hth
Liebe Grüße
Erik
Du weißt ja schon, was es nicht ist. Es sind nicht die Kabel. Du hast sie getauscht und es auch mit Crossover-Kabel versucht. Es sind nicht die Treiber der NICs. Es sind verschiedene NICs, bei denen das gleiche Phänomen auftaucht. Es ist auch keine kaputte NIC. Sonst hätte es ja zwischen zwei Servern mal klappen müssen. Dass zwei oder drei gleichzeitig kaputt gehen, ist eher unwahrscheinlich. Der Switch ist es auch nicht. Den hast Du ja auch schon getauscht. Also musst Du den Fehler auf einer anderen Ebene suchen.
Die Festplatten-Subsysteme kannst Du auch ausschließen. Zum einen wäre auch das ein sehr unwahrscheinlicher Zufall, dass alle Server damit Probleme haben. Zum anderen sind die an dem Test, den Du gemacht hast, nicht beteiligt.
Ich würde als nächstes auf den Servern einen Sniffer laufen lassen und mal schauen, was da sonst noch so an Netzverkehr eingeht. Die Installation von SNMP-Clients wäre auch keine schlechte Idee. Vielleicht löst irgendwas wilde broadcasts aus.
Hast Du vielleicht ein Linux zur Verfügung? Vielleicht einfach mal Knoppix starten. Linux-Ping kann nämlich auch flood-ping und broadcast-ping. Beides kann man kombinieren. Das mit großen Paketen erzeugt reichlich Netzlast. Sowas würde ich auch mal auf die Server loslassen. Das läuft alleine mit ICMP und damit schließt Du die oberen Netzschichten vollständig aus. Du brauchst dafür root-Rechte.
Bei der Hardware sollten die Server selbst mehrere flood-pings von verschiedenen Stationen aus mit maximaler Paketgröße mit einem müden Lächeln wegstecken. Zur Orientierung: Ich habe das gerade im 100Mbit-Netzwerk gemacht. Da lagen die Antwortzeiten des Servers bei maximaler Paketgröße im Durchschnitt bei knapp 0,2 ms. Übermittelt wurden ca. 90.000 Pakete.
Wenn die Server da schon rumzicken, dann würde ich mir mal ganz genau anschauen, was denn da so alles an Diensten läuft und einen verdächtigen nach dem anderen abschalten. So lange, bis nichts mehr geht. *g* Und dann würde ich auch noch die laufenden Prozesse genau analysieren. Vielleicht ist da ja was, was da nicht hingehört.
hth
Liebe Grüße
Erik
Sniffer und SNMP (SNMP hilft hier gar nicht weiter...) Test ist eigentlich überflüssig, denn diese niedrigen Durchsatzraten treten ja auch mit einer Back to Back Verbindung mit einem Crossover auf den Server auf, also komplett OHNE ein Netzwerk im Hintergrund. Da ist die Frage von Traffic Volumen und Broadcasts relativ unwichtig....
Auch schnelle Antwortzeiten nützen ihm ja recht wenig wenn die Durchsatzraten so schlecht sind und sagen zudem nichts aus, wenns um Durchsatz geht.... Der Server bekommt halt nicht mehr Packete auf den Draht und das ist das Problem...
Aber wenn man alle Ausschlußkriterien berücksichtigt kann es eigentlich nur noch der Server bzw. die Serverhardware selber sein....
Auch schnelle Antwortzeiten nützen ihm ja recht wenig wenn die Durchsatzraten so schlecht sind und sagen zudem nichts aus, wenns um Durchsatz geht.... Der Server bekommt halt nicht mehr Packete auf den Draht und das ist das Problem...
Aber wenn man alle Ausschlußkriterien berücksichtigt kann es eigentlich nur noch der Server bzw. die Serverhardware selber sein....
Vor Kurzem haben wir einen Backupserver
installiert mit Hardware RAID5 auf PCI-X
Basis der die ca. 700GB an Daten mittels
NTBackup von allen rechnern holen und am RAID
speichern soll. Die Maschine ist ne DualXeon
Maschine, also recht flott. Alle Server sind
Windows 2003 oder Windows 2000 Maschinen.
Ich hatte in der Vergangenheit ein massives Problem mit dem Schreiben auf ein RAID5-Array. Da kommen selbst gute Plattenarrays manchmal nur auf 5 bis 8 MB/s. Du solltest einmal die Nettorate bei einem Copy von einer Systemplatte intern auf das RAID5 Array mit dem 1 GB File messen. Nur Spitzenarrays kommen hier auf Werte über 30MB/s.installiert mit Hardware RAID5 auf PCI-X
Basis der die ca. 700GB an Daten mittels
NTBackup von allen rechnern holen und am RAID
speichern soll. Die Maschine ist ne DualXeon
Maschine, also recht flott. Alle Server sind
Windows 2003 oder Windows 2000 Maschinen.
Wir selbst haben einen Backup-Server mit 1,5TB Platten. Wir sichern jede Nacht auf diese Platten und dann von dort einmal pro Woche am Tag auf ein LTO-Tape. Da man für diesen Zwischenspeicher nicht viel Sicherheit braucht haben wir RAID0 konfiguriert. Hier können wir ein Backupfile wirklich mit 35MB/s übers Netz schreiben. Ach ja, wir haben einen billigen P4 HT 2,8MHz im Einsatz. CPU Auslastung ca. 10%.
Ich vermute Euer Problem an einer ganz anderen Ecke. Die Sache mit den Diensten anzugehen halte ich auch für sehr gut zielführend. Dein Sandra Test zeigt schon in die richtige RIchtung. Sieh Dir einmal die irre große Latenzzeit an. Irgend etwas in Deinem Rechner sucht nach etwas, was es nicht findet. 17.200 us sind 17ms. Das sind typische Internet Ping Zeiten und viel zu lang für ein LAN.
Kann es sein, dass Euer Rechner irgendwas im Internet sucht? Ein falscher DNS-Eintrag oder so etwas?
Gruß
Horst Lüning
www.TheWhiskyStore.de