RX Dropped Pkts Problem
Hallo zusammen,
ich habe ein Problem mit unserem Client Switch. Dieses ist ein D-Link DGS-1510-52, welches mit unserem Server Switch HP2920 Verbunden ist. Es sind 4 Port gebündelt.
Nun sehe ich in der Überwachung der Ports des D-Links, dass bei den gebündelten Ports viele Pakete verloren gehen. Beim HP ist das nicht der Fall.
Kann man hier etwas unternehmen? Oder ist das zu vernachlässigen?
Hier noch ein paar Daten:
D-Link: Portkanal-Info
LACP Zeitüberschreitung: Long
Betriebsmodus: Active
LACP Staus bndl
Port Prioritär: 32768
HP: Portkanal-Nachbarinfo
Partnersystem-ID: 38656,6C-C2-17-05-97-00
Partner PortNr. für alle port erkannt
Partner LACP-Zeitüberschreitung: Long
Partnerbetriebsmodus: Active
Partner Port Prioritär: 0
Über eure Hilfe würde ich mich freuen.
Gruß Micha
ich habe ein Problem mit unserem Client Switch. Dieses ist ein D-Link DGS-1510-52, welches mit unserem Server Switch HP2920 Verbunden ist. Es sind 4 Port gebündelt.
Nun sehe ich in der Überwachung der Ports des D-Links, dass bei den gebündelten Ports viele Pakete verloren gehen. Beim HP ist das nicht der Fall.
Kann man hier etwas unternehmen? Oder ist das zu vernachlässigen?
Hier noch ein paar Daten:
D-Link: Portkanal-Info
LACP Zeitüberschreitung: Long
Betriebsmodus: Active
LACP Staus bndl
Port Prioritär: 32768
HP: Portkanal-Nachbarinfo
Partnersystem-ID: 38656,6C-C2-17-05-97-00
Partner PortNr. für alle port erkannt
Partner LACP-Zeitüberschreitung: Long
Partnerbetriebsmodus: Active
Partner Port Prioritär: 0
Über eure Hilfe würde ich mich freuen.
Gruß Micha
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 331384
Url: https://administrator.de/contentid/331384
Ausgedruckt am: 21.11.2024 um 17:11 Uhr
14 Kommentare
Neuester Kommentar
Kann man hier etwas unternehmen?
JaOder ist das zu vernachlässigen?
Die Frage kann man dir logischerweise nicht beantworten, da du mit keinem Wort sagst wieviel Packet Drops pro übertragenen Pakets auftreten.Das sollte dir doch auch selber klar sein das wir bei so einer oberflächlichen Pauschalaussage auch nur raten können. Ein Prozentsatz von <1% ist sicher tolerabel. Mehr nicht.
Du kannst ja sehen das die HP Gurke scheinbar keine Probleme hat.
Man müsste mal sehen was die Drops sind bzw.was der D-Link als Dropped bezeichnet. Das können kaputte Frames sein (Runts, Giants, Collisions) aber auch welche mit falschen Tags usw. oder welche die der Switch aufgrund seiner schlehcten Performance nicht forwarden konnte und so weggeschmissen hat.
Verdächtig ist das das einseitig ist und auf der anderen Seite nicht auftritt. Das zeigt eher auf einen Fehler im D-Link. Häufig ist das eine fehlerhafte Optik (bei Fiber) oder bei Kupfer defekte Kabel oder Transceiver.
Hier muss man forschen.
Hast du mal geprüft ob es auf den einzelnen Links zu Überlast Situationen kommt ??
LACP LAGs unterliegen einem Hashing Verfahren. Es ist KEIN homogenes Per Packet Vertelen der Daten. Die Flows werden je nachdem wie du die Hashberechnung eingestellt hast nach Mac Adressen oder IP Adressen gemacht und auf die 4 Links verteilt.
Es ist möglich das ein Link 80% der Last trägt und die 3 anderen den Rest. Davon ist meist auszugehen wenn ein Ende nur wenig IP oder Mac Adressen hat und so wenig Entropie bei den Endadressen vorliegt die die Verteilung bedingt.
Weiteres dazu erklären dir diese Threads:
Cisco LAG-LACP an Synology RS3614xs+ Bonding Bandbreite zu niedrig
LAG zwischen SG300-Switches macht Probleme. Wer weiß Rat?
Du solltest also zuerst mal die Verteilung des Traffics auf den Links checken um zu sehen ob die Drops ggf. mit höher belastetn Links korrelieren. Das würde dann schon mehr Licht auf die Uhrsache werfen.
STG z.B. visualisiert das in einer grafischen Form über SNMP
http://leonidvm.chat.ru
Ich muss dazu sagen, dass ich ein Leihe bin
So so, dich kann man also mal ausleihen ??!! http://www.duden.de/rechtschreibung/Laie
Ich weiss nicht, wie ich den Grafen auf den einzelne Port einstellen kann.
Vergiss das. Wenn du keinerlei Ahnung hast dann würde das hier den Rahmen sprengen dir das zu erklären. Nur so viel. JA es ist die OID !Du musst die Interface OID des Interfaces da eintragen was du überwachen willst. Du kannst STG 4mal starten und kannst dann so den Traffic alle 4 LAG Port ssehen.
Die OIDs entsprechen der Ethernet Standard MIB. Das sollte dir als Erklärung helfen !
http://cisconet.com/traffic-analysis/traffic-monitoring/247-quick-realt ...
1.3.6.1.2.1.2.2.1.10.x = auch bei dir Grün (inbound)
1.3.6.1.2.1.2.2.1.16.x = auch bei dir Blau (outbound)
Du musst nur die Interface Indexierung deines Switches rausbekommen. X = die Port Indexnummer.
Im einfachsten Fall mal mit 1,2 3 usw. nach Port Nummern versuchen.
Das es keine Packetfehler sind legt den Schluss nache das du dort einen tagged Link betreibst und tagged VLANs überträgst was ja durchaus Sinn macht wenn man mehrere VLANs auf den Switches betreibt.
Was häufig falsch gemacht wird ist die Tatsache das du z.B. 10 VLANs auf dem HP betreibst und diese 10 VLANs auch alle tagged auf dem Link zum D-Link überträgst.
Dort brauchst du aber z.B. nur die VLANs 1,2 und 3 und hast die auf dem Link auch als tagged eingetragen.
Wenn nun aber der HP einen Frame aus dem VLAN 7 schickt sendet er ihn ka am Port raus mit einem VLAN 7 Tag.
Dieser Frame kommt am D-Link an und da der kein VLAN 7 hat kan er damit nix anfangen und dropped den Frame.
Kann es also sein das du ggf. ein VLAN Mismatch hast zw. den HP Links und den korrespondirenden D-Link links.
Das wäre ebenso ein Indiz dafür das der Drop Counter hochgeht und zwar nur einseitig.
Ich glaube, dass ich den Trunk mal deaktiviere und schaue ob sich dadurch Veränderungen ergeben.
Das ist vollkommen sinnfrei und zeigt eher dein erschreckend schwaches Netzwerk Wissen. Du agierst hier hilflos im freien Fall mit Trial und Error Bringt meist nix.Nimm dir jemanden an die Hand der wirklich weiss was er tut und dann macht ihr euch strategisch auf die Suche.
Wie würdes du das finden wenn dein Autohändler bei der nächsten Wartung deines Autos sagt er hat da den Blumenhändler von nebenan als Vertretung der das an deinem Auto macht.
Deine Reaktion kann man sich denken....
Also: hol dir Hilfe und erspar dir die grauen Haare und sinnfreies Basteln.
Glückwunsch...deine Netzwerkkentnisse haben sich um 100% gesteigert. SNMP ist schon großes Kino
Deinen Grafiken oben (danke fürs Posten hier...!) zeigt mal wieder eindeutig wie ungranular die Verteilung ist bei Billigswitches die nur Mac- oder IP Adressen in die Berechnung einfliessen lassen und wenn wenig Mac- oder IP Adressen beidseitig des Links vorhanden sind, es also eine sehr sehr geringe Entropie gibt.
Wenn du keinerlei Sgementierung machst sprich VLANs und alles ein dummes, flaches Netzwerk ist, dann müssen es physische Probleme sein.
Ggf. kann das auch durch ein schadhaftes Kabel ausgelöst werden. Testweise also mal tauschen.
Spannend wäre auch zu wissen ob der Fehler mitwandert. Wenn du also diesen Link einfach mal ziehst und dann ein anderer diesen LAG Link Traffic übernimmt ob dort auch die Counter wieder hochgehen.
Das würde dann zeigen das der Fehler nicht Port bedingt ist also auf die HW bezogen.
Da sich die restlichen 3 Links ja langweilen kannst du gefahrlos den mal abziehen. Die anderen werden dann sofort übernehmen und am STG kannst du dann wunderschön sehen wer denn den Traffic abfackelt...und dort natürlich dann die Counter beobachten.
Dieser Port hat auch die ganze Auslastung.
Das war zu erwarten, denn das liegt am Hashing Verfahren bei LACP LAGs.Deinen Grafiken oben (danke fürs Posten hier...!) zeigt mal wieder eindeutig wie ungranular die Verteilung ist bei Billigswitches die nur Mac- oder IP Adressen in die Berechnung einfliessen lassen und wenn wenig Mac- oder IP Adressen beidseitig des Links vorhanden sind, es also eine sehr sehr geringe Entropie gibt.
Wenn du keinerlei Sgementierung machst sprich VLANs und alles ein dummes, flaches Netzwerk ist, dann müssen es physische Probleme sein.
Ggf. kann das auch durch ein schadhaftes Kabel ausgelöst werden. Testweise also mal tauschen.
Spannend wäre auch zu wissen ob der Fehler mitwandert. Wenn du also diesen Link einfach mal ziehst und dann ein anderer diesen LAG Link Traffic übernimmt ob dort auch die Counter wieder hochgehen.
Das würde dann zeigen das der Fehler nicht Port bedingt ist also auf die HW bezogen.
Da sich die restlichen 3 Links ja langweilen kannst du gefahrlos den mal abziehen. Die anderen werden dann sofort übernehmen und am STG kannst du dann wunderschön sehen wer denn den Traffic abfackelt...und dort natürlich dann die Counter beobachten.
Die Hashing Verfahren können unterschiedlich sein. Das stört nicht, im Gegenteil. Die Hash Berechnung welchen Link das Pärchen nimmt passiert immer pro Seite. Es kann also sein das das Paket hin einen anderen Linkweg nimmt als zurück, was per se nicht falsch oder schlecht ist.
Was das LACP anbetrifft sollten wenn möglich IMMER beide Seiten im Active State sein.
Die beiden Enden kaspern dann selber aus wer active und passive wird.
So kann es niemals passieren, das man aus Versehen mal 2 passive Seiten zusammensteckt die dann nie einen LAG bilden könnten.
In ganz seltenen Fällen werden sich beide Partner mal nicht einig. Dann hilft es eine Seite dediziert active zu nehmen und eine passive. Mit welcher es dann klappt ist Testsache.
Wie gesagt, das ist sehr selten, kann aber mal passieren.
In sofern ist es immer sehr wichtig das man auf BEIDEN Switchseiten den LACP Status ansieht und checkt das beide Seiten einen LAG immer als "Operational" oder "UP" anzeigen.
Was das LACP anbetrifft sollten wenn möglich IMMER beide Seiten im Active State sein.
Die beiden Enden kaspern dann selber aus wer active und passive wird.
So kann es niemals passieren, das man aus Versehen mal 2 passive Seiten zusammensteckt die dann nie einen LAG bilden könnten.
In ganz seltenen Fällen werden sich beide Partner mal nicht einig. Dann hilft es eine Seite dediziert active zu nehmen und eine passive. Mit welcher es dann klappt ist Testsache.
Wie gesagt, das ist sehr selten, kann aber mal passieren.
In sofern ist es immer sehr wichtig das man auf BEIDEN Switchseiten den LACP Status ansieht und checkt das beide Seiten einen LAG immer als "Operational" oder "UP" anzeigen.
Hallo zusammen,
Ich würde das auch ganz anders versuchen zu lösen, denn der DGS1510 ist ein Layer3 Switch mit 2 SFP+ Ports und dort
kann man den Server dann mittels 10 GBit/s anbinden! Und wenn zwischen den Switchen ein 4er LAG (LACP) läuft und
der Server "nur" mittels 1 GBit/s angebunden wird dann kann es eben auch dort wieder zu Störungen kommen!!!
Die Switche werden ja nicht die ganze zeit getauscht und wieder anders eingesetzt, aber genau deswegen kann man
auch ein statisches LAG aufsetzen und dann Round Robin als Methode zur Lastverteilung benutzen, dann werden
auch in der regle alle Leitungen gleichzeitig benutzt!
Gruß
Dobby
Ich glaube, dass ich den Trunk mal deaktiviere und schaue ob sich dadurch Veränderungen ergeben. Evtl. reicht die
1gig-Verbindung aus, hier sind hauptsächlich Clients für RDP-Verbindungen angeschloßen.
Nimm doch einfach eine 10 GBit/s Verbindung mittels eines DAC Kabels und gut ist es.1gig-Verbindung aus, hier sind hauptsächlich Clients für RDP-Verbindungen angeschloßen.
Wenn die anderen 3 Port sich langweilen, dann könnte ich doch wirklich den Trunk reduzieren. Ich kann leider auch nicht
abschätzen ob eine durchschnittliche Auslastung bei 167,8kb jetzt für den 1GB Port viel ist (denke nicht). Große Daten
werden eigentlich nicht übertragen.
Wenn eine Leitung voll ist, wird die nächste angefangen!abschätzen ob eine durchschnittliche Auslastung bei 167,8kb jetzt für den 1GB Port viel ist (denke nicht). Große Daten
werden eigentlich nicht übertragen.
Müssen die beiden Hashing Verfahren gleich sein. Also (HP)MAC- MAC (Dlink) oder geht bei einem (HP)MAC und bei anderem
(Dlink)IP oder beides zusammen oder ist das bei uns nicht relevant. Können beide aktiv sein oder muss einer passive der andere
aktiv sein.
Das eine findet auf Layer2 (MAC) statt und das andere auf Layer3 (IP), also das sollte schon zueinander passen.(Dlink)IP oder beides zusammen oder ist das bei uns nicht relevant. Können beide aktiv sein oder muss einer passive der andere
aktiv sein.
Ich würde das auch ganz anders versuchen zu lösen, denn der DGS1510 ist ein Layer3 Switch mit 2 SFP+ Ports und dort
kann man den Server dann mittels 10 GBit/s anbinden! Und wenn zwischen den Switchen ein 4er LAG (LACP) läuft und
der Server "nur" mittels 1 GBit/s angebunden wird dann kann es eben auch dort wieder zu Störungen kommen!!!
Die Switche werden ja nicht die ganze zeit getauscht und wieder anders eingesetzt, aber genau deswegen kann man
auch ein statisches LAG aufsetzen und dann Round Robin als Methode zur Lastverteilung benutzen, dann werden
auch in der regle alle Leitungen gleichzeitig benutzt!
Gruß
Dobby
Danke für die Info. 10GB ist vermutlich übertrieben,
Naja, also bei 10 GBit/s gibt es, sicherlich auch Protokoll abhängig, aber dort kann man irgend etwas zwischen 2 GBit/s und 4 GBit/sals Netto-Durchsatz erwarten und dann die zu 4 GBit/s aggregierte Leitung des LAG (statisch) und dann sollte dort kein Flaschenhals
mehr vorhanden sein. Denn egal wie man es hin oder her biegt bei Packet Drops oder loss sind immer zu viele Daten die nicht schnell
genug durch einen oder mehrere Ports gehen, oder eben nicht schnell genug verarbeitet werden.
Gruß
Dobby
dass beim statischen trunk kein Protokoll eingesetzt wird.
Ja, das ist richtig. Das wird OHNE das LACP Protokoll realisiert. Hier muss man also gewaltig aufpassen das hinter den LAG Ports auch wieder LAG Ports der anderen Seite sind, da die Siwtches das nicht mehr selber merken können.Logisch das die andere Seite dann auch statische LAGs machen muss. Andernfalls würde sonst deren LACP ins Nirwana laufen...logisch !
Beim HP soll ich anscheinen auch noch wählen können zwischen statischen LACP und statischen Trunk.
Ziemlich viele Konjunktive in dem Satz... Sieh ins Handbuch, da sollte das stehen. Switches die auch statische LAGs haben können das je.
Ist ja auch logisch denn je nachdem ob man LACP macht oder eben statisch entscheidet man sich ja automatische zwischen beiden Optionen.
Die Aussage ist also ein bischen sinnfrei von dir....
Des weiteren muss man anscheinen auch aufpassen und spanning-tree und so ein "gedöns" aktivieren
Das klingt nicht gerade vertrauenserweckend bei dir das du technisch weisst was du da eigentlich machst. Aber die Antwort lautet ja ! In jedem Falle sollte man bei statischen LAGs immer wenn irgendmöglich Spanning Tree aktiv haben um sich vor versehentlichen Loops zu schützen. LACP kann dafür ja dann nicht mehr sorgen...klar !Hab schon alles aktiviert, was zu aktivieren ist.
Klingt auch nicht gerade sehr professionell...