Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Frage zu Spanning-Tree-Layout

Mitglied: LordGurke

LordGurke (Level 3) - Jetzt verbinden

16.02.2020, aktualisiert 14:43 Uhr, 1597 Aufrufe, 11 Kommentare

Hallo zusammen,


ich habe aktuell das Problem, dass in einem relativ frisch aufgebauten Netzwerk mit redundanten Pfaden und MSTP inzwischen drei Mal ein Loop entstanden ist, der sich nur durch das Abschalten mehrerer Verbindungen auflösen ließ.

Dieser Vorfall hat sich nun noch ein paar Mal wiederholt und ich ging irgendwann zum Hersteller, der mir zum einen eine neue Firmware gab, aber auch etwas unspezifisch anmerkte, dass das am Netzwerkdesign selbst liegen könnte. Irgendwas wegen der Anzahl redundanter Wege.
Die neue Firmware habe ich eingespielt, aber jetzt frage ich mich, was an dem Netzwerklayout so verkehrt sein soll, dass es trotz (oder wegen) Spanning-Tree immer wieder ohne erkennbaren Grund Loops produziert.


Zum Netzwerkdesign:
Die Switches sind jeweils als Pärchen auf insgesamt drei Racks verteilt.
In Rack 2 befindet sich das Storage, deshalb sind dort auch die Root-Bridges.
Es existieren insgesamt fünf VLANs, von denen aber nur zwei für Storage verwendet werden. Die anderen drei VLANs transportieren anderen Traffic mit jeweils geringer Bandbreite.

Switches mit einer ungeraden Nummer sollen bevorzugt für die Anbindung an das Storage verwendet werden,
die Switches mit einer geraden Nummer dienen als Failover und transportieren sonst bevorzugt die anderen Nicht-Storage VLANs.
Die angeschlossenen Server sind mittels Master-Slave-Bonding (Linux) an beide Switches gleichzeitig angeschlossen und sind pro VLAN konfiguriert um wie oben beschrieben den Traffic auf die Switches aufzuteilen, aber gleichzeitig auch Failover zu bieten, falls die Verbindung über den bevorzugten Weg ausfällt.

Dementsprechend soll Traffic auch möglichst bevorzugt immer auf einer "Linie" bleiben - Switches mit gerader Nummer sollen den Traffic also möglichst immer nur an einen Switch mit ebenfalls gerader Nummer weitergeben. Aus diesem Grund sind die Links innerhalb des Racks (hier mit L1, L2, L3 markiert) künstlich durch höhere Pfadkosten verschlechtert worden.

Bei Tests funktionierte alles wie gewollt, auch die Pfadkosten werden korrekt berücksichtigt und so Stunts wie nicht überall konfigurierte VLANs sind kein Problem.
Als das Netz dann in den produktiven Betrieb ging funktionierte auch alles wie gewollt, bis nach einigen Monaten plötzlich ein Loop entstand, der sich nur auflösen ließ, indem L1-L3 getrennt wurden.
Wurden die Netze wieder zusammengesteckt, lief alles wieder sauber.

Ist das, was da gebaut wurde wirklich nicht für normales MSTP geeignet? Mir wurde von dem Support des Herstellers empfohlen, die redundanten Pfade zu reduzieren.
Das würde aber die Idee hinter dem Design konterkarieren, weil wir ja explizit den Totalausfall eines Switches und/oder 10G-Verbindung abfangen wollen. Und da komme ich nicht umhin, alle Switches jweils mit zwei Nachbarn zu verbinden...?

Vielen Dank!
Mitglied: certifiedit.net
16.02.2020, aktualisiert um 16:04 Uhr
Hallo,

grundlegend: Welche Systeme/Hardware wurde(n) denn benutzt.

Du sagst ja selbst, dass es "eigentlich" funktioniert, nur auf Dauer (kann dies exakt auf n Tage eingegrenzt werden?) zu einem Loop kommt.

Die Frage ist demnach erstmal, warum tut es das, was spielt da verrückt. Hier wäre ein Ansatz die Konfiguration generell, sowie die impl. Switchkonfiguration speziell zu analysieren, oder andersherum sich zu fragen, warum tut es erst und dann nicht mehr. (was ich für sinnvoller halte).

Hier kann man natürlich auch generell hinterfragen (FW fehler etc). Aber all das macht keinen Sinn, ohne die relevanten Details zu haben, bzw das musst du sowieso mit dem Anbieter klären. Logs wären dazu auch nicht schlecht und dann hast du vermutlich schon genug Munition, um selbst auf die Jagd zu gehen.

Viele Grüße,

Christian
certifiedit.net
Bitte warten ..
Mitglied: IT-Prof
16.02.2020 um 21:02 Uhr
Wie die Switches such Einigen, wenn die STP-ID mehrfach vorhanden ist, weißt du?

Kannst du längere Zeit seriell die Switchlogs aufzeichnen, bis es zum vermeintlichen oder echten Loop kommt?

Hast du Gewissheit, dass es ein Loop ist, oder ein Switch oder mehrere das glauben?

Wer ist der Switchhersteller?

Du nutzt die Switches im mittleren Rack für SAN und LAN gleichzeitig?

Das Design, ich würde es als selten bezeichnen, ist weshalb im Einsatz?
Bitte warten ..
Mitglied: LordGurke
16.02.2020 um 21:04 Uhr
Aktuell sind das Ubiquiti EX-16, die auf der im Januar aktuellsten Firmware laufen.
Die Backup-Root-Bridge hatte bei Einsetzen des letzten Loop-Vorwalls die höchste Uptime mit 176 Tagen, die anderen Geräte waren knapp darunter.

Aus dem, was ich aus den Syslogs bekomme (was teilweise schwierig ist, weil man nie genau weiß, ob ein Fehler Symptom oder Ursache ist) könnte es möglicherweise sein, dass die Backup-Root-Bridge eine Topologieänderung sieht, die nicht alle anderen Switches auch sehen.
Aber dies ist wie gesagt schwierig herauszufinden, weil die Switches natürlich so derart hart mit BPDUs geflutet werden, dass die Syslog-Nachrichten nicht immer sekundengenau gleich kommen.

Ich habe jedenfalls mal überall die aktuellste Firmware eingespielt, wie mir geheißen wurde.
Mir geht es prinzipiell auch ersmtal nur darum zu verifizieren, ob das Design an sich schon fehleranfällig ist resp. "zu viele redundante Pfade hat" wie man mir angedeutet hat.
Bitte warten ..
Mitglied: certifiedit.net
16.02.2020, aktualisiert um 21:32 Uhr
Hallo,

sicher, dass so ein Design mit dem Hersteller zu machen ist? Ich meine zu den üblichen Unkenrufen, der Hersteller winkt dir da schon mit dem Zaunpfahl zu...

VG
Bitte warten ..
Mitglied: aqui
16.02.2020, aktualisiert um 21:19 Uhr
Das Design ist OK und nicht ungewöhnlich, daran kann es normal nicht liegen. Die beiden Rack 2 Switches sind Root bzw. Backup Root also werden deren Uplinks auch immer aktiv sein.
In den Blocking State gehen dann L1 und L3 immer auf Switch 4 und 6. Soweit so gut.
Machst du noch irgendwelche unterschiedlichen Priority Wichtungen pro VLAN zum Balancing oder sind alle VLANs in einer Instance ?
Wenn du keine Instances definiert hast landen alle VLANs in der default Instance.
Die MSTP Konfig wäre mal ganz hilfreich vom Root und einer den non Root Switches.
In diesem Thread gibts noch ein bischen Design- und Konfig Futter zum Thema MSTP (Cisco, HP) Es ist aber natürlich nicht Produkt spezifisch da Standard.
3 Fragen noch:
  • Sind dort noch andere aktive Komponenten angeschlossen die kein MSTP machen oder irgendeine andere Form des STP ?
  • Switches auf dem aktuellen recommendeten Firmware Stand und vor allem auf dem gleichen. Gibts irgendwelche Einträge zu MSTP in den Release Notes ?
  • Kannst du im Log irgendwelche Messages sehen. MSTP Topo Changes, Link Loss usw. ?
Loops können sich aufschaukeln wenn einer der Switches mal eine ungewöhnlich hohe Last hat. Dann dropt der Scheduler oft STP Frames und dann öffnen Switches hie und da mal Ports die zwingend im Blocking sein müssten was dann oft fatale Folgen hat da man dann in einem Teufelskreis landet. Mehr Looping, nochmehr CPU Last, nochmehr gedroppte BPDU Frames. Gibts da ggf. Hinweise im Logging oder Syslog ?
Ein möglicher Grund könnte eine falsche oder fehlerhafte Active Standby Anbindung (Master Slave) der Server sein. Gibt es einen Grund hier kein LACP zu verwenden was etwas sicherer wäre durch ein eigenes Loop Prevention Detect im 802.3ad.
Das das für ein RZ kein ganz so ein tolles Design mit STP mehr ist weisst du sicher selber und ist auch nicht das Thema hier. Besser wäre STP frei eine Fabric oder ein Stack zu verwenden.
Bitte warten ..
Mitglied: LordGurke
16.02.2020 um 21:17 Uhr
Wie die Switches such Einigen, wenn die STP-ID mehrfach vorhanden ist, weißt du?

Welche ID meinst du? Die Bridge-ID oder die MSTP-Config-ID?
Die Bridge-IDs sollten optimalerweise nicht identisch sein weil ja auch definitiv unterschiedliche Prioritäten für Root-Bridge und wer Backup-Root-Bridge festgelegt sind - die können also erstmal nicht doppelt auftauchen.
Was die restlichen Switches angeht, könnte ich natürlich in jedem Rack jeweils einen Switch mit 16k Priorität versehen, um bei komplettem Konnektivitätsverlust zu Rack 1 was zu haben, aber würde das helfen?


Kannst du längere Zeit seriell die Switchlogs aufzeichnen, bis es zum vermeintlichen oder echten Loop kommt?

Könnte ich mal machen.
Allerdings habe ich Logs eines solchen Vorfalls, die sind nur leider nicht wirklich ergiebig.
Einzelne Switches behaupten, sie würden eine Topologieänderung sehen (zu einem Zeitpunkt wo der Loop definitiv bereits bestand), was durchaus mit verloren gehenden BPDUs zusammenhängen könnte.

Hast du Gewissheit, dass es ein Loop ist, oder ein Switch oder mehrere das glauben?

Ich bin mir ziemlich sicher - man sieht alle Ports auf allen Switches dauerhaft blinken und die NICs in den Servern verzeichnen teilweise über 1 Mpps.
Wenn man da mit tcpdump reinhört sieht man auch zigtausendfach die selben ARP-Anfragen kommen.

Wer ist der Switchhersteller?

Ubiquiti

Du nutzt die Switches im mittleren Rack für SAN und LAN gleichzeitig?

Das Storage ist ein Ceph, da hast du by Design mehrere VLANs mit unterschiedlichen Funktionen.
Ansonsten laufen in einem VLAN nur noch Protokolle für die HA-Umgebungen der virtuellen Maschinen.

Das Design, ich würde es als selten bezeichnen, ist weshalb im Einsatz?

Wie ganz oben beschrieben soll es die folgenden Eventualitäten (einzeln oder in Kombination) kompensieren:
  • Ein Switch fällt komplett aus
  • Ein Transceiver fällt aus (und dadurch verliert ein Server die Anbindung zu einem der Switches)
  • Ein Transceiver auf der Verbindung zwischen zwei Switches fällt aus
Bitte warten ..
Mitglied: IT-Prof
16.02.2020 um 21:18 Uhr
Die Syslogs werden dir nur bedingt helfen, wenn dein Forwarding crasht oder zu crashen droht.

Ganz ehrlich, echtes logging sollte über die serielle Verbindung laufen. Ich glaube, die Unifis können das.
Ich habe immer einen kleinen Optiplex mit 12 COM Ports dabei für das logging.

BPDUs und deren teilweise unmögliche Implementierung sorgt nicht selten für Spaß. Ich sage nur Hello Time.

Die Bewertung über zu viele redundante Pfade kann man pauschal nicht treffen.
Die Frage ist primär nach dem Grund des Designs und die Sicherheit, dass es nicht zu Loops oder dergleichen kommt.

Hast du Gewissheit, dass der Loop bestehen bleibt oder kann es auch sein, dass die Switches such nicht wieder einkriegen und der Loop nur temporär war?

Wie gesagt, dass Design ist zulässig, wenn auch selten.
Bitte warten ..
Mitglied: aqui
16.02.2020, aktualisiert um 21:28 Uhr
Was die restlichen Switches angeht, könnte ich natürlich in jedem Rack jeweils einen Switch mit 16k Priorität versehen,
Das bringt nichts, denn die Pfade sind mit dem Root und Backup Root Switch ja eh fest vorgegeben.
Die Syslogs werden dir nur bedingt helfen, wenn dein Forwarding crasht oder zu crashen droht.
Man kann dann aber immer den Auslöser dingfest machen ! In so fern ist das schon hilfreich.
Einzelne Switches behaupten, sie würden eine Topologieänderung sehen
Das darf ja niemals sein !
In einer statischen Topologie wie dieser darf es niemals zu Topo Changes kommen ? Wie auch denn dort ist ja alles fix wenn der STP einmal berechnet wurde. Es sei denn du ziehst willentlich einen der Uplinks oder dieser fällt aus ?!
Das solltest du also mal ganz genau untersuchen wer oder was da der Auslöser ist.
Topo Changes sollten niemals auftauchen. Sowas ist dann eher ein Indiz auf einen defekten Port, Kabel oder Optik.
Wenn man da mit tcpdump reinhört sieht man auch zigtausendfach die selben ARP-Anfragen kommen.
Uuuhhhh, definitiv ein Loop. Das ist ein Klassiker....
Ubiquiti
Kein Kommentar ! Sowas hat in einem RZ Design nichts zu suchen. Oder was erwartest du von einem WLAN Hersteller ?!
Das ist OEMter Billigmist der gar nicht von denen kommt geschweige denn entwickelt wurde. Massenbarebone von Accton.
Gut, hilft dir auch nicht weiter und ist ggf. fehl am Platze hier, da wohl nicht mehr zu ändern aber so ein RZ Design damit zu lösen hat schon etwas von Fahrlässigkeit.
Bitte warten ..
Mitglied: IT-Prof
16.02.2020, aktualisiert um 21:29 Uhr
Nachtrag:

Du schreibst die Switches 3,4,5 UND 6 haben die Priorität 32k? Das kann zu Problemen führen oder längeren oder häufigere Aktivitäten im "Baum".

Bezüglich Design Anmerkung.
Wenn du keine bombproofed Switches für konvergierten SAN und LAN Traffic hast, das ist der Fall bei den UBNTs, dann solltest du Abstand von dem Design nehmen, wenn die Umgebung wichtig ist.
Auch im Jahr 2020 ist es ein guter Rat, wenn die beiden SAN Switches völlig autonom für dich allein eine Storage Domain machen.
Konvergieren ja, find ich auch toll, dann aber nicht mit UBNT.
Heißt Standalone EX-16 mit VLAN für Storage Domain und untagged LAN für Controller und Logging-Zwecke. Das zwei Mal.
Bitte warten ..
Mitglied: wuebra
17.02.2020 um 00:09 Uhr
ich hänge mich mal hier mit ran, da ich selbst auch Ubiquti Switche in einem großen Netzwerk im Einsatz habe und auch hin und wieder Spanning Tree Topo Changes habe. Aber keine Schleifen direkt.

Sicher das du auch MSTP verwendet? Ich habe die UniFi Serie im Einsatz , nicht die Edge. Und die unterstützen über dne controller nur RSTP
Bitte warten ..
Mitglied: aqui
17.02.2020 um 13:08 Uhr
Der eine nur RSTP der andere auch MSTP...klingt alles richtig gruselig für ein RZ.
Bitte warten ..
Ähnliche Inhalte
Netzwerkgrundlagen
Spanning Tree Designated Ports
Frage von Sven91Netzwerkgrundlagen2 Kommentare

Hallo Community, ich, Azubi, benötige einen kleinen Denkanstoß. Auf einer Skizze über ich grade die Verteilung der Portrollen mit ...

Webentwicklung
Webprogrammierung mit schickem Layout
Frage von MasterSchlumpfWebentwicklung3 Kommentare

Hallo zusammen, ich bin gerade dabei mich in das Thema Webprogrammierung einzuarbeiten. Womit bzw. wie erstellt man diese schicken, ...

Netzwerke
Richtige Spanning Tree Konfiguration
Frage von Phill93Netzwerke4 Kommentare

Hallo, und gleich zum Anfang nein ich hab kein Geld für einen Dienstleister. :-D Ich hab für meinen neuen ...

Windows 10

Layout Startmenü Windows 10 - Erfahrungswerte?

gelöst Frage von dertowaWindows 105 Kommentare

Hallo zusammen, da ich mich aktuell damit befasse Windows 10 für die Kollegen hübsch und produktiv zu gestalten ohne ...

Neue Wissensbeiträge
Off Topic
3D-Drucker gegen Corona - helft mit!
Information von DerWoWusste vor 7 StundenOff Topic12 Kommentare

Unter vorigem Link sind Anleitungen, wie man sich mit seinem 3D-Drucker an der Produktion (Druck) von Bauteilen für Atemmasken ...

Instant Messaging

Die Kommunikations-App Zoom kommt aus der Kritik so schnell nicht mehr raus

Information von Frank vor 8 StundenInstant Messaging4 Kommentare

Ich würde Zoom ja gerne nutzen (das Featureset ist ziemlich gut) aber irgendwie hinterlassen die ganzen Nachrichten einen faden ...

Off Topic
Die Känguru-Chroniken - ab April im Streaming
Information von Frank vor 1 TagOff Topic2 Kommentare

Die Corona-Krise hat auch die Kinos zum Stillstand gebracht. Daher gehen einige Verleiher neue Wege und stellen ihre Filme ...

Windows Server

Update KB4541329 (März 2020) und Windows Server 2016 RDS 1609 Probleme

Information von System-Fehler vor 2 TagenWindows Server1 Kommentar

Hallo, hier zur Info und eventuelle Hilfe: Wir hatten folgende Fehler: Windows 2016 Datacenter 1609, hier als RDS Dienste ...

Heiß diskutierte Inhalte
Batch & Shell
Alle Dateien eines Typs in Unterordnern in ein anderes Verzeichnis kopieren, aber so, dass sie in einem einzigen Unterverzeichnis liegen
Frage von Julia1989Batch & Shell17 Kommentare

Hallo, ich habe folgendes Problem: Ich habe viele *.php dateien, diese liegen in jeweils verschiedenen Unternordnern also C:\PfadZumOberverzeichnis\{A bis ...

Internet Domänen
Subdomain auf subdomain bzw. dyndns mit port weiterleiten?
Frage von DynlaraBartisInternet Domänen15 Kommentare

hey ich habe einen server bei mir mit proxmox auf diesem habe ich vm´s im heimnetz habe ich eine ...

Windows 10
Über Remotedesktopverbindung erkennen, ob Monitor angeschaltet ist
Frage von Tomac84Windows 1013 Kommentare

Hallo Zusammen, Auf Grund der Krise arbeite ich vom Home Office aus. Ich melde mich per Remotedesktopverbindung an meinen ...

Off Topic
3D-Drucker gegen Corona - helft mit!
Information von DerWoWussteOff Topic12 Kommentare

Unter vorigem Link sind Anleitungen, wie man sich mit seinem 3D-Drucker an der Produktion (Druck) von Bauteilen für Atemmasken ...