OPNsense - VLAN will mit nachgeschaltetem Switch nicht funktionieren
Hallochen Gemeinde,
folgende vorhandene Konstellation:
Lokales AD-Netzwerk an zwei Standorten mit OPNsense als jeweiligem Router. Die OPNsense erledigt das netzwerkweite Routing einschließlich VLAN. Für zwei Fremdrechner von Kunden ist (nunmehr) ein eigenes VLAN eingerichtet worden. Die Konfiguration der beiden OPNsensen ist insoweit identisch.
An dem einen Standort funktioniert die VLAN-Separierung von der OPNsense über einen 24er Switch und danach einem Zyxel GS1200-8 auf Anhieb und problemfrei.
An dem zweiten Standort ist der OPNsense nur ein Zyxel GS1200-8HP nachgeschaltet. Stelle ich dort die VLAN-Konfiguration auf irgendeine VLAN-ID scharf, sehe ich im Live-Kino der OPNsense zwar den vom Fremdrechner kommenden Verkehr. Aber es gibt ganz offensichtlich keinen Rückverkehr.
Realisiere ich hingegen die logische Netzwerktrennung nicht über das VLAN, sondern füge stattdessen der LAN-Schnittstelle der OPNsense den betreffenden VLAN-IP-Bereich als weiteren Netzwerkbereich hinzu (mittels virtueller IP-Adresse) und belasse auf dem Switch alles auf der VLAN-ID 1, so klappt alles hervorragend.
Es spielt übrigens keinerlei Rolle, mit welcher VLAN-ID und welchem an dem Switch angeschlossenem Gerät das Ganze versucht wird, weil sich übergreifend das Problem jederzeit identisch rekonstruieren und "beseitigen" lässt.
Woran kann diese Kuriosität am zweiten Standort liegen?
Meine Vermutung / Erklärung ist, dass der GS1200-8HP (noch die Version 1) zwar grundsätzlich ordnungsgemäß läuft, aber bei der VLAN-Konfiguration aus irgendeinem Grund nicht mitspielt. Denn ich habe verschiedene Ansätze durchgespielt und kann im Ergebnis dessen - gerade auch mit Blick auf den anderen funktionierenden Standort - sagen, dass nur der Switch als Ursache in Betracht kommen kann.
Hat jemand schon ähnliche Erfahrungen mit einem Switch gemacht? Gibt es einen Lösungsansatz, ohne den Switch physisch auszutauschen zu müssen?
Gibt es eine passende Custom Firmware für diesen Switch (ähnlich OpenWRT für Router)? Auf den ersten Blick habe ich (noch) nichts finden können.
Vielen Dank im Voraus für Euren Input und viele Grüße
HansDampf06
folgende vorhandene Konstellation:
Lokales AD-Netzwerk an zwei Standorten mit OPNsense als jeweiligem Router. Die OPNsense erledigt das netzwerkweite Routing einschließlich VLAN. Für zwei Fremdrechner von Kunden ist (nunmehr) ein eigenes VLAN eingerichtet worden. Die Konfiguration der beiden OPNsensen ist insoweit identisch.
An dem einen Standort funktioniert die VLAN-Separierung von der OPNsense über einen 24er Switch und danach einem Zyxel GS1200-8 auf Anhieb und problemfrei.
An dem zweiten Standort ist der OPNsense nur ein Zyxel GS1200-8HP nachgeschaltet. Stelle ich dort die VLAN-Konfiguration auf irgendeine VLAN-ID scharf, sehe ich im Live-Kino der OPNsense zwar den vom Fremdrechner kommenden Verkehr. Aber es gibt ganz offensichtlich keinen Rückverkehr.
Realisiere ich hingegen die logische Netzwerktrennung nicht über das VLAN, sondern füge stattdessen der LAN-Schnittstelle der OPNsense den betreffenden VLAN-IP-Bereich als weiteren Netzwerkbereich hinzu (mittels virtueller IP-Adresse) und belasse auf dem Switch alles auf der VLAN-ID 1, so klappt alles hervorragend.
Es spielt übrigens keinerlei Rolle, mit welcher VLAN-ID und welchem an dem Switch angeschlossenem Gerät das Ganze versucht wird, weil sich übergreifend das Problem jederzeit identisch rekonstruieren und "beseitigen" lässt.
Woran kann diese Kuriosität am zweiten Standort liegen?
Meine Vermutung / Erklärung ist, dass der GS1200-8HP (noch die Version 1) zwar grundsätzlich ordnungsgemäß läuft, aber bei der VLAN-Konfiguration aus irgendeinem Grund nicht mitspielt. Denn ich habe verschiedene Ansätze durchgespielt und kann im Ergebnis dessen - gerade auch mit Blick auf den anderen funktionierenden Standort - sagen, dass nur der Switch als Ursache in Betracht kommen kann.
Hat jemand schon ähnliche Erfahrungen mit einem Switch gemacht? Gibt es einen Lösungsansatz, ohne den Switch physisch auszutauschen zu müssen?
Gibt es eine passende Custom Firmware für diesen Switch (ähnlich OpenWRT für Router)? Auf den ersten Blick habe ich (noch) nichts finden können.
Vielen Dank im Voraus für Euren Input und viele Grüße
HansDampf06
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 668514
Url: https://administrator.de/contentid/668514
Ausgedruckt am: 21.11.2024 um 13:11 Uhr
24 Kommentare
Neuester Kommentar
Das Setup des GS-1200 Switches ist eigentlich immer identisch! HIER ist das genaue Prozedere beschrieben an der OPNsense.
Wichtig ist immer das man dort nicht benutzte Memberports ausgraut. Aktuelle Switch Firmware sollte auch drauf sein.
Der Fehler liegt ja da ganz klar im VLAN Setup. Screenshot wäre hier hilfreich gewesen!
Im Zweifel einen Werksreset mit aktueller Firmware und nochmal in Ruhe von vorne anfangen. Solche groben Fehlfunktionen liegen in der Regel nicht am Switch selber sondern am Setup.
Wichtig ist immer das man dort nicht benutzte Memberports ausgraut. Aktuelle Switch Firmware sollte auch drauf sein.
Der Fehler liegt ja da ganz klar im VLAN Setup. Screenshot wäre hier hilfreich gewesen!
Im Zweifel einen Werksreset mit aktueller Firmware und nochmal in Ruhe von vorne anfangen. Solche groben Fehlfunktionen liegen in der Regel nicht am Switch selber sondern am Setup.
Ich habe leider keinen unbenutzten VLAN-Switch herumliegen.
Was du ohne Vergleichsswitch immer machen kannst zur sicheren Kontrolle ist einen Wireshark....- einmal direkt an das OPNsense Interface klemmen wo der der Zyxel dranhängt
- und einmal direkt am Zyxel Uplink Port anschliessen der zur OPNsense geht.
Analog machst du das am Zyxel Switch Uplink Port.
So kannst du wenigstens im Wireshark sehen ob beide Seiten den betreffenden Traffic entsprechend richtig mit einem .1q VLAN Tag taggen.
Hier am Beispiel mit einem VLAN ID 14 Tag:
Das bei so einer grundlegenden Funktion wie VLANs ein managed Switch einen Fehler hat ist eher ungewöhnlich.
Als letzte Option solltest du immer einen Werksreset am Switch machen und erstmal einfach mit dem PVID und nur einem tagged VLAN anfangen. Switch VLAN Konfig Screenshot würde auch helfen.
Glückwunsch zum bilderbuchmäßigen Troubleshooting und interessantem Feedback! 👏 👍
Bleibt zum Schluß nur noch die Frage auf welchen vSwitch bzw. Hypervisor sich das bezieht?!
Bei Proxmox oder VmWare ist dem glücklicherweise nicht so. Dort entscheidet der vSwitch welcher Tag einer VM mitgegeben wird. Bei VmWare könnte man über die VLAN ID 4095 auch alles Getaggte transparent "durchreichen".
Aus Sicherheitsgründen und der Gefahr nicht abschätzen zu können wie ein vSwitch mit Promiscous Traffic umgeht ist davon aber dringenst abzuraten. Das macht niemand so.
Zu den VLAN spezifischen Setups für Proxmox und VmWare gibt es ein paar Forenthreads.
Proxmox. Desweiteren hier.
VmWare
Bleibt zum Schluß nur noch die Frage auf welchen vSwitch bzw. Hypervisor sich das bezieht?!
Bei Proxmox oder VmWare ist dem glücklicherweise nicht so. Dort entscheidet der vSwitch welcher Tag einer VM mitgegeben wird. Bei VmWare könnte man über die VLAN ID 4095 auch alles Getaggte transparent "durchreichen".
Aus Sicherheitsgründen und der Gefahr nicht abschätzen zu können wie ein vSwitch mit Promiscous Traffic umgeht ist davon aber dringenst abzuraten. Das macht niemand so.
Zu den VLAN spezifischen Setups für Proxmox und VmWare gibt es ein paar Forenthreads.
Proxmox. Desweiteren hier.
VmWare
Denn nun konnte sich plötzlich ein Gerät, dass keinem VLAN-Bereich zugeordnet ist, seine IP-Adresse nicht mehr per DHCP zuweisen lassen
Bedeutet ja dann das das PVID VLAN entweder vom vSwitch oder vom Zyxel nicht übertragen wird. Den Zyxel wird man hier sicher ausschliessen können, denn das funktioniert mit dem fehlerfrei. Natürlich sofern man das richtig konfiguriert. Ist also zu vermuten das der vSwitch entweder kein PVID VLAN supportet oder sonstwas falsch macht.Solche mehr als banale Funktionen einen 802.1q Tag an einem Ethernet Frame zu erkennen (oder eben auch keinen) kann jede billige Baumarkt VLAN Switch.
Proxmox basiert ja auch auf diesem Hypervisor und das rennt nachweislich fehlerlos hier mit einem GS1200. Wäre dann etwas unverständlich was das geheime Zusammenspiel mit OVS dann technisch bedeutet. Übrigens werkelt der GS1200 auch völlig problemlos mit einer auf Proxmox virtualisierten OPNsense und das auf einem NUC mit nur einem einzigen Ethernetport!
Geht ja letztlich nur um Tag erkennen oder nicht. Warum es mit der anderen Kiste dann klappt ist aber genauso mysteriös und wirft eher ein Schatten auf den vSwitch.
wie Proxmox den OVS jungfräulich konfiguriert.
Ich habe das bis dato nur im KlickiBunti GUI gesehen und da ist es ein einfacher Switch ohne VLAN Support. Getaggte Frames werden also geblockt.In der Grundversion hängen damit dann Management und alle VMs in einer Layer 2 Domain.
Erst wenn man dem vSwitch aktiv im Setup sagt er soll VLANs verstehen behandelt er auch Tags korrekt. Dazu muss man den Haken "VLAN aware" setzen!
Dieser Thread zeigt das am vSwitch Setup.
Man müsste also mal ergründen wie das in einer CLI Konfig aussieht.
Bei deiner Bonding Schnittstelle ist die Frage wie die agiert?? Bonding ist ja recht vielfältig und der Netzwerker versteht da primär immer einen LACP LAG mit 802.3ad. Der GS1200 ist gar nicht LAG fähig weil er das Feature gar nicht supportet!
Das muss es bei Hypervisoren aber nicht immer sein, da es hier auch andere proprietäre, non lege artis Bonding Verfahren gibt. Besonders solche die auch bei ungemanagten Switches funktionieren.
Da wird es dann wieder spannend ob ein Switch mit sowas umgehen kann. Der GS1200 kann
Ganz spannend wäre dann noch die Frage: Wie sieht es mit einem singulären Port aus ohne Bonding?? Da wären Loop Fehler die aus solchen Bonding Setups resultieren könnten per se ausgeschlossen.
Es könnte also primär etwas mit dem Bonding Verfahren zu tun haben und wie das mit einem so einfachen VLAN Switch interagiert.
bei der bond-Schnittstelle eigentlich belanglos sein, ob dort ebenfalls der Parameter "tag=1" gesetzt ist oder nicht
Richtig!Das wäre sogar grundfalsch so einen Tag zu setzen wenn das gleiche VLAN auch PVID VLAN ist. Denn ein VLAN 1 oder generell ein VLAN kann bekanntlich niemals gleichzeitg Tagged und UNtagged sein an einem Port. Keinesfalls darf man ein PVID VLAN gleichzeitig taggen. Auf Switches verbieten das in der Regel schon die Kommando Parser.
Im Vergleich hierzu einmal ein ESXi Setup auch ohne Bonding. Hier ist der vSwitch immer Tagging fähig und man löst das da über Port Groups.
Was die GS1200er Serie definitiv nicht kann, eine MAC-basierte VLAN-Zuordnung.
Das ist richtig und wäre bei der Preisrange in dem sich diese Hardware bewegt wohl sicher auch etwas zuviel verlangt. Obwohl ein einfacher 20€ Mikrotik Switch es dennoch dafür leistet. Die hiesigen Tests verrichtete ein GS1200-5 der keinerlei Versionen kennt. Auf dem Typenschild ist diesbezüglich nichts aufgedruckt.
Der Switch arbeitet mit deaktivierter Port Isolation, deaktivierer Strom Control aber aktivierter Loop Protection. Letzteres ist sowas wie das "Spanning Tree des kleinen Mannes" bei dem der Switch auf selbst gesendete Loop Protection Frames achtet an seinen Ports. Empfängt er die blockt er den Port. IGMP Snooping ist aktiv.
Auf OPNsense und Proxmox sind 3 VLANs aktiv wobei UNtagged Frames am Trunkport 5 im VLAN 1 landen.
Mit den Settings arbeitet zu mindestens dieser Switch der o.a Hardware in allen Testumgebungen absolut unauffällig.
Die Aussage von oben muss ich korrigieren: Natürlich supportet der GS1200 auch LACP LAGs. Der 5er Switch aber nur limitiert einen 2er LAG und nur auf den Ports 3 und 4. Ob der 8er da flexibler ist kann ich nicht sagen. Der LAG rennt getestet zu einer OPNsense, Cisco Catalyst 2960 und Ruckus ICX7150 völlig unauffällig. Proxmox kann ich in Ermangelung einer weiteren Ethernet Schnittstelle (NUC Server) nicht testen.
Die Kardinalsfrage ist also dann welches Bonding Verfahren? LACP LAG kein Problem aber alles andere was nicht Standard konform ist birgt ohne Loop Detection ein Risiko. Bzw. mit aktiver Loop Detection auch sollten die vom Bonding Device auf der anderen Seite (vSwitch) geforwardet werden und damit dann ein Port Blocking auslösen. Ggf. müsste an dann testweise mal die Loop Detection deaktivieren. LACP LAG bringt ein eigenes Verfahren mit.
Zusätzlich supportet der GS1200 auch ein Port Mirroring.
Bisher ist auf den Switchen nur ein statisches LAG eingerichtet.
Aber dann auch auf Basis von 802.3ad bei dem dann nur der LACP Teil fehlt, oder?So gut wie alle Hersteller supporten keine weitere Option beim Bondig. Ausnahme vielleicht noch Cisco mit seinem älteren PaGP Protokoll was aber wie ggf. andere Verfahren immer proprietär sind und niemals mit anderen Geräten zusammenarbeit.
Es ist generell niemals eine gute Idee Link Aggregation mit statischen LAGs laufen zu lassen weil dann immer die Funktionskontrolle fehlt. Auch wenn der Switch so ein statisches Feature supportet. LACP ist da immer die bessere Wahl allein auch schon wegen der protokollinternen Loop Detection.
https://www.duden.de/rechtschreibung/Raetsel
Du hast vermutlich gerade an eine Butterbrezel gedacht beim Schreiben...?! 😉
Zurück zum Thema....
https://portal.nutanix.com/page/documents/solutions/details?targetId=BP- ...
"Ope" steht für "Operational" also aktiv und anhand der Partner System ID unten kannst du die Mac Adresse des Gegenüber sehen der erfolgreich beim LACP Aufbau negotiated wurde und damit dann das virtuelle Bond Interface aktiv ist. Die hochzählenden RX und TX Counter sind ein weiteres Indiz der korrekten Funktion.
Ob zumindestens die OPNsense ein LACP Status Output hat müsste ich mal checken.
Das Scheitern des Pings ist also sehr wahrscheinlich eher ein Indiz das der LACP LAG nicht oder nicht richtig zustande kommt.
Viele Switches sind so eingestellt das sie den LACP LAG bei Ausfall eines Memberlinks komplett deaktivieren und NICHT in einem sog. Degraded Mode laufen lassen, also nur mit einem Tel der Memberlinks. Das die primär der Signalisierung weil sonst ein Gros der Admins gar nicht merken würden ob der LAG sauber rennt oder nicht.
Hier ist also die Frage WIE sich der GS1200 bei einem Teilausfall der LAG Memberlinks verhält. Ich teste das nochmal an einem Catalysten und ICX genau.
Ein weiterer Knackpunkt ist hier die Konfiguration der Memberlinks. Bei besseren Switches wird, wie oben schon gesagt, ein virtuelles LAG Interface erzeugt in der Konfig wenn der LAG sauber konfiguriert wurde. Ein Tagging lässt sich dann sinnvollerweise ausschliesslich nur über das LAG Interface konfigurieren und niemals mehr einzeln über die Memberlinks.
Das macht auch absolut Sinn, denn ein einziger Konfig Mismatch der Memberlinks resultiert dann in einem Scheitern des LAGs. Verständlich, denn ein LAG erzwingt das deren Memberlinks absolut identisch konfiguriert sein müssen. VLAN 10 taggen auf einem und nicht auf dem anderen wäre fatal.
Genau das erreichen Hersteller über das virtuelle LAG Interface was man nach Erstellung nur noch konfigurieren kann und was dann wasserdicht dafür sorgt das die Konfig Einstellungen parallel auf alle Memberlinks übertragen werden.
Bei Switches die diese Option nicht haben wie der 1200 besteht also eine ganz besondere Sorgfalt beim Einrichten der Memberlinks in Bezug auf Tagging und PVID sonst droht immer ein Scheitern des LAG.
Ich kann es zwar nicht mit KVM/QEMU testen aber ich werde nochmal den Cisco Catalysten und ICX anschmeissen sowie eine OPNsense mit LAG Konfig und das mal im Wechselspiel mit dem hiesigen 1200-5 testen und einmal Teilausfälle simulieren.
Ist zwar nur ein rudimentärer Test aber mal sehen wie sich das auf einem LACP Bonding mit einem Debian (Raspberry) verhält.
Damoklesschwert ist wie gesagt das IGMP Snooping Verhalten und damit das Forwarding Verhalten der 1200er mit Broad- und Multicasts. Im nicht optimalen SLB Balancing ist das Snooping Verhalten essentiell. In dem Mode darf dann keinesfalls Snooping aktiviert sein und unknown Multicasts müsste auf Drop gesetzt sein.
Generell ist das bei solchen absoluten Billo Switches immer Rätselraten (ohne Bretzel!! ) weil schlicht und ergreifend sinnvolle Debugging Opotionen dort fehlen. Falsch war es also nicht diese letztlich zu ersetzen.
Du hast vermutlich gerade an eine Butterbrezel gedacht beim Schreiben...?! 😉
Zurück zum Thema....
(bond_mode=balance-slb) in Verbindung mit den GS1200 war ja disfunktional
Normal ist das ein Mode der keinen spezifischen Bond auf der anderen Seite erfordert und auch mit ungemanagten Switches rennt. Sowas ist wegen der unklaren Forwarding Situation von Broad- und Multicast Frames immer etwas ein Vabanque Spiel. Die meisten Hypervisor Hersteller raten deshalb davon ab wie oben schon gesagt. Z.B.:https://portal.nutanix.com/page/documents/solutions/details?targetId=BP- ...
Nun stand die LACP-Verbindung vollständig zwischen GS1200-8 und OVS-Host.
Woran hast du das genau gesehen?? Leider fehlt dem GS1200 eine Anzeige des LACP Status an dem man das im Gegensatz zu anderen Switches eindeutig sieht. Hier z.B. ein Ruckus ICX an den LAG Port 1 und 2Port [Sys P] [Port P] [ Key ] [Act][Tio][Agg][Syn][Col][Dis][Def][Exp][Ope]
1/1/1 1 1 20001 Yes L Agg Syn Col Dis No No Ope
1/1/2 1 1 20001 Yes L Agg Syn Col Dis No No Ope
Partner Info and PDU Statistics
Port Partner Partner LACP LACP
System ID Key Rx Count Tx Count
1/1/1 32768-000d.b95a.49ea 299 4 6
1/1/2 32768-000d.b95a.49ea 299 4 6
Ob zumindestens die OPNsense ein LACP Status Output hat müsste ich mal checken.
Das Scheitern des Pings ist also sehr wahrscheinlich eher ein Indiz das der LACP LAG nicht oder nicht richtig zustande kommt.
Viele Switches sind so eingestellt das sie den LACP LAG bei Ausfall eines Memberlinks komplett deaktivieren und NICHT in einem sog. Degraded Mode laufen lassen, also nur mit einem Tel der Memberlinks. Das die primär der Signalisierung weil sonst ein Gros der Admins gar nicht merken würden ob der LAG sauber rennt oder nicht.
Hier ist also die Frage WIE sich der GS1200 bei einem Teilausfall der LAG Memberlinks verhält. Ich teste das nochmal an einem Catalysten und ICX genau.
Ein weiterer Knackpunkt ist hier die Konfiguration der Memberlinks. Bei besseren Switches wird, wie oben schon gesagt, ein virtuelles LAG Interface erzeugt in der Konfig wenn der LAG sauber konfiguriert wurde. Ein Tagging lässt sich dann sinnvollerweise ausschliesslich nur über das LAG Interface konfigurieren und niemals mehr einzeln über die Memberlinks.
Das macht auch absolut Sinn, denn ein einziger Konfig Mismatch der Memberlinks resultiert dann in einem Scheitern des LAGs. Verständlich, denn ein LAG erzwingt das deren Memberlinks absolut identisch konfiguriert sein müssen. VLAN 10 taggen auf einem und nicht auf dem anderen wäre fatal.
Genau das erreichen Hersteller über das virtuelle LAG Interface was man nach Erstellung nur noch konfigurieren kann und was dann wasserdicht dafür sorgt das die Konfig Einstellungen parallel auf alle Memberlinks übertragen werden.
Bei Switches die diese Option nicht haben wie der 1200 besteht also eine ganz besondere Sorgfalt beim Einrichten der Memberlinks in Bezug auf Tagging und PVID sonst droht immer ein Scheitern des LAG.
Ich kann es zwar nicht mit KVM/QEMU testen aber ich werde nochmal den Cisco Catalysten und ICX anschmeissen sowie eine OPNsense mit LAG Konfig und das mal im Wechselspiel mit dem hiesigen 1200-5 testen und einmal Teilausfälle simulieren.
Ist zwar nur ein rudimentärer Test aber mal sehen wie sich das auf einem LACP Bonding mit einem Debian (Raspberry) verhält.
Damoklesschwert ist wie gesagt das IGMP Snooping Verhalten und damit das Forwarding Verhalten der 1200er mit Broad- und Multicasts. Im nicht optimalen SLB Balancing ist das Snooping Verhalten essentiell. In dem Mode darf dann keinesfalls Snooping aktiviert sein und unknown Multicasts müsste auf Drop gesetzt sein.
Generell ist das bei solchen absoluten Billo Switches immer Rätselraten (ohne Bretzel!! ) weil schlicht und ergreifend sinnvolle Debugging Opotionen dort fehlen. Falsch war es also nicht diese letztlich zu ersetzen.
Tests beendet und die offenbaren leider nichts Gutes was die angebliche LAG Funktion der 1200er anbetrifft.
Um es gleich vorweg zu nehmen: Das scheint alles andere zu sein aber kein Standard konformes LACP LAg Verfahren auf Basis 802.3ad. Das muss irgendein proprietärer Mist sein der nur mit diesen Zyxel Modellen klappt.
Man konnte es schon gleich sehen wenn man die Ports 3 und 4 mit aktiver LAG Funktion auf die Testswitches gibt kommt schon gar kein LAG zustande.
"Ina" steht hier für Inaktive.
Beim Cisco zeigt ein show port-channel das der Port Channel Port ebenfalls gar nicht erst in den Status "UP" wechselt.
Der Cisco hat eine recht gute Debugging Option und sieht man sich das LACP Handshaking einmal an offenbart das nichts Gutes.
Der LACP Prozess timed aus und kommt nicht zum Ende. Das passiert auf beiden Memberports.
Zumindestens sendet er noch mit "s-mac:c854.4bfc.9822" seine Hardware Adresse aber das wars dann auch... Der Key ID Exchange für den Gruppenkey scheitert komplett. Was vermuten lässt das kein Standard Komnformes LACP hier verwendet wird.
Dies Fehlverhalten protokollieren Cisco und Ruckus auch noch mit:
Diese erscheint auch in den sehr rudimentären Loop Prevention oder Detection Frames:
die als simple all Net Broadcasts versendet werden sofern diese Funktion aktiv ist. "Realtek" ist dann auch schon ein deutlicher Hinweis was dort an internem Silizium werkelt.
Das das automatisch deaktiviert wird beim Setup der LAG Funktion lässt ebenso Böses erahnen das nämlich der LAG nicht Standard konform ist.
Die GS1200 Doku erwähnt das auch mit keinem Wort was das o.a. Verhalten indirekt bestätigt.
Beantwortet dann auch gleiche deine Frage zur embeddeten Loop Detection bei LACP LAGs mit einem klaren Ja. Das bringt der Standard von sich aus mit.
Damit erübrigte sich dann jeder weitere Testversuch mit LAGs auf der Maschine.
Ein Mikrotik der im Bonding noch etwas exotische Varianten supportet schafft es auch nicht mit diesen einen LAG zum Zyxel aufzubauen.
Zumindestens mit fremden Herstellern ist so ein Zyxel LAG also ein vollständiges NoGo!
Test mit der LAG Funktion auf der OPNsense selber liefen absolut fehlerlos.
Hier wieder das Switch Pendant:
Zieht man einen der Memberlinks wo die aktive Session drauf rennt dauert es ca. 2 Sekunden bis auf den anderen Member umgeleitet wird. Der LAG bricht also NICHT ab wenn einer der Member außer Betrieb ist.
Ein böses Detail kam aber bei der OPNsense noch zutage mit diesem LAG Test. Der neue Kea DHCP Server ist nicht in der Lage mit dem LAG als PVID und seinen VLANs darauf korrekt umzugehen.
Auf dem LAG Interface selber war kein DHCP möglich und von 3 tagged VLANs funktionierte nur eines.
Ein Umkonfigurieren auf den bewährten ISC DHCP versorge alle 4 VLANs über den Trunk sofort völlig problemlos mit IPs.
Der Kea macht wie am LAG, auch bei einigen Options derzeit (noch) keine gute Figur so das man Usern mit etwas anspruchsvolleren Netzwerk Settings derzeit vom Kea auf der OPNsense abraten kann. Ob der sich auf der pfSense auch so zickig an einem LAG verhält ist Thema eines weiteren Checks.
Zumindestens als Fazit kann man für die GS1200 mitnehmen das deren LAG Funktion nicht Standard konform und damit so gut wie unbrauchbar ist und eher massive Probleme beschert sollte man die aktivieren. Bestätigt mehr oder minder dann auch deine negativen Erfahrungen. Das sind Heimnetz Switches die definitiv nicht in eine komplexere Produktivumgebung gehören.
Das können andere Hersteller deutlich besser. Obwohl man aber auch fair sein muss das für einen knapp 20€ Switch so eine Funktion auch nicht erwartbar ist.
Auf der anderen Seite zeigt Mikrotik aber auch klar das man es mit 20€ auch fehlerfrei zum Laufen bekommt. Und noch vieles andere on Top mehr...
Um es gleich vorweg zu nehmen: Das scheint alles andere zu sein aber kein Standard konformes LACP LAg Verfahren auf Basis 802.3ad. Das muss irgendein proprietärer Mist sein der nur mit diesen Zyxel Modellen klappt.
Man konnte es schon gleich sehen wenn man die Ports 3 und 4 mit aktiver LAG Funktion auf die Testswitches gibt kommt schon gar kein LAG zustande.
=== LAG "LAG-2" ID 2 (dynamic Deployed) ===
LAG Configuration:
Ports: e 1/1/43 to 1/1/44
Port Count: 2
Primary Port: 1/1/43
Trunk Type: hash-based
LACP Key: 20002
Deployment: HW Trunk ID 2
Port Link State Dupl Speed Trunk Tag Pvid Pri MAC Name
1/1/43 Up Blocked Full 1G 2 No 1 0 748e.f8d7.f56a LAG-Uplink
1/1/44 Up Blocked Full 1G 2 No 1 0 748e.f8d7.f56a LAG-Uplink
Port [Sys P] [Port P] [ Key ] [Act][Tio][Agg][Syn][Col][Dis][Def][Exp][Ope]
1/1/43 1 1 20002 Yes L Agg Syn No No No No Ina
1/1/44 1 1 20002 Yes L Agg Syn No No No No Ina
Beim Cisco zeigt ein show port-channel das der Port Channel Port ebenfalls gar nicht erst in den Status "UP" wechselt.
Der Cisco hat eine recht gute Debugging Option und sieht man sich das LACP Handshaking einmal an offenbart das nichts Gutes.
Oct 15 16:54:59.175: LACP :lacp_bugpak: Send LACP-PDU packet via Fa0/24
Oct 15 16:54:59.175: LACP : packet size: 124
Oct 15 16:54:59.175: LACP: pdu: subtype: 1, version: 1
Oct 15 16:54:59.175: LACP: Act: tlv:1, tlv-len:20, key:0x1, p-pri:0x8000, p:0x11B, p-state:0xD,
s-pri:0x8000, s-mac:0018.73b3.8880
Oct 15 16:54:59.175: LACP: Part: tlv:2, tlv-len:20, key:0x0, p-pri:0x8000, p:0x4, p-state:0x5,
s-pri:0x8000, s-mac:c854.4bfc.9822
Oct 15 16:54:59.175: LACP: col-tlv:3, col-tlv-len:16, col-max-d:0x8000
Oct 15 16:54:59.175: LACP: term-tlv:0 termr-tlv-len:0
Oct 15 16:54:59.175: LACP: lacp_write: LACP 124 bytes out Fa0/24
Oct 15 16:54:59.175: lacp_ptx Fa0/24 - ptx: during state PERIODIC_TX, got event 2(long_timeout)
Oct 15 16:54:59.175: @@@ lacp_ptx Fa0/24 - ptx: PERIODIC_TX -> SLOW_PERIODIC
Oct 15 16:54:59.175: LACP: Fa0/24 lacp_action_ptx_slow_periodic entered
Oct 15 16:54:59.175: LACP: timer lacp_p_s(Fa0/24) started with interval 30000.
Oct 15 16:55:00.123: LACP: lacp_t(Fa0/24) timer stopped
Oct 15 16:55:00.123: LACP: lacp_t(Fa0/24) expired
Zumindestens sendet er noch mit "s-mac:c854.4bfc.9822" seine Hardware Adresse aber das wars dann auch... Der Key ID Exchange für den Gruppenkey scheitert komplett. Was vermuten lässt das kein Standard Komnformes LACP hier verwendet wird.
Dies Fehlverhalten protokollieren Cisco und Ruckus auch noch mit:
Partner Info and PDU Statistics
Port Partner Partner LACP LACP
System ID Key Rx Count Tx Count
1/1/43 32768-c854.4bfc.9822 0 11 40
1/1/44 32768-c854.4bfc.9822 0 9 43
die als simple all Net Broadcasts versendet werden sofern diese Funktion aktiv ist. "Realtek" ist dann auch schon ein deutlicher Hinweis was dort an internem Silizium werkelt.
Das das automatisch deaktiviert wird beim Setup der LAG Funktion lässt ebenso Böses erahnen das nämlich der LAG nicht Standard konform ist.
Die GS1200 Doku erwähnt das auch mit keinem Wort was das o.a. Verhalten indirekt bestätigt.
Beantwortet dann auch gleiche deine Frage zur embeddeten Loop Detection bei LACP LAGs mit einem klaren Ja. Das bringt der Standard von sich aus mit.
Damit erübrigte sich dann jeder weitere Testversuch mit LAGs auf der Maschine.
Ein Mikrotik der im Bonding noch etwas exotische Varianten supportet schafft es auch nicht mit diesen einen LAG zum Zyxel aufzubauen.
Zumindestens mit fremden Herstellern ist so ein Zyxel LAG also ein vollständiges NoGo!
Test mit der LAG Funktion auf der OPNsense selber liefen absolut fehlerlos.
Hier wieder das Switch Pendant:
=== LAG "LAG-1" ID 1 (dynamic Deployed) ===
LAG Configuration:
Ports: e 1/1/45 to 1/1/46
Port Count: 2
Primary Port: 1/1/45
Trunk Type: hash-based
LACP Key: 20001
Deployment: HW Trunk ID 1
Port Link State Dupl Speed Trunk Tag Pvid Pri MAC Name
1/1/45 Up Forward Full 1G 1 Yes 1 0 748e.f8d7.f56c LAG-Uplink
1/1/46 Up Forward Full 1G 1 Yes 1 0 748e.f8d7.f56c LAG-Uplink
Port [Sys P] [Port P] [ Key ] [Act][Tio][Agg][Syn][Col][Dis][Def][Exp][Ope]
1/1/45 1 1 20001 Yes L Agg Syn Col Dis No No Ope
1/1/46 1 1 20001 Yes L Agg Syn Col Dis No No Ope
Partner Info and PDU Statistics
Port Partner Partner LACP LACP
System ID Key Rx Count Tx Count
1/1/45 32768-000d.b95a.49ea 299 49 49
1/1/46 32768-000d.b95a.49ea 299 50 49
Ein böses Detail kam aber bei der OPNsense noch zutage mit diesem LAG Test. Der neue Kea DHCP Server ist nicht in der Lage mit dem LAG als PVID und seinen VLANs darauf korrekt umzugehen.
Auf dem LAG Interface selber war kein DHCP möglich und von 3 tagged VLANs funktionierte nur eines.
Ein Umkonfigurieren auf den bewährten ISC DHCP versorge alle 4 VLANs über den Trunk sofort völlig problemlos mit IPs.
Der Kea macht wie am LAG, auch bei einigen Options derzeit (noch) keine gute Figur so das man Usern mit etwas anspruchsvolleren Netzwerk Settings derzeit vom Kea auf der OPNsense abraten kann. Ob der sich auf der pfSense auch so zickig an einem LAG verhält ist Thema eines weiteren Checks.
Zumindestens als Fazit kann man für die GS1200 mitnehmen das deren LAG Funktion nicht Standard konform und damit so gut wie unbrauchbar ist und eher massive Probleme beschert sollte man die aktivieren. Bestätigt mehr oder minder dann auch deine negativen Erfahrungen. Das sind Heimnetz Switches die definitiv nicht in eine komplexere Produktivumgebung gehören.
Das können andere Hersteller deutlich besser. Obwohl man aber auch fair sein muss das für einen knapp 20€ Switch so eine Funktion auch nicht erwartbar ist.
Auf der anderen Seite zeigt Mikrotik aber auch klar das man es mit 20€ auch fehlerfrei zum Laufen bekommt. Und noch vieles andere on Top mehr...