ESX 5.5 vm bekommt keine Netzwerkverbindung nach Migration

bl0cks1z3
Goto Top
Hallo,

ich habe seit kurzem ein ziemlich merkwürdiges Netzwerkproblem bei meiner Virtualisierung.

Wir haben 2 fast identische Eurostor-Server als ESX 5.5 Hosts. Beide Hosts sind über Trunks mit unserem Cisco SG500X Stacked Switch verbunden. Server 1 mit 8 NICs Server 2 mit 7 NICs. Alles funktionierte bisher einwandfrei.

Als ich letzte Woche wegen Optimierung 2 vm's vom Server1 auf Server2 migrierte, hat plötzlich eine der beiden vm's keine Netzwerkverbindung bekommen. Damit meine ich, ich kann aus der vm heraus keine Geräte hinter dem angeschlossenen vSwitch erreichen. Vm's die (links) am gleichen vSwitch0 hängen sind erreichbar, die vm's am anderen Host (Server1) sind auch nicht erreichbar. Migriere ich die vm zurück auf Server1 funktioniert alles wieder tadellos.

Die vSwitche sind auf beiden Hosts nahezu identisch eingerichtet, nur auf Server2 gibt es einen 2. vSwitch1 der an einem anderen Automatisierungsnetz (auch physikalisch) hängt.
Die vSwitche(0) auf beiden Hosts haben einen Lastenausgleich über IP-Hash konfiguriert und 120 Ports. Es hängen jeweils nur bis zu 10 vm's an einem vSwitch.

Die Firewall in der vm sowie auf dem Host habe ich bereits deaktiviert, was auch nicht half.

Es sieht nun so aus, als ob entweder der vSwitch0 am Server2 oder der Cisco Switch den Netzwerkverkehr nicht durchleiten.
Warum das so ist weiß ich nicht und ich habe auch keine Idee wie ich das nun noch weiter analysieren soll.

Am Cisco Switch sind keine weiteren VLAN's konfiguriert und die Konfiguration der Trunk-Ports LAG2 und LAG3 die mit den Hosts verbunden sind habe ich auch schon verglichen, sie ist identisch.

Content-Key: 283025

Url: https://administrator.de/contentid/283025

Ausgedruckt am: 24.05.2022 um 10:05 Uhr

Mitglied: Bl0ckS1z3
Bl0ckS1z3 16.09.2015 um 13:29:47 Uhr
Goto Top
Also ich habe herausgefunden, dass das Problem wohl vom Cisco Switch liegt. Hier sind im Logfile folgende Meldungen geloggt:

2147366315 2015-Sep-16 13:15:49 Warning %2SWPORT-W-LOCKPORTACTIVE: A packet with source MAC 00:50:56:ab:25:9a tried to access through port Po2 which is locked, aggregated (1)
2147366316 2015-Sep-16 13:11:56 Warning %2SWPORT-W-LOCKPORTACTIVE: A packet with source MAC 00:50:56:ab:25:9a tried to access through port Po2 which is locked
2147366317 2015-Sep-16 13:10:34 Warning %2SWPORT-W-LOCKPORTACTIVE: A packet with source MAC 00:50:56:ab:25:9a tried to access through port Po2 which is locked, aggregated (1)
2147366318 2015-Sep-16 13:05:49 Warning %2SWPORT-W-LOCKPORTACTIVE: A packet with source MAC 00:50:56:ab:25:9a tried to access through port Po2 which is locked

Die Mac ist die der vm die keinen Netzzugriff bekommt.

Ich habe gesehen, dass es eine neue Firmware für mein Gerät gibt, die will ich heute Abend einspielen.
Zusätzlich habe ich ein Ticket bei Cisco geöffnet.
Mitglied: aqui
Lösung aqui 16.09.2015, aktualisiert am 17.09.2015 um 08:54:04 Uhr
Goto Top
Ist PO2 denn der Trunk an dem die VM über den internen vSwitch am Cisco ankommt ?
Hat der Cisco die aktuellste Firmware geflasht ?
Mitglied: Bl0ckS1z3
Bl0ckS1z3 17.09.2015 um 11:08:16 Uhr
Goto Top
Hallo aqui,

leider ist mein letzter Post hier nicht zu sehen, ich habe wohl was falsch gemacht.

Also fasse ich noch einmal zusammen:

Ich hatte gestern eine Fernwartung mit einem Techniker vom Cisco-Support. Er konnte anhand der Fehlermeldung nicht wirklich einen Fehler finden. Er vermutete ein Problem mit der Port-Security, die ist auf unserem Gerät aber deaktiviert.
Ich hatte vorher schon festgestellt, dass es eine neue Firmware (1.4.0.88 -> 1.4.1.03) für das Gerät seit Juni gibt und hatte das Update schon eingeleitet - es fehlte aber noch der Neustart. Der Techniker hatte eine lange Liste von behobenen Fehlern in der neuen Firmware, mein Problem war zwar nicht genau dabei, aber man weiß ja wie das Läuft. Den Neustart habe ich in der Nacht durchführen lassen und war nun heute Morgen sehr gespannt auf das Ergebnis.

Ich war sehr ernüchtert als ich feststellen musste, dass das Problem nicht gelöst war.

Da ich das Problem auch im vmware Forum geposted hatte und dort einige Vorschläge bekommen hatte ging ich die Lösungen erst einmal durch.

Es ging darum der vm einen neuen Adapter unterzuschieben, damit sich die MAC des Adapter ändert und damit das Problem vielleicht in Luft auflöst.

Leider hat der Switch auch die MAC des neuen virtuellen Adapters auf die gleiche Weise geblockt.

Das habe ich dem Cisco-Support mitgeteilt und mir noch einmal den Fehler angesehen und mit google verglichen, das habe ich aber eigentlich schon den ganzen gestrigen Tag getan und keine vernünftige plausible Lösung gefunden.

Irgendwann hatte ich dann eine Eingebung und gab bei google mal nur die Fehlernummer SWPORT-W-LOCKPORTACTIVE ein.

Da wurde ich zu folgendem Artikel geleitet:

https://supportforums.cisco.com/discussion/11662891/port-w-lockportactiv ...

Da ich keinen Catalyst sondern einen Smart Switch habe, stellt sich die Einstellung bei mir etwas anders da.

Unter Security -> Port Security habe ich auf die LAG Ports umgeschaltet und folgende Konfig gesehen.

2 LAG 2 Locked Limited Dynamic Lock 10 Discard Enabled 60
3 LAG 3 Locked Limited Dynamic Lock 10 Discard Enabled 60
4 LAG 4 Locked Limited Dynamic Lock 10 Discard Enabled 60

Wenn ich das richtig verstanden habe, dann schaltet der LAG, wenn er 10 MAC-Adressen gelernt hat keine weiteren mehr durch.

Da der ESX2 viele Test-Vm's beherbergt, war hier wohl das Limit erreicht. Also habe ich die Port-Security für LAG 2 erst einmal deaktiviert, um zu sehen was passiert. Die VM konnte sofort pingen, die Warnung im Switch war verschwunden.

Dann habe ich noch eine 2. VM die das gleiche Problem hatte auf den ESX2 migriert und auch hier gab es kein Problem mehr.
Also gehe ich davon aus, dass ich den richtigen Schalter gedrückt habe.

Da ich die Port-Security nicht vollständig abschalten möchte, habe die nun wieder aktiviert, aber die Anzahl der MAC-Adressen von 10 auf 25 auf beiden "VM-LAG" erhöht.

2 LAG 2 Locked Limited Dynamic Lock 25 Discard Enabled 60
3 LAG 3 Locked Limited Dynamic Lock 25 Discard Enabled 60

Ich denke das Problem ist damit gelöst.
Mitglied: Bl0ckS1z3
Bl0ckS1z3 17.09.2015 um 11:19:42 Uhr
Goto Top
Eigentlich müsste der Thread in den Netzwerk-Bereich verschoben werden.
Mitglied: aqui
aqui 17.09.2015 um 13:16:50 Uhr
Goto Top
Wenn ich das richtig verstanden habe, dann schaltet der LAG, wenn er 10 MAC-Adressen gelernt hat keine weiteren mehr durch.
Ja, das ist richtig und natürlich fatal für einen server Port. Du solltest die gesamte Port Security für den Serverport (und auch allgemein) daktivieren (Disable).
Warum hast du das üverhaupt aktiviert ? Port Security auf Mac Basis macht ein kundiger Netzwerker heute eigentlich nicht mehr sondern immer .1x.
Macs sind frei konfigurierbar in so fern ist sowas eigentlich eher Spielkram als das es wirklich nützt.
Vermutlich hat da dann einer was im Setup geklickt und wusste nicht was es war, kann das sein ?
Gut wenns nun erstmal klappt. Der Fehler ist aber einzig auf die Port Security beuzogen, da het der Support Recht.
Mitglied: Bl0ckS1z3
Bl0ckS1z3 17.09.2015 um 13:56:35 Uhr
Goto Top
Also Asche auf mein Haupt, ich möchte nicht ausschließen das ich mich hier und da schon mal verklickt habe. Aber die Port-Security habe ich nicht eingeschaltet und sie ist auch nicht (generell) eingeschaltet, das hat der Cisco Techniker ja gestern auch festgestellt.

Alle Ports auf dem Switch sind Unlocked, bis auf die LAG die ich angelegt habe und denen ich Ports zugewiesen habe. Bei der Konfiguration der LAG im Port-Menue kann man auch garnicht die Port-Security konfigurieren, selbst wenn man wollte.

Es gibt hier meiner Meinung nach nur 2 Möglichkeiten:

1. Der Switch war nicht vollständig im Auslieferungszustand als ich ihn bekommen habe und es hatte vorher jemand die Eigenschaft eingeschaltet
2. In irgendeiner Firmware des Switches wird beim Anlegen/Konfigurieren des LAG per default die Port-Security eingerichtet.

Beides eher unwahrscheinlich. Aber den Menüpunkt zum Korrigieren des Problems habe ich heute Morgen das erste mal bemüht - Indianerehrenwort.

Wie auch immer, ich habe noch mal versucht über einen Test LAG das Problem zu reproduzieren, es ist mir nicht gelungen die Einstellung noch einmal so zu verdatteln.
Mitglied: aqui
aqui 17.09.2015 um 18:04:12 Uhr
Goto Top
Du hast Recht ! Punkt 1 und 2 würde auch nur ein absoluter DAU hinbekommen. Normal resettet man den Switch auf Werkseinstellungen wenn man ihn bekommt und flasht zuallererst die aktuellste Firmware bevor man in Produktion mit Endgeräten geht.
Jeder verantwortungsvolle Netzwerker macht sowas...weisst und machst du ja sicher auch selber so....
Vermutlich dann ein "Verklicker" im GUI deshalb gilt der alte und goldenen Grundsatz: "Real networkers dont click !" und gut wenn nun alles klappt wie es soll :-) face-smile