derwowusste
Goto Top

Hyper-V-Host rebootet - einige wenige Gäste haben danach Ping-Zeiten von über 400ms!

Moin an alle Hyper-V Admins!

Hat jemand außer mir schon einmal Folgendes erlebt?
Hyper-V auf Server 2019. Server startet neu, Maschinen suspendieren und resumen - dies funktioniert seit ca. einem Jahr tadellos.

Letzten Monat jedoch waren direkt nach dem Neustart 2 VMs kaum noch ansprechbar.
Die Ursache war schnell gefunden: Ping-Zeiten von ca. 400 Millisekunden.
Lösung: VMs neu gestartet - Problem behoben.

Nun, einen Monat später, wieder den Hypervisor neu gestartet - dieses Mal ist es eine andere VM, aber mit den gleichen Symptomen. Lösung ebenso gleich.

Also: wir haben hier

  • einen Host, der keinerlei Ressourcenknappheit hat.
  • verschiedene Gastsysteme (Server 2012 R2 und 2016), die währenddessen keine Ressourcenknappheit haben
  • keinerlei Meldungen in den Eventlogs von VMs und Host
  • keinerlei Veränderungen am Host
  • eine NIC, die bei allen gleich ist, jedoch bereitet diese bei anderen VMs zur selben Zeit keine Probleme (Ping <1 ms)

Hatte jemand das schon mal?

Content-Key: 514103

Url: https://administrator.de/contentid/514103

Printed on: April 19, 2024 at 15:04 o'clock

Member: falscher-sperrstatus
falscher-sperrstatus Nov 11, 2019 at 14:37:31 (UTC)
Goto Top
Hi,

was für apps laufen darauf und was heisst keine Ressourcenknappheit? (jeder definiert das anders)
Member: Stefan007
Stefan007 Nov 11, 2019 at 14:39:18 (UTC)
Goto Top
Switch ist i.O?
Mitglied: 141815
141815 Nov 11, 2019 updated at 14:44:53 (UTC)
Goto Top
Hi,
hast du in den VMs bei "Startup Action" ein "Startup-Delay" konfiguriert? Ich setze da immer je nach Maschine passende Delays, so das nicht alle gleichzeitg "Resumed" werden, das kann je nach Anzahl von VMs und Abhängigkeiten sonst schon mal Probleme bereiten.

c.
Member: DerWoWusste
DerWoWusste Nov 11, 2019 updated at 14:59:32 (UTC)
Goto Top
Moin.

@certifiedit.net
Ping-Zeiten haben nichts mit Apps zu tun. Ich verstehe den Gedankengang nicht. Es sind 1x Exchange, 1x WSUS und gestern 1 Domänencontroller.
Keine Ressourcenknappheit heißt völliges Idlen. Viel RAM, keine CPU-Last, keine IO.

@Stefan - die selbe NIC ist doch wie gesagt in diversen anderen VMs drin, welche zur selben Zeit 0 Probleme haben. Auch wird ein Reboot einer VM einen vermeintlich defekten Switch nicht beeindrucken.
Member: DerWoWusste
DerWoWusste Nov 11, 2019 at 14:46:43 (UTC)
Goto Top
@141815

Ein Startup-Delay wird nicht benutzt. Der Resume-Prozess ist sehr schnell abgeschlossen, da das Storage sehr performant ist. Ich sehe auch hier keinen Zusammenhang, da die Ping-Zeiten damit (aus meiner Sicht) nichts zu tun haben.
Mitglied: 141815
141815 Nov 11, 2019 updated at 14:48:22 (UTC)
Goto Top
Zitat von @DerWoWusste:
Ich sehe auch hier keinen Zusammenhang, da die Ping-Zeiten damit (aus meiner Sicht) nichts zu tun haben.
Versuch macht kluch, bei Hyper-V wundert mich ehrlich gesagt nichts mehr.
Member: Kraemer
Kraemer Nov 11, 2019 at 15:13:29 (UTC)
Goto Top
Moin @dww,

das mit dem Delay würde ich mir auch ansehen. Dein Problem kenne ich so nicht, hatte aber unter 2012R2 folgendes:
Starteten 2 bestimmte VM's zur selben Zeit, dauerte der Resume, immer mal wieder, viele Minuten. Ein Delay von gerade einmal 3 Sekunden eingetragen und das Problem ist nicht wieder aufgetreten.

Gruß
Member: DerWoWusste
DerWoWusste Nov 11, 2019 at 15:27:27 (UTC)
Goto Top
Was deutet auf denn auf Probleme mit dem Delay (von 0) hin?
Ich probier das ja gerne, würde aber eher Dinge testen, die etwas mit der virtuellen NIC / dem virtuellen Switch, der ja offenbar zickt zu tun haben.
Mitglied: 141815
141815 Nov 11, 2019 updated at 15:39:09 (UTC)
Goto Top
Zitat von @DerWoWusste:

Was deutet auf denn auf Probleme mit dem Delay (von 0) hin?
Ich probier das ja gerne, würde aber eher Dinge testen, die etwas mit der virtuellen NIC / dem virtuellen Switch, der ja offenbar zickt zu tun haben.
Naja wenn mir schon zwei Leute den selben Hinweis geben dann würde ich dem zumindest schon mal Bedeutung schenken. Was da intern im Switch und oder den Treibern schief läuft weiß wohl nur MS oder ein Spezi mit WinDBG und ist vermutlich einer Race-Condition geschuldet, z.B. Aufruf einer Treiberfunktion die in der VM zu einem Loop führt oder einen Bufferoverflow erzeugt oder ähnliches, möglich ist vieles.
Member: clSchak
clSchak Nov 11, 2019 updated at 15:41:34 (UTC)
Goto Top
Hi @DerWoWusste

hast du mal am Hardwareswitch geschaut um zu dem Zeitpunkt irgendwelche Events z.B. STP auftauchen? Wir hatten das, allerdings mit VMWare 5.5, das die Switche sich z.T. schwer damit getan haben eine passende Verbindung aufzubauen.

Dann stellt sich die Frage, ist das Latenzproblem nur wenn du von deinem Rechner pingst/RDP machst oder auch zwischen den VMs auf dem gleichen Hyper-V Host (also auf ein und der selben Maschine)?

Gruß
@clSchak
Member: DerWoWusste
DerWoWusste Nov 11, 2019 at 15:48:12 (UTC)
Goto Top
Naja wenn mir schon zwei Leute den selben Hinweis geben dann würde ich dem zumindest schon mal Bedeutung schenken
Du, das mach ich doch auch und teste es gerne, nur wüsste ich gern, wieso Ihr darauf kommt. Ich teste auch gerne, den Neustart ab jetzt nicht zwischen 3 und 4 Uhr zu machen, sondern zwischen 4 und 5, weil es hier schon 2 Leute so machen und keine Probleme haben, aber dennoch wüsste ich gerne, wo Ihr da einen Zusammenhang seht, wenn es schon nicht aus eigener Erfahrung zu stammen scheint.

@clSchak:
Keine Auffälligkeiten am Switch. Latenzprobleme von überall zu diesen VMs in diesem Zustand - auch von VMs am selben virtuellen Switch.
Member: Kraemer
Kraemer Nov 11, 2019 at 15:53:11 (UTC)
Goto Top
Zitat von @DerWoWusste:

Was deutet auf denn auf Probleme mit dem Delay (von 0) hin?
ich kann es dir nicht sagen. Mein Gefühl sagt mir, dass es Probleme gibt, wenn zu selben Zeit 2 virtuelle Netzwerkkarten aktiviert werden.
Ich hatte den Hinweis damals auch nach Stundenlangem googlen gefunden. Da das funktioniert hat und gerade mal 3 Sekunden kostet, habe ich das Problem nicht weiter verfolgt.
Member: DerWoWusste
DerWoWusste Nov 11, 2019 at 15:59:41 (UTC)
Goto Top
Ich hatte den Hinweis damals auch nach Stundenlangem googlen gefunden
Aber dein Problem war doch ein ganz anderes, oder hattest Du auch diese dauerhaft schlechten Pings nach dem Resume?
Member: Henere
Henere Nov 11, 2019 at 18:40:02 (UTC)
Goto Top
Servus. Warum Resume ?
Ich lasse 14VMs runterfahren und dann mit wenigen Sekunden Delay zueinander (5-10) wieder starten. Reboot hat Windowskisten noch nie geschadet.
Zeitmässig merke ich keinen Unterschied. Selbst ein Ex2016 hat seine 50GB DB 20 Sekunden nach Start wieder online.

Henere
Member: DerWoWusste
DerWoWusste Nov 11, 2019 at 21:46:07 (UTC)
Goto Top
Habe gerade eine kurze Testreihe beendet:

Hypervisor 4x neu gestartet, ohne dabei die Konfig zu ändern.
->eine einzige Maschine zeigte Pingzeiten, die über 1 ms waren, (etwa bei 50ms dies Mal), aber nur bei einem der 4 Durchläufe.
Einzige Erkenntnis: es war wieder die selbe NIC!

Sehr rätselhaft. Wenn es so selten auftritt, ist es auch schwer, eine Lösung zu finden.
Morgen kommen dann 4 Durchläufe mit der Konfigänderung.
Member: Spirit-of-Eli
Spirit-of-Eli Nov 12, 2019 at 05:48:17 (UTC)
Goto Top
Moin,

ich hatte das tatsächlich nur mal mit einer Ubuntu Server VM, welche nach einem reboot ähnlich reagiert hat.
Da lag es tatsächlich am DNS. Die Maschine konnte ihren eigenen Hostname einige Zeit nicht auflösen.

Ein weitere Neustart hat das Thema behoben.
Dauerhaft hat es geholfen den Namen in der Hosts Datei einzutragen.

Aber wie gesagt, mit Windows VMs auf dem gleichen Hosts gab es keine Probleme.

Sind die MAC-Adressen fest eingetragen?

Gruß
Spirit
Member: clSchak
clSchak Nov 12, 2019 at 06:56:58 (UTC)
Goto Top
Zitat von @Spirit-of-Eli:



Sind die MAC-Adressen fest eingetragen?

Gruß
Spirit

Switched Hyper-V MAC-Adressen bei Reboot? Das wäre ja ein absolutes No-Go, denke eher nicht das Hyper-V so etwas macht.
Member: Spirit-of-Eli
Spirit-of-Eli Nov 12, 2019 at 06:58:21 (UTC)
Goto Top
Zitat von @clSchak:

Zitat von @Spirit-of-Eli:



Sind die MAC-Adressen fest eingetragen?

Gruß
Spirit

Switched Hyper-V MAC-Adressen bei Reboot? Das wäre ja ein absolutes No-Go, denke eher nicht das Hyper-V so etwas macht.

Ich habe das Verhalten mit der Dynamischen MAC Zuweisung noch nicht ganz verstanden.
Ein Wechsel ist aber durchaus möglich wie ich festgestellt habe.
Member: DerWoWusste
DerWoWusste Nov 12, 2019 at 21:45:32 (UTC)
Goto Top
So, Testreihe 2 beendet.

Resultat ernüchternd. Auch wenn alle VMs einzeln starten, kommt es dennoch gelegentlich (wieder bei 1 von 4 Hypervisor-Reboots) zu diesem Effekt.
Tja. hoffen auf den nächsten Patch (so eben installiert). Bis dahin Workaround: Pingzeiten monitoren und VM ggf. neu starten.
Member: Henere
Henere Nov 12, 2019 at 21:57:02 (UTC)
Goto Top
Macht es einen Unterschied ob Du die VM resumest oder neustartest ?
Member: DerWoWusste
DerWoWusste Nov 13, 2019 at 06:09:59 (UTC)
Goto Top
Nicht getestet bislang. Ich werde nach und nach diverse Dinge testen.
Member: DerWoWusste
DerWoWusste Nov 21, 2019 at 21:50:43 (UTC)
Goto Top
Habe tüchtig weiter getestet und es bleibt bizarr. Ich hatte zuletzt nur noch die Treiber der Netzwerkkarten aktualisiert - keine Änderung, etwa jeder 4 Reboot haut meist eine, manchmal sogar 2 Maschinen ping-technisch total aus dem Tritt.

Aber nun kommt's:
-pingt der Host selbst die Maschine an, ist der Ping bei <1ms und sofort wird auch der Ping von allen anderen Maschinen im Netz zu dieser VM hin schnell! Bitte, was für ein Bug ist das denn?
-auch getestet wurde im Fehlerfall einfach die virtuelle NIC einmal disconnecten und re-connecten - sofort läuft der Ping schnell.

Da ich auf weitere Tests langsam keinen Bock mehr habe, wird nun einfach Folgendes umgesetzt:
Der Host bekommt per Task den Auftrag, nach dem Start aller Maschinen einen Ping an alle abzusetzen und fertig.
Member: falscher-sperrstatus
falscher-sperrstatus Nov 21, 2019 at 22:20:35 (UTC)
Goto Top
sieht nach einer "Pathfinding Problematik" aus? Möglich, dass du dich verroutet hast?
Member: DerWoWusste
DerWoWusste Nov 22, 2019 at 07:44:34 (UTC)
Goto Top
Verroutet? Es werden keine Routen benutzt.