litrserv
Goto Top

BSOD virtueller Server

Hallo zusammen,

wir haben eine Terminalserver-Farm, bestehend aus einem Connection Broker und einmal 3 Servern in einer Sammlung, und einmal 2 Server in einer Sammlung. Alles Windows Server 2022. Die 3 Server der einen Sammlung haben seit einer Woche plötzlich regelmäßig abwechselnd BSOD. Es kann keiner bestimmten Anwendung oder einem Benutzer zugeordnet werden. Sowohl die Terminalserver als auch der Connection Broker sind auf VMware ESXi 7.0 virtualisierte Maschinen.
Die Minidump Datei sieht jedes mal etwas anders, siehe angefügte Screenshots.
Die virtuellen Maschinen wurden schon auf andere ESXi-Hosts migriert, was keine Änderung bewirkte.
Hatte jemand diesen BSOD-Fehler schon mal auf VMs und hat eine Idee, wie wir hier weiter vorgehen können?

VG
dmp2
dmp3
dmp1

Content-ID: 3782565445

Url: https://administrator.de/contentid/3782565445

Ausgedruckt am: 25.11.2024 um 19:11 Uhr

radiogugu
radiogugu 29.08.2022 um 15:26:34 Uhr
Goto Top
Mahlzeit.

Meine eine oberflächliche Reparatur mit "sfc /scannow” probiert?

Klingt auf mehreren Websites nach Treiberproblemen und bei anderen wieder auf das Netzwerk bezogene Themen.

Sind die Guest Tools aktuell? Welche Netzwerktreiber ist im ESX ausgewählt (VMXNet, Intel E1000, etc.)?

Gruß
Marc
Dani
Dani 29.08.2022 um 15:29:17 Uhr
Goto Top
Moin,
wie immer die Basics:
  • ESXi 7.x auf dem neusten Patchstand?
  • Aktuelle VMware Tools in den VM installiert?
  • Welche Netzwerkarte nutzt udu in den VMs?
  • Welche Hardware Version haben die VMs?


Gruß,
Dani
litrserv
litrserv 29.08.2022 um 16:08:21 Uhr
Goto Top
Hi,

wir haben 3 ESXi im Cluster, alle Stand 7.0.3 Update 20036589.
VMware Tools wurden nach dem Auftreten der BSOD alle auf den Stand 12.0.0 build 19345655 gebracht.
Netzwerktreiber ESX: bnxtnet
Netzwerkkarte in VMs: Intel 82574L Gigabit Network Connection
Hardware Version VMs: 19
litrserv
litrserv 29.08.2022 um 16:20:06 Uhr
Goto Top
Edit: Adaptertyp der VMs: E1000E
ukulele-7
ukulele-7 29.08.2022 um 16:20:06 Uhr
Goto Top
Klingt auch für mich nach Treiber. Dürfen die Benutzer USB Geräte durch reichen? Ich hatte schon BSOD durch angeschlossenes Mobiltelefon...
Dani
Dani 29.08.2022 aktualisiert um 16:32:02 Uhr
Goto Top
Perfekt, alle Abhänigkeiten von einander entsprechende somit der VMware Support Matrix. Einzig die VMware Tools könnte man noch auf die neuste Version aktualisieren.

Könnte es sein, dass das Problem mit der Installation der Windows Updates aus dem August erstmalig aufgetreten sind? Das BIOS auf den Servern ist auch auf einer aktuellen Version?

Hast du auf dem Servern Tools wie Trend Micro installiert? Wenn dem so ist, könnte das auch eine Ursache sein.


Gruß,
Dani
108012
108012 29.08.2022 um 19:32:06 Uhr
Goto Top
Hast du auf dem Servern Tools wie Trend Micro installiert? Wenn dem so ist, könnte das auch eine Ursache sein.
+ 1 (Netio.sys + AV)

Dobby
Spirit-of-Eli
Spirit-of-Eli 29.08.2022 um 22:40:33 Uhr
Goto Top
Moin,

ich würde testen die E1000 Karten rauszuwerfen und auf VMXNet um zu steigen.
Mein erster Gedanke bei den Dumps ging auch in die Netzwerk Richtung.

Gruß
Spirit
SlainteMhath
SlainteMhath 30.08.2022 um 08:01:05 Uhr
Goto Top
Moin,

ich würde testen die E1000 Karten rauszuwerfen und auf VMXNet um zu steigen.
Das würde ich auch so machen. die E1000 vNICs machen m.E.n. unter Windows nur Probleme.

lg,
Slainte
Dani
Dani 30.08.2022 um 12:45:49 Uhr
Goto Top
Moin,
Das würde ich auch so machen. die E1000 vNICs machen m.E.n. unter Windows nur Probleme.
hab ich was verpasst? Ist evtl. ein wenig OT aber wir verfolgen genau die andere Strategie: VMXNET3 -> E1000.


Gruß,
Dani
SlainteMhath
SlainteMhath 30.08.2022 um 12:52:38 Uhr
Goto Top
Also bei mir laufen ~200 VMs unter 7.0.3 mit vmxnet3 problemlos (Windows 2003 bis 2019 und Debian 9-11)
"Aus versehen" wurden mal bei ein paar Servern die E1000e verwendet: Bluescreens und ungewöhnliche Netzwerkprobleme (massig Retransmits, CRC Fehler usw)

Merkwürdig face-smile
3714160434
3714160434 30.08.2022 um 12:58:55 Uhr
Goto Top
Dani
Dani 31.08.2022 um 11:06:31 Uhr
Goto Top
Moin,
Also bei mir laufen ~200 VMs unter 7.0.3 mit vmxnet3 problemlos (Windows 2003 bis 2019 und Debian 9-11)
bei uns deutlich mehr VMs und mehr verschiedene Betriebsysteme. Unsere VMware Jungs schwören auf die E1000E. Aber ich hinterfrage das mal bei einem Kaffee... jetzt hab ich Blut geleckt. face-wink


Gruß,
Dani
Spirit-of-Eli
Spirit-of-Eli 31.08.2022 um 15:06:41 Uhr
Goto Top
Wir haben mittlerweile das Thema, dass bei einem Tools Update auch gleich die E1000 Karten verschwinden und dann Server per DHCP im Netz hängen.
VMware scheint es auch zu präferieren.
Außerdem sind die VMXNet Karten schneller.
GrueneSosseMitSpeck
GrueneSosseMitSpeck 31.08.2022 aktualisiert um 23:04:22 Uhr
Goto Top
so nach ca. 22 Jahren VMware Praxis von GSX bis ESX 7 - die OEM Treiber in Windows für Intel-Karten sind das Problem... beim i219 hab ich beim Datendurchsatz den Faktor 20 wenn ich in älteren WIndows-Versionen einfach mal den Treiber von Intel nachinstalliere (auf echter Hardware). Und der E1000 ist in Windows zwar da, aber halt auch nur OEM, und aktiviert viele der Features für Hardwarebeschleunigung nicht, die VMware dann auch nicht an die HArdware durchreicht. Wenn ich am Server eine E1000E habe (in meinem Lab als Quadport so vorhanden) macht die Installation des Intel-treibers sogar Sinn.

Das ist ansontsen ein wahrer Einstellungsdschungel, den VMware nur im VMXNET3 richtig gelöst hat. Wer Windows mit E1000 weiterlaufen läßt ist am Ende selber schuld... der ist für WDS und automatische PXE Boots da (was viele Machine creation Skripte nutzen) und für Anwenderworkloads in Windows 10 auch ausreichend, meistens. Für Server aber nicht, speziell wenn die wie Terminalserver viele Vermbindungen zu Clients UND zu Serverdiensten offenhalten müssen und das mit ein und demselben Interface.

Und Sever 2022? Ist neuer als ESX 7. Und was hat man aus den POSDs gelernt wenn man neue OS auf alten ESXen tesstet? Erst die letzten Patches für ESX einspielen. Server 2016 killte 6.0 bis CU1, Windows 10 killte ESX 6.7 bis CU2. Daß Windows 11, 21h2 bei Windows 10 und Server 2022 heikel sind weiß man eigentlich..... meine Meinung nach sowieso Finger weg davon solange man ESX nicht auf dem ganz aktuellen Stand hat. Da ist in diesem Jahrzehnt leider viel Qualität den Bach runtergegangen.

Edit
Die Verwendung von VMXNET3 steht seit mehr als einem Jahrzehnt in den VMware Whitepapers drin. Nur mal so ein Wink mit dem Zaunpfahl.
litrserv
litrserv 14.11.2022 um 09:33:18 Uhr
Goto Top
Danke für die zahlreichen Antworten.
Es wurde auf VMXNET 3 umgestellt ohne Änderung.
Nach langem hin und her haben wir rausgefunden, dass es im Zusammenhang mit dem Sophos Antivirus steht. Weitere Fehleranalyse folgt...