zer0g2224
Goto Top

Server 2019 - VM (DC) hängt sporadisch

Hallo liebe Kolleginnen und Kollegen,

ich habe mal wieder eine Frage zu einem Problem:

Eine VM (DC) bleibt im Betrieb sporadisch "hängen". Das äußert sich folgendermaßen: Der HyperV Manager zeigt eine konstante Auslastung von 37%/38% an. Klickt man auf StgAltEntf kommt entweder gar kein Anmeldebildschirm (schwarzes Fenster) oder nur der Sperrbildschirm (ohne Login) - das dauert aber. Es kommt auch ab und zu die Meldung: Takt unterbrochen. Remoteverbindung ist auch nicht mehr möglich. Die Clients können sich nicht mehr anmelden - eine Netzwerkordner, welcher über den Server läuft ist auch nicht erreichbar. Die VM läuft seit einem halben Jahr eigentlich ohne Probleme. Seit dem 2.1.2021 häufen sich diese aber. Gestern und heut 2 mal hintereinander. Nur ein harter Reset der Machine hilft ihr wieder auf die Beine - Geschwindigkeit ist superschnell - so auch keine negativen Auffälligkeiten.

Meine Umgebung:
Hyper V - Server 2019
3 VM - DC, WSUS und ERP Server
Dual Xeon Silver Prozessoren, Genügend RAM, NVMe SSD RAID 10
Die betreffende VM ist der DC, DNS, DHCP Server. Ebenso läuft noch Acronis CyberCloud und der ESET File Security drauf. Darüberhinaus noch als ESET Verwaltungsserver für die Agents.

Meine Diagnose:
Eventlog der VM und des HyperV Host soweit unspektakulär - nichts, was auf ein größeres Problem hindeutet
Hardware soweit ohne Auffälligkeiten
SFC ohne Befund
DISM ohne Befund

Vermutung:
Ich hatte letztens immer mal wieder Probleme mit dem Backup, was jedoch auf die Größe und Anzahl der Daten zu tun hatte (durch Ausschlüsse hatte ich das aber wieder im Griff) Es waren auch immer Probleme mit den Backups wenn der Server einfror - Frage halt: läßt das Backup den Server abschmieren oder umgekehrt... Habe heute mal die Backups soweit deaktiviert. Evtl hat das ja aber auch nichts damit zu tun.
Ebenso war kurz vor dem Auftauchen der Probleme ein ESET Upgrade (ESET Protect + File Security) - FS wurde auf allen VM's installiert - ohne Probleme.

Meine Frage:
Kann ich irgendwie nachträglich rausfinden, welches Programm die Last auf der VM verursacht?
Hatte jemand schon ein ähnliches Problem?


Vielen dank schonmal für euere Antworten bzw Fragen face-smile

Content-ID: 640998

Url: https://administrator.de/contentid/640998

Ausgedruckt am: 18.11.2024 um 17:11 Uhr

em-pie
em-pie 16.01.2021 um 18:43:12 Uhr
Goto Top
Moin,

konkret kann ich dir nicht helfen, hatte jüngst aber selbiges Phänomen mit einem jungfräulichen Server 2019, direkt auf Blech installiert.

Sobald ich die ISO des WSUSOffline gemountet habe, hat es keine 2 Minuten gedauert und die Kiste ist im Blackscreen festgefahren.
Nur ein harter Shutdown hat geholfen.

Schlussendlich habe ich dann die Updates in die Installations-ISO des Servers integriert und noch einmal von vorn begonnen - bei einer frischen Installation wahrlich kein Problem. Seit dem ist Ruhe.


Zu deinem Problem oben:
ICH würde die ESET-Tools vom DC runter nehmen.
Und da du ja drei VMs hast: Pack das Gelump auf den WSUS-Server mit drauf. Da passt es thematisch auch eher hin, meiner Meinung nach.

Kann ich irgendwie nachträglich rausfinden, welches Programm die Last auf der VM verursacht?
Nachträglich dürfte schwierig werden.... Mir ist zumindest kein Weg bekannt. ggf. mal die Logs der einzelnen DIenste sichten, ob da irgendwelche Probleme entstanden sind. Und ich meine nicht nur das Eventlog, sondern ggf. gibt es Log-Files im Installationsverzeichnis...
keine-ahnung
keine-ahnung 16.01.2021 um 18:54:31 Uhr
Goto Top
Moin,

eine Netzwerkordner, welcher über den Server läuft ist auch nicht erreichbar

Probleme mit dem Backup, was jedoch auf die Größe und Anzahl der Daten zu tun hatte

Ein DC ist ein DC ist ein ...

LG, Thomas
zer0g2224
zer0g2224 16.01.2021 um 19:05:53 Uhr
Goto Top
Ein DC ist ein DC - ja da hast du Recht.

Das ist ein kleiner Folder, nur für Verwaltungszwecke, insgesamt 300MB

Zitat von @keine-ahnung:

Probleme mit dem Backup, was jedoch auf die Größe und Anzahl der Daten zu tun hatte

Zur Info: Über die Acronis Cyber Cloud sichere ich über den Agent des DC einen großen Netzwerkordner, welcher auf einer NAS liegt, weg
zer0g2224
zer0g2224 16.01.2021 um 19:07:21 Uhr
Goto Top
Zitat von @em-pie:
Zu deinem Problem oben:
ICH würde die ESET-Tools vom DC runter nehmen.
Und da du ja drei VMs hast: Pack das Gelump auf den WSUS-Server mit drauf. Da passt es thematisch auch eher hin, meiner Meinung nach.
Hab' ich schon auf meine To-Do geschrieben... face-smile
jsysde
jsysde 17.01.2021 um 10:06:25 Uhr
Goto Top
Moin.

ESET File Security würde ich, sofern es nicht per Richtlinie Gott weiß wie verbogen wurde, als Fehlerquelle ausschließen. Läuft zumindest in all unseren Umgebungen völlig stressfrei.

Anders sieht es mit ESET Protect aus. Zumindest der Vorgänger ESMC ist seitens des Herstellers nicht für die Installation auf einem DC vorgesehen. Da ESET Protect ja keine Neuentwicklung ist, sondern eigentlich nur ein umbenannten ESMC und halt jetzt in Version 8, würde ich hier -unabhänig vom Mantra: Ein DC ist ein DC ist ein DC- auf identische Voraussetzungen tippen. Kurz gesagt: Migrier' mal dein ESET Protect weg vom DC.

Und wenn du bereits in der Vergangenheit ein Problem mit dem Backup hattest würd' ich da auch nochmal ein wenig Zeit investieren.

Was mit bei deiner Beschreibung fehlt, sind die Eckdaten der VM - nutzt wenig, wenn die der Host ne Rakete ist, man beim Erstellen der VM aber vergessen hat, selbiger auch mehr als eine vCPU zu spendieren (um mal ein blödes Beispiel zu nennen, das aber leider in der Praxis immer wieder vorkommt).

Cheers,
jsysde
zer0g2224
zer0g2224 17.01.2021 aktualisiert um 10:34:29 Uhr
Goto Top
Es gibt neue Info's zu meinem Problem. Backup ist es schon mal nicht.

Heute ist wieder das Problem aufgetaucht - VM eingefroren - hab mir nochmal die Log angeschaut:
Hab da einige ESENT Warnings gefunden: ID 508, 510 und 533 (die sind auch schon vorher da gewesen, habs aber mit was anderem verwechselt und deswegen ignoriert - sorry)
Diese deuten alle auf ein Hardwareproblem hin - die anderen VM's laufen aber normal.

Wie schon gesagt, SFC, DISM und chkdsk finden keine Fehler - Dies Systemperformace ist normal - die SSD's unauffällig und der Hardware Raid Controller meldet sich als optimal.

Jemand noch eine Idee?

P.S. die VM hat 48GB RAM, und 16vCPU's - nur zur Info
jsysde
jsysde 17.01.2021 um 10:39:41 Uhr
Goto Top
Moin.

Zitat von @zer0g2224:
Jemand noch eine Idee?
Naja... Ich würde jetzt mal alles, was nix auf nem DC zu suchen hat, weg migrieren.
Dann einen zweiten DC aufsetzen, FSMO und sonstige Funktionen verschieben, dann den Problem-DC demoten und abschalten.

Das wäre der pragmatische Ansatz, um es schnell wieder ans Laufen zu bekommen.
Der nicht so pragmatische Ansatz wäre, weitere Stunden und Tage mit der Fehlersuche zu verbringen, um dann doch den pragmatischen Ansatz zu wählen. face-wink

Cheers,
jsysde
em-pie
em-pie 17.01.2021 aktualisiert um 11:16:07 Uhr
Goto Top
Also die 16vCPUs für einen DC in deiner Größe halte ich für übertrieben.
Was ist das für ein Server? Wie viele Kerne und Sockel hat der?
Nicht, dass du die CPU überbucht hast.

Wenn im Server CPU mit 16 Kernen steckt, hast du dein Dilemma schon - theoretisch.
16 physische Kerne verfügbar
DC hat 16 vCPUs, dein WSUS auch noch mal etwas und das ERP will sicherlich auch etwas vom Kuchen abhaben.

Du willst eine Kiste Bier (24 Flaschen) auf 48 Gäste aufteilen: Irgendwer hat dann das nachsehen.


Mein Vorschlag als erstes wäre:
  • ESET auf den WSUS-Server migrieren
  • dem DC weniger vCPUs geben (4 reichen sicherlich)

Wenn das nicht hilft, dann wie @jsysde schon schrieb:
  • Zweiten DC aufsetzen
  • Alles syncen lassen
  • FSMO-Rollen verschieben
  • abwarten
  • defekten DC herunter fahren
  • alles beobachten
  • DC demoten

du musst im Vorfeld nur den File-Server noch wegmigrieren. aber da du ja bereits 3 VMs auf dem HyperV laufen hast, dürfte noch eine Lizenz für eine vierte VM frei sein. Dort würde ich die Daten ablegen lassen...
zer0g2224
zer0g2224 17.01.2021 um 11:31:18 Uhr
Goto Top
Den ESET Protect migriere ich gerade auf den WSUS.

Ansonsten hilt wohl nur
Dann einen zweiten DC aufsetzen, FSMO und sonstige Funktionen verschieben, dann den Problem-DC demoten und abschalten.
Ich würd' halt gern den Fehler finden, aber Kosten/Nutzen geht vor

Danke schonmal
jsysde
jsysde 17.01.2021 um 11:31:23 Uhr
Goto Top
Mahlzeit.

Zitat von @em-pie:
[...]Nicht, dass du die CPU überbucht hast.
Valider Punkt. face-wink
Leider auch ein Fehler, den man häufiger sieht - kam mir nicht in den Sinn bei meiner Antwort, hatte wohl zu wenig Kaffee...

Cheers,
jsysde
zer0g2224
zer0g2224 17.01.2021 um 11:44:18 Uhr
Goto Top
Zitat von @em-pie:

Also die 16vCPUs für einen DC in deiner Größe halte ich für übertrieben.
Was ist das für ein Server? Wie viele Kerne und Sockel hat der?
Nicht, dass du die CPU überbucht hast.
Ich habe hier 2x Intel Xeon Silver: mit 2x10 "echten" Cores, ergibt 40 mit HT
DC hat 16
ERP hat 8
WSUS hat 4

Sollte doch reichen oder findet ihr, dass er überbucht ist?

BTW, die Maschine lief ein halbes Jahr ohne Probleme in dieser Konfig.
jsysde
jsysde 17.01.2021 um 11:50:03 Uhr
Goto Top
Mahlzeit.

Zitat von @zer0g2224:
Ich habe hier 2x Intel Xeon Silver: mit 2x10 "echten" Cores, ergibt 40 mit HT
Passt.

DC hat 16
ERP hat 8
WSUS hat 4
Finde die Zuordnung eigenartig, aber überbucht ist hier nix.


Cheers,
jsysde
zer0g2224
zer0g2224 17.01.2021 um 11:57:05 Uhr
Goto Top
Finde die Zuordnung eigenartig, aber überbucht ist hier nix.
Da hast du Recht - eigentlich soll der ERP die 16 haben und der DC 8 - hatte ich vergessen umzustellen
zer0g2224
zer0g2224 09.02.2021 um 14:38:05 Uhr
Goto Top
Also, bin noch eine Lösung schuldig.

Problem war im Grunde der SQL 2014 auf dem DC - genauer gesagt die Backup Funktion des SQL. Sobald der SQL deaktiviert wurde, läuft die VM wieder stabil, aktiviert man ihn wieder, schmiert die VM beim auslösen des SQL Backups reproduzierbar ab.

Als Konsequenz den Eset Protect auf eine andere VM umgezogen und Ruhe war wieder eingekehrt.

Vielen Dank an alle Beitragenden!