helloworld23
Goto Top

Hyper V stürzt inkl aller Vms ab Windows Server 2016

Hallo zusammen,

diesen Server haben wir:

Betriebsystemname Microsoft Windows Server 2016 Standard
Version 10.0.14393 Build 14393
Betriebsystemhersteller Microsoft Corporation
Systemhersteller Supermicro
Systemmodell X10DRH
Systemtyp x64-basierter PC
System-SKU 085915D9
Prozessor Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz, 2101 MHz, 8 Kern(e), 16 logische(r) Prozessor(en)
Prozessor Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz, 2101 MHz, 8 Kern(e), 16 logische(r) Prozessor(en)
BIOS-Version/-Datum American Megatrends Inc. 3.1c, 25.06.2019
Installierter physischer Speicher (RAM) 64,0 GB

Auf dem Hyper-V Host laufen 6 aktive VM's (4 auf Windows 2016 Server-Systemen & 2 auf Windows 10-Betriebssystem)

Das Problem:

Der Hyper-V host stürzt inklusive aller VM's regelmäßig ab. Es wird leider nichts in die Ereignisanzeige geschrieben, deswegen ist es realtiv schwierig herauszubekommen woran es genau liegt. Wenn ich auf den Server zugreifen will, habe ich nur ein schwarzes Bild, keine Anzeige o. ä. Ich muss den Server dann per "Reset-Button" neustarten, da ich sonst keine andere Möglichkeit habe. Einen Stromausfall als Auslöser würde ich ausschließen, da wir eine USV angeschlossen haben, in deren Logs allerdings nichts geschrieben wird.

Was bisher gemacht wurde:
Umzug Backup-Software Veeam von VMHost auf eigenständige VM
Raid-Controller Update
Firmware Update
Bios Update
Diverse Windows Server Updates

Leider haben diese Dinge nicht geholfen das Problem zu beheben. Langsam sind wir mit unserem Latein am Ende. Eventuell hat jemand schon ähnliche Erfahrungen gemacht und kann mir eine Lösung mitteilen?

Content-ID: 514095

Url: https://administrator.de/contentid/514095

Ausgedruckt am: 22.11.2024 um 06:11 Uhr

Hubert.N
Hubert.N 11.11.2019 um 13:12:26 Uhr
Goto Top
Moin face-smile

Du schreibst nicht, dass Du das offensichtlichste geprüft hast: Deine Hardware.

Gruß

Hubert
aqui
aqui 11.11.2019 um 13:29:47 Uhr
Goto Top
Klingt dilettantisch aber manchmal hilft es: Oft ist es bei solchen fatalen Abstürzen das RAM oder ein RAM Modul. Hier hilft es die Module mal auszubauen und mit einem Radiergummi (nicht lachen) die Kontakte wieder blank zu machen und in veränderter Position wieder einzubauen.
Ein Versuch ist das wert....
STITDK
STITDK 11.11.2019 um 14:02:30 Uhr
Goto Top
Könnte auch der Raid Controller sein.

Wir hatten ähnliches Phänomen bei einem Hyper-V bei dem der Raid Controller einen schaden hatte.
Momo1412
Momo1412 11.11.2019 um 14:41:04 Uhr
Goto Top
Hallo,

was genau ist denn mit abstürzen gemeint?
Dass der Server neustartet?

und das zusätzlich oder nur das:
Zitat von @HelloWorld23:

Der Hyper-V host stürzt inklusive aller VM's regelmäßig ab. Es wird leider nichts in die Ereignisanzeige geschrieben, deswegen ist es realtiv schwierig herauszubekommen woran es genau liegt. Wenn ich auf den Server zugreifen will, habe ich nur ein schwarzes Bild, keine Anzeige o. ä. Ich muss den Server dann per "Reset-Button" neustarten, da ich sonst keine andere Möglichkeit habe.

Seit wann tritt das Problem denn auf und was wurde seitdem verändert?
Ich kenne ein ähnliches Verhalten allerdings nur mit einem ordentlichen Fehlerbild (Bluescreen), was immer sporadisch dann aufgetreten ist, wenn eine 10Gbit NIC einer VM weitergereicht wurde. Das allerdings in einem Testsystem, wo sowieso nichts aufeinander abgestimmt war...

Tritt das Problem vielleicht immer zu bestimmten Zeiten auf?
HelloWorld23
HelloWorld23 11.11.2019 aktualisiert um 14:58:25 Uhr
Goto Top
Hallo, vielen Dank für eure Kommentare.

Mit Absturz ist gemeint, dass ich nicht mehr auf den Server zugreifen kann, Remotedesktop sagt, dass keine Verbindung hergestellt werden kann. Wenn ich direkt am Server sitze ist der Bildschirm Schwarz und es wird nichts angezeigt - Im Server selbst leuchtet die Bios-Anzeige rot (zumindest als es das letzte mal passiert ist).

Da ich den Server so nicht zum Laufen bekomme, muss ich die Reset-Taste drücken und der Server fährt neu hoch.

Hier wird dann der folgende Fehler angezeigt:

L2/L3 Cache Error was detectet on the RAID controller
Please contct technical support to resolve this issue. Press "X" to continue or else power off the system, replace the controller and reboot.


Es kam meistens am Wochenende zu Abstürzen, während dieser Zeit lief das Backup. Deswegen hatte ich Veeam auf eine separate VM umgezogen, da ich dachte, dass zu viele Ressourcen verbraucht werden und daher der Absturz kommt - leider hat es dieses Problem nicht behoben. Die Abstürze passierten allerdings auch sporadisch unter der Woche und einmal sogar während der Geschäftszeit.

Problem ist hierbei, dass durch diese Abstürze Datenbanken beschädigt werden können und auch schon wurden.

Aufgrund der Fehlermeldung beim Starten des Servers haben wir dann diese Updates eingespielt:
Raid-Controller Update
Firmware Update
Bios Update

Leider wurde hierdurch offensichtlich das Problem nicht behoben - jetzt, 2 Wochen nach den Updates, ist der Server wieder gecrasht, deswegen schreibe ich hier.
Hubert.N
Lösung Hubert.N 11.11.2019 um 15:13:29 Uhr
Goto Top
Zitat von @HelloWorld23:
L2/L3 Cache Error was detectet on the RAID controller
Please contct technical support to resolve this issue. Press "X" to continue or else power off the system, replace the controller and reboot.

Ähhhhhhh.... Sorry......... Aber......

Da zeigt Dir Dein Controller an, dass er einen Speicherfehler hat und was machst Du? Die Ansage des Controllers ignorieren und sich wundern, dass das Blech nicht so funktioniert, wie es soll.

Ist heute Freitag?
itisnapanto
Lösung itisnapanto 11.11.2019 um 15:15:18 Uhr
Goto Top
Zitat von @HelloWorld23:

Hallo, vielen Dank für eure Kommentare.


L2/L3 Cache Error was detectet on the RAID controller
Please contct technical support to resolve this issue. Press "X" to continue or else power off the system, replace the controller and reboot.




Moin ,

das steht es doch face-smile
Controller tauschen und fertig.

FGruss
HelloWorld23
HelloWorld23 11.11.2019 aktualisiert um 15:28:21 Uhr
Goto Top
Diese Fehlermeldung ist meiner Meinung nach auf den "Crash" zurückzuführen, nicht auf ein Problem des Raid Controllers - deswegen wurde dieser erstmal geupdatet. - wird auch vom Hersteller so vorgeschlagen

Wenn einfach während eines Betriebs der Server komplett abschmiert ist es kein Wunder, dass der Raid Controller Fehlermeldungen ausgibt.

Wenn ich einen "normalen" Neustart mache tritt dieser Fehler nicht auf.

Ein Versuch ist es allerdings allemal wert.
Solarius
Solarius 11.11.2019 aktualisiert um 16:39:02 Uhr
Goto Top
Guude,

das wäre auch mein Vorschlag genau wie von itisnapanto.

Ich kann mich auch noch an RAID-Controller erinnern, die hatten eine Cache-Batterie. Wenn die getauscht werden musste passierte ähnliches. Bei IBM-RAID-Contollern kam ein paar Tage vorher eine Warnung. Hat man die beachtet und den Controller getauscht war alles gut.

Schönen Tach auch noch

Solarius
HelloWorld23
HelloWorld23 13.11.2019 um 13:42:29 Uhr
Goto Top
Vielen Dank für die zahlreichen Antworten.

Nach Rücksprache mit meinem IT Kollegen werden wir nochmal versuchen den Controller Treiber zu aktualisieren. (Kompatibilität Firmware <-> Treiber)

Wenn das Problem dadurch nicht behoben wird, werden wir den Raid Controller tauschen.
STITDK
STITDK 14.11.2019 um 19:31:59 Uhr
Goto Top
Servus,

ich verweise auf meinen Beitrag oben;)


Grüße

STITDK