Ausfall Windows Failover Cluster

Hallo @ all.

Seit einiger Zeit habe ich Probleme mit meinem Windows Cluster.

Umgbung:

2 x Hypervisoren mit Windows Server 2016 (aktueller Patchstand)
1 x NetApp Per iSCSI angebunden an beide HPV
1 x CSVFS ( hier liegen die VM Daten inkl. Domänencontroller)
2 x VM Domänen Controller

Seit einiger Zeit nun bekomme ich immer gegen 2.00 Uhr Folgende Fehler IDs:

1230:

Eine Komponente auf dem Server hat nicht rechtzeitig auf eine Anforderung geantwortet. Dadurch wurde für die Clusterressource 'Virtueller Computer "dc1.xxxxxxx"' (Ressourcentyp 'Virtual Machine', DLL 'vmclusres.dll') der Schwellenwert für die Zeitüberschreibung überschritten. Als Teil der Clusterintegritätserkennung werden Wiederherstellungsaktionen ausgeführt. Der Cluster führt eine automatische Wiederherstellung aus, indem der Prozess des Ressourcenhosting-Subsystems (RHS), unter dem die Ressource ausgeführt wird, beendet und neu gestartet wird. Stellen Sie sicher, dass die zugrunde liegende Infrastruktur (z. B. Speicher, Netzwerke oder Dienste), die mit der Ressource verknüpft ist, ordnungsgemäß funktioniert.

1146:

Der Clusterprozess des Ressourcenhosting-Subsystems (Resource Hosting Subsystem, RHS) wurde beendet und wird neu gestartet. Dies ist im Allgemeinen mit der Clusterintegritätserkennung und dem Wiederherstellen einer Ressource verbunden. Informationen dazu, von welcher Ressource und Ressourcen-DLL das Problem verursacht wurde, finden Sie im Systemereignisprotokoll.

Was ist das Problem was daraus resultiert. Das Cluster fällt aus und fahren zwar hoch, stellen jedoch nicht alle Dienste sauber zur Verfügung. DNS, Kerberos etc....

Es ist verdammt schwer aus dem Cluster log den Fehler zu filtern. Ich habe dies mit Get-Clusterlog erstellt. Eine Error ID kommt aber öfter mal vor:

[Verbose] 00001d68.00001d9c::2022/09/22-02:41:00.414 INFO [RES] Network Name: [NNLIB] Logon failed for user cluster1$ (Error 1311)

Kann jemand der schon mehr Erfahrung hat mir einen Tip geben oder sagen wo das Problem liegen könnte?

NetApp zeigt übrigens kein Fehler der Verbindung um diese Zeit. Auch das iDRAC des Dell bleches zeigt keine Verbindungsabbrüche zu der Zeit.

Vielen Dank im Voraus.

LG

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 4017767108

Url: https://administrator.de/forum/ausfall-windows-failover-cluster-4017767108.html

Ausgedruckt am: 12.07.2025 um 22:07 Uhr

4 Kommentare

Neuester Kommentar

Moin,
ich habe dir etwas Lesestoff dazu:
Cluster wird in der Nacht instabil
argonsys.com/microsoft-cloud/library/understanding-how-failover- ...

an beide HPV

Was ist HPV?

Seit einiger Zeit nun bekomme ich immer gegen 2.00 Uhr Folgende Fehler IDs:

Was läuft um 2:00 Uhr auf den Servern, Storage oder Netzwerk? Backups? Snapshots auf der Netapp?

Gruß,
Dani

Zitat von @Dani:

Moin,
ich habe dir etwas Lesestoff dazu:
Cluster wird in der Nacht instabil
argonsys.com/microsoft-cloud/library/understanding-how-failover- ...

an beide HPV

Was ist HPV?
Hypervisor

Seit einiger Zeit nun bekomme ich immer gegen 2.00 Uhr Folgende Fehler IDs:

Was läuft um 2:00 Uhr auf den Servern, Storage oder Netzwerk? Backups? Snapshots auf der Netapp?
Ein einzigeer Backupjob einer großen vm, aber in der Woche nur incremental. 8GB die da verschoben werden. Dauert aber auch lange wie ich gerade sehe. Ich werde mal diesen Job für heute Abend Deaktivieren.

Gruß,
Dani

Kurzez Feedback für alle. Es lag tatsächlich an der Sicherung durch Veeam Backup & Replication CE. Dadurch das die volle Bandbreite der 2G Anbindung ausgenutzt wird für das Backup, scheint die Antwortzeit des Storage so vermindert zu werden, das, das RHS System dies als Fehler sieht und die VMs im Cluster verschieben will dies aber nicht gelingt.

Ich habe nun das Backup deaktiviert und der Fehler trat nicht mehr auf. Natürlich haben ich nun erstmal auf die Windows Server Sicherung zurückgeschwenkt. Wie sagt man immer so schön? No Backup, No MItleid. :D

Kurz zur Info für alle interessierten. Es lag weder an Veeam noch an dem Cluster selber.

Das Storage dahinter war dasa Problem. Die i/o Reaktionszeit war aufgrund der Last zu lange und somit konnte das Cluster nicht arbeiten, da sein Storage für ihn in dem Augenblick nicht erreichbar.

Neue LUNs, Daten verschoben, Anpassung iSCSI Initiator und schon war das Problem behoben.

gelöstFrage Windows Server Microsoft

Mehr von Hendrik2586

KeepassXC - Schlüsselaustausch war nicht erfolgreichHendrik2586 - 7 Kommentare

WebEx Verbindungsprobleme nach Update v44.4.0.29298Hendrik2586 - 1 Kommentar

Language Tool AddOn BrowserHendrik2586 - 12 Kommentare

OpenVAS Community Edition (Greenbone)Hendrik2586 - 2 Kommentare

Heiß diskutiert