hendrik2586
Goto Top

Ausfall Windows Failover Cluster

Hallo @ all.

Seit einiger Zeit habe ich Probleme mit meinem Windows Cluster.

Umgbung:


2 x Hypervisoren mit Windows Server 2016 (aktueller Patchstand)
1 x NetApp Per iSCSI angebunden an beide HPV
1 x CSVFS ( hier liegen die VM Daten inkl. Domänencontroller)
2 x VM Domänen Controller

Seit einiger Zeit nun bekomme ich immer gegen 2.00 Uhr Folgende Fehler IDs:

1230:

Eine Komponente auf dem Server hat nicht rechtzeitig auf eine Anforderung geantwortet. Dadurch wurde für die Clusterressource 'Virtueller Computer "dc1.xxxxxxx"' (Ressourcentyp 'Virtual Machine', DLL 'vmclusres.dll') der Schwellenwert für die Zeitüberschreibung überschritten. Als Teil der Clusterintegritätserkennung werden Wiederherstellungsaktionen ausgeführt. Der Cluster führt eine automatische Wiederherstellung aus, indem der Prozess des Ressourcenhosting-Subsystems (RHS), unter dem die Ressource ausgeführt wird, beendet und neu gestartet wird. Stellen Sie sicher, dass die zugrunde liegende Infrastruktur (z. B. Speicher, Netzwerke oder Dienste), die mit der Ressource verknüpft ist, ordnungsgemäß funktioniert.

1146:

Der Clusterprozess des Ressourcenhosting-Subsystems (Resource Hosting Subsystem, RHS) wurde beendet und wird neu gestartet. Dies ist im Allgemeinen mit der Clusterintegritätserkennung und dem Wiederherstellen einer Ressource verbunden. Informationen dazu, von welcher Ressource und Ressourcen-DLL das Problem verursacht wurde, finden Sie im Systemereignisprotokoll.


Was ist das Problem was daraus resultiert. Das Cluster fällt aus und fahren zwar hoch, stellen jedoch nicht alle Dienste sauber zur Verfügung. DNS, Kerberos etc....

Es ist verdammt schwer aus dem Cluster log den Fehler zu filtern. Ich habe dies mit Get-Clusterlog erstellt. Eine Error ID kommt aber öfter mal vor:

[Verbose] 00001d68.00001d9c::2022/09/22-02:41:00.414 INFO [RES] Network Name: [NNLIB] Logon failed for user cluster1$ (Error 1311)

Kann jemand der schon mehr Erfahrung hat mir einen Tip geben oder sagen wo das Problem liegen könnte?

NetApp zeigt übrigens kein Fehler der Verbindung um diese Zeit. Auch das iDRAC des Dell bleches zeigt keine Verbindungsabbrüche zu der Zeit.

Vielen Dank im Voraus.

LG

Content-ID: 4017767108

Url: https://administrator.de/contentid/4017767108

Ausgedruckt am: 24.11.2024 um 12:11 Uhr

Dani
Dani 22.09.2022 um 10:25:39 Uhr
Goto Top
Moin,
ich habe dir etwas Lesestoff dazu:
Cluster wird in der Nacht instabil
https://argonsys.com/microsoft-cloud/library/understanding-how-failover- ...

an beide HPV
Was ist HPV?

Seit einiger Zeit nun bekomme ich immer gegen 2.00 Uhr Folgende Fehler IDs:
Was läuft um 2:00 Uhr auf den Servern, Storage oder Netzwerk? Backups? Snapshots auf der Netapp?


Gruß,
Dani
Hendrik2586
Hendrik2586 22.09.2022 um 12:11:53 Uhr
Goto Top
Zitat von @Dani:

Moin,
ich habe dir etwas Lesestoff dazu:
Cluster wird in der Nacht instabil
https://argonsys.com/microsoft-cloud/library/understanding-how-failover- ...

an beide HPV
Was ist HPV?
Hypervisor face-smile
Seit einiger Zeit nun bekomme ich immer gegen 2.00 Uhr Folgende Fehler IDs:
Was läuft um 2:00 Uhr auf den Servern, Storage oder Netzwerk? Backups? Snapshots auf der Netapp?
Ein einzigeer Backupjob einer großen vm, aber in der Woche nur incremental. 8GB die da verschoben werden. Dauert aber auch lange wie ich gerade sehe. Ich werde mal diesen Job für heute Abend Deaktivieren.

Gruß,
Dani
Hendrik2586
Hendrik2586 27.10.2022 um 09:25:33 Uhr
Goto Top
Kurzez Feedback für alle. Es lag tatsächlich an der Sicherung durch Veeam Backup & Replication CE. Dadurch das die volle Bandbreite der 2G Anbindung ausgenutzt wird für das Backup, scheint die Antwortzeit des Storage so vermindert zu werden, das, das RHS System dies als Fehler sieht und die VMs im Cluster verschieben will dies aber nicht gelingt.

Ich habe nun das Backup deaktiviert und der Fehler trat nicht mehr auf. Natürlich haben ich nun erstmal auf die Windows Server Sicherung zurückgeschwenkt. Wie sagt man immer so schön? No Backup, No MItleid. :D
Hendrik2586
Lösung Hendrik2586 28.02.2023 um 09:59:35 Uhr
Goto Top
Kurz zur Info für alle interessierten. Es lag weder an Veeam noch an dem Cluster selber.

Das Storage dahinter war dasa Problem. Die i/o Reaktionszeit war aufgrund der Last zu lange und somit konnte das Cluster nicht arbeiten, da sein Storage für ihn in dem Augenblick nicht erreichbar.

Neue LUNs, Daten verschoben, Anpassung iSCSI Initiator und schon war das Problem behoben.