menkusa
Goto Top

Cluster wird in der Nacht instabil

Hallo Leute,

wie ich meinen Hyper-V Failover Cluster konfiguriert habe steht in diesem Thread: Replizierung der virtuellen Maschinen von WinServer 2016 zu WinServer 2019?!

Der Cluster läuft seit geraumer Zeit eigentlich problemlos. Nur das die Replizierung nicht so richtig funktioniert aber der BUG wurde durch den Patch von Jänner/2020 auch behoben.

Jetzt habe ich jedoch ein anderes Problem. Jede Nacht verlieren die VMs den Zugriff auf das freigebenen CSV.

Das ist die Fehlermeldung:

Eine Komponente auf dem Server hat nicht rechtzeitig auf eine Anforderung geantwortet. Dadurch wurde für die Clusterressource 'Virtual Machine Cluster WMI' (Ressourcentyp 'Virtual Machine Cluster WMI', DLL 'vmclusres.dll') bei der Verarbeitung des Steuerungscodes 'UNKNOWN (0n23068676 0x1600004 ) obj: (0n1 RESOURCE) flags: .MU., code: (0n1 0x1) access: (0n0 Any);' der Schwellenwert für die Zeitüberschreitung überschritten. Als Teil der Clusterintegritätserkennung werden Wiederherstellungsaktionen ausgeführt. Der Cluster führt eine automatische Wiederherstellung aus, indem der Prozess des Ressourcenhosting-Subsystems (RHS), unter dem die Ressource ausgeführt wird, beendet und neu gestartet wird. Stellen Sie sicher, dass die zugrunde liegende Infrastruktur (z. B. Speicher, Netzwerke oder Dienste), die mit der Ressource verknüpft ist, ordnungsgemäß funktioniert.

und diese:

Der Clusterprozess des Ressourcenhosting-Subsystems (Resource Hosting Subsystem, RHS) wurde beendet und wird neu gestartet. Dies ist im Allgemeinen mit der Clusterintegritätserkennung und dem Wiederherstellen einer Ressource verbunden. Informationen dazu, von welcher Ressource und Ressourcen-DLL das Problem verursacht wurde, finden Sie im Systemereignisprotokoll.

und diese:

Auf das freigegebene Clustervolume "ClusterPerformanceHistory" ("Virtueller Clusterdatenträger (ClusterPerformanceHistory)") kann aufgrund von Fehler "(1460)" nicht mehr von diesem Clusterknoten aus zugegriffen werden. Behandeln Sie das Verbindungsproblem zwischen diesem Knoten und dem Speichergerät sowie Probleme mit der Netzwerkverbindung.

Das CSV wird einfach für eine ganz kurze Zeit abgeschaltet und dann wieder reaktiviert. Warum auch immer.

Alle Updates sind installiert.

Irgendwer eine Idee?

MENKUSA

Content-ID: 548600

Url: https://administrator.de/contentid/548600

Ausgedruckt am: 25.11.2024 um 22:11 Uhr

beidermachtvongreyscull
beidermachtvongreyscull 17.02.2020, aktualisiert am 25.11.2022 um 14:44:25 Uhr
Goto Top
Mahlzeit,

wie ich meinen Hyper-V Failover Cluster konfiguriert habe steht in diesem Thread: Replizierung der virtuellen Maschinen von WinServer 2016 zu WinServer 2019?!

Ich fände das nervig, wenn ich über mehrere Trööts rausknobeln muss, wie Dein Cluster zusammengebaut ist. In dem Trööt hab ich jetzt nicht erlesen können, wie und von wem das CSV gestellt wird, aber das erscheint mir insofern irrelevant, als dass doch die Fehlermeldung klar ist:

Stellen Sie sicher, dass die zugrunde liegende Infrastruktur (z. B. Speicher, Netzwerke oder Dienste), die mit der Ressource verknüpft ist, ordnungsgemäß funktioniert.

Das würde ich mal wörtlich nehmen, denn anscheinend hängt sich die Hardware aus (Treiber oder sonstiges), kommt dann wieder rein und Windows muss seinen Dienst durchreißen, damit der wieder connecten kann.

Gruß,
bdmvg
Servior
Servior 18.02.2020 um 15:34:53 Uhr
Goto Top
Hallo Menkusa,

deine Informationen zum Cluster sind etwas dürftig, ebenso zum eingesetzten Server. Da du von S2D sprichst, sollten die Komponenten entsprechend für den Einsatz zertifiziert sein. Supermicro und auch andere Hersteller geben an welche Komponenten getestet und damit auch zertifiziert wurden: https://www.supermicro.com/en/solutions/azure-stack-hci
Ich sehe dort keine Onboard NICs eines Mainboards, das könnte somit schon als Fehlerursache mit hineinspielen.

Was nutzt du denn als Quorum?
Probleme über Nacht hören sich sehr nach Backup an. Läuft das Quorum virtuell auf dem S2D Cluster und wird ggf. beim Backup temporär angehalten? Dann hast du genau solche Phänomene.

Um dir professionell helfen zu können, musst du allerdings schon mehr zu deiner Umgebung schreiben.
menkusa
menkusa 22.02.2020 aktualisiert um 23:41:02 Uhr
Goto Top
Hallo,

nun, zertifiziert ist definitiv alles. Von Intel SSDs bis zur Intel X722 DA2 Netzwerkchips die auf dem Mainboard drauf sind. Eine Steckkarte oder Onboard dürfte keinen Unterschied ausmachen. face-smile

Ich habe das Problem nun gefunden. Die Problematik war das die Deduplizierung massiv I/O generierte während die HRL Files von vielen Kunden ebenso zeitgleich bearbeitet werden mussten. Irgendwann war die Belastung der SSDs samt NVMe Cache Disks so hoch das Fehler auftraten. Ich habe die Deduplizierung etwas zurückgedreht. Nun läuft alles sehr gut.

Die Durchsatzoptimierung in der Deduplizierung nimmt sich sehr viel Leistung vom System um die Jobs abzufertigen. Dabei können gelegentliche Fehler im ReFS Filesystem auftreten. Die DeDU optimiert mit voller Power und dabei werden gigantische Änderungen auf dem Filesystem von der Replizierung ebnso geschrieben. Hier muss man die Deduplizierung so einstellen das Sie nur eine bestimmte Leistung von System reservieren darf. Dann gibt es keine Fehler.
Zeitgleich muss jedoch bei dem ganzen Prozedere alles über Netzwerk auf den anderen Nodes augenblicklich ebenso geschrieben werden. S2D kann nur so einwandfrei funktionieren.

Deduplizierung: Throttling

RAM Verbrauch von max. 50%
Start-DedupJob -Volume "D:" -Type Optimization -Memory 50

CPU:
Start-DedupJob -Type Optimization -Volume <Your-Volume-Here> -Memory 50 -Cores 50 -Priority High


Grüße
MENKUSA
MCSE, MCP, MCSA