rssd1983
Goto Top

Storage für Hyper-V Cluster optimieren

Hallo Zusammen,

ich habe ein Hyper-V Cluster übernommen und stehe jetzt vor dem Problem, dass wir in unserem Hyper-V Cluster sporadische Ausfälle einzelner iSCSI-Verbindungen haben. Dadurch funktioniert auch das Failover nicht und die VM's sind dann einfach aus. Zweites Problem, welches mich zum akuten Handeln zwingt, ist wenn eine Platte ausfällt und das RAID wiederhergestellt wird. Dann ist die Performance sehr schlecht und die Ausfälle der iSCSI-Verbindung häufen sich.

Mein Ziel:
- Storage redundant (am wichtigsten für VM's, Datengräber sind zweitrangig und könnten ausgelagert werden)
- akzeptable Performance auch bei einer Wiederherstellung nach HDD-Ausfall


Meine Fragen:

1. Welche Empfehlung gebt ihr mir für die RAID-Konfiguration?

2. Wäre ein Umstieg auf SMB3 eine Lösung?
2.1 Hat jmd. schon Erfahrung mit ähnlicher Hardware gesammelt?


Unsere Konfiguration:

2x QNAP TS-EC1679U-SAS-RP
16x 300GB 15k SAS (HGST & Seagate)

Store1:
1x RAID10 über 4 HDD (VM's, Exchange1-Event)
1x RAID10 über 4 HDD (VM's, Exchange2-DBs)
1x RAID5 über 5 HDD (Datengrab, WSUS-Content)
1x RAID5 über 3 HDD (Datengrab)

Store2:
1x RAID10 über 4 HDD (VM's)
1x RAID10 über 4 HDD (VM's)
1x RAID5 über 5 HDD (Datengrab)
1x RAID5 über 3 HDD (Datengrab)


3x Hyper-V Host (alle 3 identisch)
Supermicro X9DR7-TF+
2x Intel Xeon E5-2690 v2, 10x 3.00GHz
192 GB DDR3-1600
2x Intel SSD DC S3500 Series 120GB, 2.5", SATA 6Gb/s (RAID1, OS: Windows Server 2012 Standard)


Die beiden QNAP sind jeweils über 2x 10GBit mit den Servern (auch 2x 10GBit) verbunden (2x Netgear ProSafe Plus XS708E, 8-Port Switch).

Es laufen insgesamt ca. 25 VM's auf allen 3 Hosts verteilt.
Es läuft ein Exchange-Cluster mit 2 Exchange-Nodes.

Unser Client-Netzwerk ist komplett mit 1GBit angebunden.


Falls ich Informationen unterschlagen habe, bitte jederzeit nachfragen.

Vielen Dank und Grüße,
René

Content-ID: 302875

Url: https://administrator.de/contentid/302875

Ausgedruckt am: 23.11.2024 um 02:11 Uhr

Chonta
Chonta 26.04.2016 um 11:57:07 Uhr
Goto Top
Hallo,

warum bricht denn iscsi zusammen?
Was immer der Grund ist der könnte auch auf eine SMB3 Freigabe eine Auswirkung haben.

Gruß

Chonta
rssd1983
rssd1983 26.04.2016 aktualisiert um 12:51:15 Uhr
Goto Top
Hallo Chonta,

warum genau iSCSI zusammenbricht versuche ich noch herauszufinden.

Nochmal ein Nachtrag zur Konfiguration:
In den einzelnen Speicherpools sind mehrere iSCSI-Ziele mit jeweils 2 LUN's definiert. In jeder LUN finden sich dann 2 VM's wieder.
Beispiel:
iSCSI-Ziel: S1P1HCTARGET05
LUN1: S1P1HCTARGET05LUN1
LUN2: S1P1HCTARGET05LUN2

S1P1HCTARGET05LUN1 = C:\ClusterStorage\Volume2 >> beinhaltet Server1.vhdx, Server2.vhdx
S1P1HCTARGET05LUN2 = C:\ClusterStorage\Volume3 >> beinhaltet Server3.vhdx, Server4.vhdx

Zu den Fehlern habe ich nur Ereigniseinträge auf den Hyper-V Hosts, keine auf den QNAP-Stores.

Folgende Fehler habe ich:

Ereignis-ID 5142
Auf das freigegebene Clustervolume "Volume3" ("S1P1HCTARGET05LUN2") kann aufgrund von Fehler "ERROR_TIMEOUT(1460)" nicht mehr von diesem Clusterknoten aus zugegriffen werden. Behandeln Sie das Verbindungsproblem zwischen diesem Knoten und dem Speichergerät sowie Probleme mit der Netzwerkverbindung.

Ereignis-ID 5120
Das freigegebene Clustervolume "Volume3" ("S1P1HCTARGET05LUN2") ist auf dem Knoten aufgrund von "STATUS_DEVICE_BUSY(80000011)" nicht mehr verfügbar. Alle E/A-Aktivitäten werden vorübergehend in eine Warteschlange aufgenommen, bis wieder ein Pfad zum Volume eingerichtet ist.


Was vereinzelt auftritt und im Moment auf das Wegbrechen des iSCSI-Ziels und das daraufhin "harte Ausschalten" der VM's hinweist (für mich zumindest):

Ereignis-ID 1069
Fehler in der Clusterressource "S1P1HCTARGET05LUN1" des Typs "Physical Disk" in der Clusterrolle "0948ca08-a57c-4128-826c-8c9c480f0066".

Ereignis-ID 1066
Die Clusterdatenträgerressource "S1P1HCTARGET05LUN1" zeigt eine Beschädigung für Volume "\Device\Harddisk3\ClusterPartition1" an. Derzeit wird CHKDSK ausgeführt, um die Probleme zu beheben. Der Datenträger ist bis zum Abschluss von CHKDSK nicht verfügbar. Die CHKDSK-Ausgabe wird in der Datei "C:\Windows\Cluster\Reports\ChkDsk_ResS1P1HCTARGET05LUN1_Disk3Part1.log" protokolliert.
CHKDSK schreibt möglicherweise auch Informationen in das Anwendungsereignisprotokoll.


Was mir auch auffällt ist, dass es immer das gleiche iSCSI-Ziel ist. Alle HDD's aus dem betroffenen Speicherpool haben aber beim vollständigen Check (kann über die QNAP-Oberfläche am Storage ausgeführt werden) keine Fehler.


Gruß,
René
Chonta
Chonta 26.04.2016 um 12:52:05 Uhr
Goto Top
Also,

die chkdsk Sachen haben nix mit nem Rebuld zutun sondern mit nem defekten Dateisystem.
Die 5142/5120 Fehler bedeuten das entweder der VErbund auf dem NAS ausgelastet ist, das das Nas ausgelastet ist oder Das Netzwerk zwischen NAS und Server ein Problem hat.

Befinden sich NAS und Server für das einbinden der ISCI-Targents auch in einemeigenen Netz? wie sind die Server angeshclossen?
Sind immer alle Targets betroffen?
Wie schaut die Auslastung der anderen Server vor und zum Zeitpunkt des Ausfalls aus?

Wenn Ein Vorgang einer anderen maschiene die ganze IO klaut dann kommt es zu Timeouts und Verbindungsabbrüchen etc.

Gruß

Chonta
rssd1983
rssd1983 26.04.2016 um 13:05:59 Uhr
Goto Top
Zitat von @Chonta:

Also,

die chkdsk Sachen haben nix mit nem Rebuld zutun sondern mit nem defekten Dateisystem.
Die 5142/5120 Fehler bedeuten das entweder der VErbund auf dem NAS ausgelastet ist, das das Nas ausgelastet ist oder Das Netzwerk zwischen NAS und Server ein Problem hat.

Befinden sich NAS und Server für das einbinden der ISCI-Targents auch in einemeigenen Netz?

Ja, NAS und die Hyper-V Hosts haben ein eigenes 10GBit-Netz.

wie sind die Server angeshclossen?

NAS und Hyper-V Hosts haben jeweils 2 10GBit-NICs. Davon hängt jede NIC jeweils an einem einzelnen 10GBit-Switch.
Switch1 > NAS1 > NIC1
Switch1 > NAS2 > NIC1
Switch1 > Hyper-V1 > NIC1
etc.
Switch2 > NAS1 > NIC2
Switch2 > NAS2 > NIC2
Switch2 > Hyper-V1 > NIC2

Sind immer alle Targets betroffen?

Nein, immer nur das eine Target

Wie schaut die Auslastung der anderen Server vor und zum Zeitpunkt des Ausfalls aus?

Die Auslastung der Server ist sehr gering. Eine Auslastung konnte ich während des Wegbrechens noch nicht beobachten.


Wenn Ein Vorgang einer anderen maschiene die ganze IO klaut dann kommt es zu Timeouts und Verbindungsabbrüchen etc.

Gruß

Chonta


Da hat sich meine Korrektur noch mit deiner Antwort überschnitten. Sorry face-wink

Gruß,
René
rssd1983
rssd1983 03.05.2016 um 15:11:19 Uhr
Goto Top
Ist denn niemand da, der meine Fragen bzgl. RAID-Konfiguration beantworten kann?

Vielen Dank

René