fr4nki
Goto Top

Terminalserver langsam durch hohe Fileserver Auslastung?

Hallo Zusammen,

aktuell beobachte ich ein Phänomen welchem ich nicht auf die Spur komme.

Eine Terminalserverfarm mit insg. 5 Session Hosts wird extrem ausgebremst, sodass teilweise Anmeldungen nicht mehr möglich sind und an normales Arbeiten nicht zu denken ist.

Wenn das Phänomen eintrifft, ist auf dem Fileserver, auf welchem die User VHDX liegen zu beobachten, dass dieser in der Zeit scheinbar schwer zu kämpfen hat, die durchschnittliche Antwortzeit der Daten Partition steigt auf 300-1000ms, die aktive Zeit ist durchgehend auf 100% und die Lese- und Schreibgeschwindigkeit liegt bei <1MB/s. Die 4 CPU Cores liegen bei ~20% Auslastung und der RAM bei 6 von 32GB.
Die Partition ist 3,5TB groß und hat ~700GB freien Speicherplatz.

Ich komme jedoch nicht drauf, wie man hier analysieren könnte was die Auslastung verursacht und dies somit verhindern könnte.

Es handelt sich um VMs auf einem 2 Node HyperV Cluster mit Hosts von Dell mit einer Dell ME5024 SAN.
In der SAN sind ausschließlich SSDs verbaut, die Leistung der SAN liegt bei 177IOPS Lesen 787IOPS Schreibend
Latenz: Lesen 139µs Schreiben bei 70µs
Druchsatz: 4,4MB Lesen 14MB Schreiben

Das Backup ist es leider nicht, das läuft Nachts.
Könnte das Verhalten durch die Konfigurierten Schattenkopien verursacht werden?

Ich freue mich über spannende Ideen.

Content-ID: 7968387459

Url: https://administrator.de/contentid/7968387459

Ausgedruckt am: 24.11.2024 um 18:11 Uhr

6376382705
6376382705 27.07.2023 aktualisiert um 13:54:46 Uhr
Goto Top
Hi.

prüf deine Disks mal die SMART Werte ab.

Ich denke, deine Disks sterben gerade ..

Druchsatz: 4,4MB Lesen 14MB Schreiben
Bisschen dünn für eine SAN mit SSDs :D

Gruß
Fr4nki
Fr4nki 27.07.2023 um 14:19:55 Uhr
Goto Top
Die SMART Werte der Festplatten passen.

Das System ist auch erst ein paar Monate alt.

Das ist natürlich nicht der maximale Durchsatz, wenn die SAN gefordert wir liefert Sie auch mehr:
screenshot 2023-07-27 141539
Lochkartenstanzer
Lochkartenstanzer 27.07.2023 um 14:22:08 Uhr
Goto Top
Zitat von @Fr4nki:

Wenn das Phänomen eintrifft, ist auf dem Fileserver, auf welchem die User VHDX liegen zu beobachten, dass dieser in der Zeit scheinbar schwer zu kämpfen hat, die durchschnittliche Antwortzeit der Daten Partition steigt auf 300-1000ms, die aktive Zeit ist durchgehend auf 100% und die Lese- und Schreibgeschwindigkeit liegt bei <1MB/s.

Moin,

Diese Korrelation ist zumindest ein guter Hinweis, woran es liegen könnte.

Du solltest erstmal mit dem task-manager innerhalb der VM und auch auf dem Host schauen, welchen Prozesse hier besodners auffällig sind.

ggf mit den Tools von Sysinternals im Detail untersuchen.

lks

PS: Hast Du mal geschaut, ob TRIM funktioniert?
LauneBaer
LauneBaer 27.07.2023 um 14:34:35 Uhr
Goto Top
Servus,

worüber hängt denn das SAN an den Hosts?

Grüße
Fr4nki
Fr4nki 27.07.2023 um 14:45:26 Uhr
Goto Top
Zitat von @LauneBaer:

Servus,

worüber hängt denn das SAN an den Hosts?

Grüße

Die SAN ist per 32GB Fibre Channel angebunden.
Fr4nki
Fr4nki 27.07.2023 um 14:48:24 Uhr
Goto Top
Zitat von @Lochkartenstanzer:

Moin,

Diese Korrelation ist zumindest ein guter Hinweis, woran es liegen könnte.

Du solltest erstmal mit dem task-manager innerhalb der VM und auch auf dem Host schauen, welchen Prozesse hier besodners auffällig sind.

ggf mit den Tools von Sysinternals im Detail untersuchen.

lks

PS: Hast Du mal geschaut, ob TRIM funktioniert?

Das ist es ja, ich meine da nichts auffälliges zu sehen.

Ich werde mir die Tools mal anschauen.

Ich wüsste gar nicht, wie man nach der TRIP Funktion schauen kann face-sad
nEmEsIs
nEmEsIs 27.07.2023 aktualisiert um 20:35:08 Uhr
Goto Top
Hi

Welches Dateisystem hat den die Platte für die vhdx? NTFS oder Refs ?
Was liegt den noch alles auf dem Fileserver ?
Hängt die Platte an einem eigenen Controller ?
Virenscanner Ausschluss für die vhdx Container ?
Was passiert wenn du eine größere vhdx vor explorer kopierst im Taskmanager ?
Welche Sektorgröße hat der Datenträger?

Mit freundlichen Grüßen Nemesis
Bingo61
Bingo61 28.07.2023 um 13:42:28 Uhr
Goto Top
Guck mal nach den Anmeldungen auf den TS.
Hatte das früher mal, User nicht Session beendet sondern nur getrennt haben, dann neu angemeldet und das täglich.
Hatten da oftmals User die 5-10 x am TS angemeldet waren.
Wenn da die Anzahl steigt, summieren sich die User Anmeldungen, dann geht auch die Zugriffszeit in Keller.
Passt auch zu dem wie du geschrieben hast, das die User VHDX davon betroffen ist.
Haben dann "Abmelden" auf Desktop gelegt
Aber ist nur mal Vermutung.
An Hardware Problem glaube ich da eher nicht.
Kann es mit dem Powershell probieren , damit werden alle abgemeldet die nur getrennt sind aber nicht beendet. -->

$sessions = Get-RDUserSession |  ? {$_.SessionState -eq "STATE_DISCONNECTED"}  

foreach($session in $sessions)
{
    Invoke-RDUserLogoff -HostServer $session.HostServer -UnifiedSessionID $session.UnifiedSessionId -Force
}

Grüße
Bingo
Lochkartenstanzer
Lochkartenstanzer 28.07.2023 um 13:45:29 Uhr
Goto Top
Zitat von @Bingo61:

Guck mal nach den Anmeldungen auf den TS.
Hatte das früher mal, User nicht Session beendet sondern nur getrennt haben, dann neu angemeldet und das täglich.
Hatten da oftmals User die 5-10 x am TS angemeldet waren.


Und genau deswegen stellt man normalerweise ein, daß die sich nur einmal anmelden dürfen. face-smile

lks
Bingo61
Bingo61 28.07.2023 um 14:48:43 Uhr
Goto Top
Zitat von @Lochkartenstanzer:

Zitat von @Bingo61:

Guck mal nach den Anmeldungen auf den TS.
Hatte das früher mal, User nicht Session beendet sondern nur getrennt haben, dann neu angemeldet und das täglich.
Hatten da oftmals User die 5-10 x am TS angemeldet waren.


Und genau deswegen stellt man normalerweise ein, daß die sich nur einmal anmelden dürfen. face-smile

lks
Stimmt.
Man lernt durch Erfahrung.
Bingo
Fr4nki
Fr4nki 29.07.2023 um 21:56:06 Uhr
Goto Top
Zitat von @Bingo61:

Guck mal nach den Anmeldungen auf den TS.
Das wird es wahrscheinlich nicht sein, die User sind mittlerweile gut erzogen und melden sich ordentlich ab mittels Abmelden Button auf dem Desktop.


Zitat von @nEmEsIs:

Hi

Welches Dateisystem hat den die Platte für die vhdx? NTFS oder Refs ?
NTFS
Was liegt den noch alles auf dem Fileserver ?
Es liegen auch die Daten für die tägliche Arbeit der Mitarbeiter auf diesem Fileserver.
Hängt die Platte an einem eigenen Controller ?
Ja, genau, die Platte hängt an einem eigenen SCSI-Controller im HyperV
Virenscanner Ausschluss für die vhdx Container ?
Nein, bisher nicht. Werde ich dann nun aber mal einstellen. face-smile
Was passiert wenn du eine größere vhdx vor explorer kopierst im Taskmanager ?
Ich habe die Datei eben kopiert, es ist nätürlich aktuell keine Last auf dem System, trotzdem wird die Datei aus meiner Sicht eher langsam kopiert?!
testkopie
Welche Sektorgröße hat der Datenträger?
Bytes pro Sektor : 512
Bytes pro physischem Sektor : 4096
Bytes pro Cluster : 4096

Mit freundlichen Grüßen Nemesis
Fr4nki
Fr4nki 31.07.2023 um 14:54:46 Uhr
Goto Top
Ich habe mal einen Screenshot von einem solchen Moment gemacht. Wie man sieht ist nur die eine Partition ausgelastet. CPU entspannt und der RAM ebenso. C: liegt auf der gleichen SAN und N ist eine per iSCSI eingebundene Platte für Archivzwecke ohne Last.

Virenscan für den VHDX Pfad ist jetzt aus.

unbenannt
LauneBaer
LauneBaer 31.07.2023 um 16:12:37 Uhr
Goto Top
Dein Problem ist die Latenz, 3722 ms ist viel zu hoch! Da würde ich mal das Storage genauer untersuchen.

Da du ja einen Cluster mit 2 Hosts hast, kannst du die betroffenen VMs mal auf den anderen Host schieben und schauen ob das Problem mitwandert?
nEmEsIs
nEmEsIs 31.07.2023 um 16:49:40 Uhr
Goto Top
Hi

Also was mir auffällt, ist das die Empfehlung für UPD oder FSLogix Disks immer ReFS als Filesystem empfohlen wird.

Wie schaut das Energieschema des Servers und Host aus ?
Hatte so ein Verhalten schonmal, da stand es beim ESXi Host auf balanced ...

Mit freundlichen Grüßen Nemesis
Fr4nki
Fr4nki 31.07.2023 um 18:45:20 Uhr
Goto Top
Zitat von @LauneBaer:

Dein Problem ist die Latenz, 3722 ms ist viel zu hoch! Da würde ich mal das Storage genauer untersuchen.

Da du ja einen Cluster mit 2 Hosts hast, kannst du die betroffenen VMs mal auf den anderen Host schieben und schauen ob das Problem mitwandert?

Ich denke auch, dass die Latenz das Problem ist.

Ich habe den Fileserver nun auf den anderen Host migriert und werde mal beobachten ob es auch dort vorkommt.
Fr4nki
Fr4nki 30.08.2023 um 12:38:20 Uhr
Goto Top
Hier mal ein Nachtrag zum Thema, das Phänomen tritt immer noch auf.

- Thematik tritt auf beiden Hosts auf
- Ist die Thematik aktuell lässt die hohe Latenz auf normales Maß reduzieren, in dem man den FileServer vom einen auf den anderen Host Live migriert

Auf dem Storage ist zu beobachten, dass Durchsatz und IOPS sinken, die Latenz recht unverändert bleibt.
system durchsatz
system latenz
system iops