Terminalserver bei Anmeldung auf 100 Prozent CPU-Last
Hallo an Alle,
Ich bin neu hier und versuche so detailliert wie möglich das Problem zu beschreiben.
Wir haben einen Kunden, welcher seit geraumer Zeit Probleme mit seinem Terminalserver hat.
Dieser steht in unserem Rechenzentrum und hat folgende Daten:
32xvCPU (ja nicht Best-Practice, komme ich gleich nochmal zu.)
120GB RAM
Genug Festplatte für lokale Profile etc.
Windows Server 2022 DC. aktueller Updatestand.
Unterbau ist Hyper-V
~22 User
M365 mit AD-Sync auf einem anderen Server, so wie man es macht.
Cloud Telefonanlage, auf dem RDS nur der Client dafür.
Ein paar Sonderprogramme, wo allerdings nur der Client auf dem RDS installiert ist, welcher direkt mit den richtigen Servern spricht.
Jetzt passiert Folgendes:
Die User melden sich an, manche um 7 Uhr und manche um 8 Uhr.
Um 7 Uhr gibt es keine Probleme.
Um 8 Uhr schießt die Prozessorlast auf 100% für EXAKT 30 min, bis alle angemeldet sind. Dann läuft alles sauber.
Das war der Ausgangsstand.
Folgendes haben wir getan:
Eine RDS-Farm mit 2 Terminalservern (Prozessoren und RAM geteilt, weil BP) und einem ConnectionBroker, um die Last zu verteilen.
Profile auf FSLogix umgebaut und zwar komplett neu, weil wir vermutet haben, dass es an den lokalen Profilen liegt.
Daraus wurde aufgrund diverser anderer Probleme mit M365 wieder ein RDS in der Farm, welcher wieder ALLE User aufnimmt, durch Loadbalancing eingerichtet und wieder die volle CPU und RAM. Der andere existiert aber noch.
In der letzten Woche, nachdem wir alles konfiguriert und eingerichtet haben, lief alles sauber.
Auch Montag und Dienstag, wo alle angemeldet waren.
Heute morgen plötzlich das gleiche Phänomen. CPU-Last auf 100% für EXAKT 30 min. Ohne ersichtlichen Grund.
Profile sind ausgeschlossen, da komplett neu. Server ist mMn ausgeschlossen, da komplett neu.
Die Eventlogs haben keine Aussagekraft, da dort nur steht, dass er den Benutzer nicht anmelden kann oder aber ein Timeout bei der Anmledung stattfindet. Beides zurückzuführen auf die Volllast.
Die Standrechner des Kunden, haben wir einzeln angemeldet und überprüft, ob die Probleme machen, nichts.
Ich bin mit meinem technischen Verständnis am Ende.
Hat das jemand schon einmal erlebt?
Was haben wir übersehen?
Wir sitzen seit über 6 Wochen mit 5 hochqualifizierten Technikern mit mehreren Jahren Berufserfahrung an diesem Problem.
Ich bin neu hier und versuche so detailliert wie möglich das Problem zu beschreiben.
Wir haben einen Kunden, welcher seit geraumer Zeit Probleme mit seinem Terminalserver hat.
Dieser steht in unserem Rechenzentrum und hat folgende Daten:
32xvCPU (ja nicht Best-Practice, komme ich gleich nochmal zu.)
120GB RAM
Genug Festplatte für lokale Profile etc.
Windows Server 2022 DC. aktueller Updatestand.
Unterbau ist Hyper-V
~22 User
M365 mit AD-Sync auf einem anderen Server, so wie man es macht.
Cloud Telefonanlage, auf dem RDS nur der Client dafür.
Ein paar Sonderprogramme, wo allerdings nur der Client auf dem RDS installiert ist, welcher direkt mit den richtigen Servern spricht.
Jetzt passiert Folgendes:
Die User melden sich an, manche um 7 Uhr und manche um 8 Uhr.
Um 7 Uhr gibt es keine Probleme.
Um 8 Uhr schießt die Prozessorlast auf 100% für EXAKT 30 min, bis alle angemeldet sind. Dann läuft alles sauber.
Das war der Ausgangsstand.
Folgendes haben wir getan:
Eine RDS-Farm mit 2 Terminalservern (Prozessoren und RAM geteilt, weil BP) und einem ConnectionBroker, um die Last zu verteilen.
Profile auf FSLogix umgebaut und zwar komplett neu, weil wir vermutet haben, dass es an den lokalen Profilen liegt.
Daraus wurde aufgrund diverser anderer Probleme mit M365 wieder ein RDS in der Farm, welcher wieder ALLE User aufnimmt, durch Loadbalancing eingerichtet und wieder die volle CPU und RAM. Der andere existiert aber noch.
In der letzten Woche, nachdem wir alles konfiguriert und eingerichtet haben, lief alles sauber.
Auch Montag und Dienstag, wo alle angemeldet waren.
Heute morgen plötzlich das gleiche Phänomen. CPU-Last auf 100% für EXAKT 30 min. Ohne ersichtlichen Grund.
Profile sind ausgeschlossen, da komplett neu. Server ist mMn ausgeschlossen, da komplett neu.
Die Eventlogs haben keine Aussagekraft, da dort nur steht, dass er den Benutzer nicht anmelden kann oder aber ein Timeout bei der Anmledung stattfindet. Beides zurückzuführen auf die Volllast.
Die Standrechner des Kunden, haben wir einzeln angemeldet und überprüft, ob die Probleme machen, nichts.
Ich bin mit meinem technischen Verständnis am Ende.
Hat das jemand schon einmal erlebt?
Was haben wir übersehen?
Wir sitzen seit über 6 Wochen mit 5 hochqualifizierten Technikern mit mehreren Jahren Berufserfahrung an diesem Problem.
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 7889093113
Url: https://administrator.de/forum/terminalserver-bei-anmeldung-auf-100-prozent-cpu-last-7889093113.html
Ausgedruckt am: 20.04.2025 um 21:04 Uhr
26 Kommentare
Neuester Kommentar
Wie ist denn die Auslastung an der AD? Bekommt die überhaupt CPU-Zeit vom Hypervisor (der selbe, wie die RD-SH?)? Du schreibst nicht, warum 32 vCPU und wie viele pCPU überhaupt vorhanden sind. Faustregel erstmal runter auf 8 vCPU, genaueres würde ich mir unter esxtop angucken, keine Ahnung wie genau man da unter Hyper-V vorgeht.
In der Zeit der Auslastung kann sich kein Benutzer anmelden? Du schreibst nicht so klar, wie sich die Auslastung auswirkt. Was passiert denn im Task Manager? Kann man das an bestimmten Prozessen fest machen?
In der Zeit der Auslastung kann sich kein Benutzer anmelden? Du schreibst nicht so klar, wie sich die Auslastung auswirkt. Was passiert denn im Task Manager? Kann man das an bestimmten Prozessen fest machen?
Moin @dersysops,
führe mal auf deinen Hyper-V Nodes, den folgenden Befehl aus. 😉
Power-Shell als Admin
Kannst im laufenden Betrieb machen.
Und die 32 Kerne bringen dir in der VM nicht wirklich einen Vorteil, eher das Gegenteil davon.
Des weiteren.
Habt ihr eine Dritthersteller-AV im Einsatz?
Wenn ja, dann deinstallieren bitte den Windows Defender auf den Servern, wenn nicht schon geschehen.
Power-Shell als Admin
Gruss Alex
Der Taskmanager zeigt nur, dass SYSTEM ausgelastet ist und neben den Diensten für Remotedesktop die höchste Last macht.
Die Last passiert bei der Anmeldung, wenn sich alle/viele gleichzeitig anmelden und dann friert das Bild ein, bereits angemeldete User können nur schleppend arbeiten.
führe mal auf deinen Hyper-V Nodes, den folgenden Befehl aus. 😉
Power-Shell als Admin
Get-VMSwitch | Set-VMSwitch -EnableSoftwareRsc $false -EnableRscOffload $false
Kannst im laufenden Betrieb machen.
Und die 32 Kerne bringen dir in der VM nicht wirklich einen Vorteil, eher das Gegenteil davon.
Des weiteren.
Habt ihr eine Dritthersteller-AV im Einsatz?
Wenn ja, dann deinstallieren bitte den Windows Defender auf den Servern, wenn nicht schon geschehen.
Power-Shell als Admin
Remove-WindowsFeature -Name "Windows-Defender"
Gruss Alex
Moin @dersysops,
ich kennen diese Probleme insbesondere bei Hyper-V, aber nicht nur, leider viel zu gut und habe dazu schon etliche Romane selber geschrieben und an vielen anderen, kräftig mitgearbeitet.
Folgend einer der etwas grösseren.
https://community.spiceworks.com/topic/2225989-server-2019-network-perfo ...
Die grössten Schmerzen solltet ihr durch das deaktivieren von RSC eigentlich beseitigt bekommen.
Gruss Alex
Ich sollte auch erwähnen, dass wir mehrere Kunden mit einem Ähnlichen Konstrukt haben, auch mit mehr Usern, wo das Problem nie auftritt.
ich kennen diese Probleme insbesondere bei Hyper-V, aber nicht nur, leider viel zu gut und habe dazu schon etliche Romane selber geschrieben und an vielen anderen, kräftig mitgearbeitet.
Folgend einer der etwas grösseren.
https://community.spiceworks.com/topic/2225989-server-2019-network-perfo ...
Die grössten Schmerzen solltet ihr durch das deaktivieren von RSC eigentlich beseitigt bekommen.
Gruss Alex
HCI-Cluster ist ja schön und gut, aber wieviele vCores passen in einen physischen NUMA-Node? vCPU und vRAM sollten eigentlich immer kleiner sein als pCore und pRAM eines Hosts. vCore allgemein sollen nicht über 8 pro VM liegen, das ist allerdings in Einzelfällen diskutabel. (Dann aber bitte auch die Wartezeiten im Hypervisor-Scedular einmal anschauen.) Grundsätzlich dürfte ein RD-SH auch mit 10 Power Usern bei 8 Kernen klar kommen.
Das mag jetzt nicht dein Problem selbst lösen, das scheint wirklich Windows related zu sein, aber es kann leicht zu Performance-Problemen führen und auch merkwürdige Nebeneffekte haben. Du tust deiner VM keinen gefallen.
Das mag jetzt nicht dein Problem selbst lösen, das scheint wirklich Windows related zu sein, aber es kann leicht zu Performance-Problemen führen und auch merkwürdige Nebeneffekte haben. Du tust deiner VM keinen gefallen.
Moin @dersysops:
ähm, bitte was ... wofür benötigen die den bitte über 30 Minuten?
Sag jetzt aber bitte nicht, nur um die RDP Sitzung zu öffnen.
Dar ich mir das mal per Teamviewer genauer anschauen?
Gruss Alex
Das Abschalten von softwareRSC hat leider nicht den gewünschten Erfolg gebracht, hat es eher noch schlimmer gemacht. Der Kunde meldete heute, dass teilweise die Verbindung gar nicht zu Stande kam, vorher dauerte es einfach nur lange.
Vorher brauchten sie 30 Minuten, heute teilweise 1 Stunde und länger.
Vorher brauchten sie 30 Minuten, heute teilweise 1 Stunde und länger.
ähm, bitte was ... wofür benötigen die den bitte über 30 Minuten?
Sag jetzt aber bitte nicht, nur um die RDP Sitzung zu öffnen.
Dar ich mir das mal per Teamviewer genauer anschauen?
Gruss Alex
die Logs sagen nichts aus
Hast Du mit Procmon geloggt?Procmon produziert natürlich unfassbar große Logs und wenn man nicht recht weiß, wonach man sucht, ist das schwierig. Zudem reduziert er duch das Gelogge massiv die Leistung und macht die Vorgänge noch länger.
Dennoch: procmon wird etwas aussagen können. Filtere mal auf den Prozess ntoskrnl.exe (der steht für Kernel und System)
Ich will nicht das Thema wechseln aber nochmal eine Rückfrage von mir: ob bei FSLogix alles passt. Der Ablauf müsste wie folgt sein:
1) Der Benutzer ist abgemeldet - auf dem FSLogix Pfad liegt eine VHDX für den Benutzer mit passenden NTFS-Rechten und KEINE .rw-Datei.
2) Der Benutzer meldet sich an - es wird sofort eine .rw-Datei erstellt die langsam ein bisschen in der Größe wächst aber vermutlich irgendwo bei <500MB bleibt. Die .rw-Datei darf nicht irgendwo unter Windows\Temp angelegt werden.
3) In der Profil-Liste vom Windows des RD-SH steht das Profil des angemeldeten Benutzers als Typ "lokal". Ist das nicht der Fall, kann im Hintergrund immer noch ein Roaming Profile zusätzlich synchronisiert werden.
Wie groß sind die Benutzerprofile? Ist zwischen Profilspeicher und RD-SH eine Subnetztrennung / Firewall oder ähnliches?
1) Der Benutzer ist abgemeldet - auf dem FSLogix Pfad liegt eine VHDX für den Benutzer mit passenden NTFS-Rechten und KEINE .rw-Datei.
2) Der Benutzer meldet sich an - es wird sofort eine .rw-Datei erstellt die langsam ein bisschen in der Größe wächst aber vermutlich irgendwo bei <500MB bleibt. Die .rw-Datei darf nicht irgendwo unter Windows\Temp angelegt werden.
3) In der Profil-Liste vom Windows des RD-SH steht das Profil des angemeldeten Benutzers als Typ "lokal". Ist das nicht der Fall, kann im Hintergrund immer noch ein Roaming Profile zusätzlich synchronisiert werden.
Wie groß sind die Benutzerprofile? Ist zwischen Profilspeicher und RD-SH eine Subnetztrennung / Firewall oder ähnliches?
Moin @dersysops,
😱 ... das ist ja echt übel, bei solchen Anmeldezeiten hätten mir unsere Kunden schon längst das Fell über die Ohren gezogen.
Oh je, die Aussage lässt mich nichts gutes vermuten. 😬
Kannst du mal als nächstes morgens auf dem Server wo die Profile liegen, bitte mal den Ressourcenmonitor mit laufen lassen und insbesondere die Antwortzeiten der Datenträgeraktivitäten im Auge behalten.
Ich gehe mal davon aus, das die Server auf SSD's laufen, wenn ja, dann solltest du hier im Optimalfall keine Latenzen im zweistelligen Bereich sehen, denn das wäre ein sehr schlechtes Zeichen, vor allem wenn diese in den dreistelligen oder gar vierstelligen Bereich rutschen.
Gruss Alex
Doch, genau das.
😱 ... das ist ja echt übel, bei solchen Anmeldezeiten hätten mir unsere Kunden schon längst das Fell über die Ohren gezogen.
Allerdings ist das nur morgens. sobald alle einmal angemeldet sind, ist anmelden und auch trennen und wieder verbinden kein Problem mehr.
Oh je, die Aussage lässt mich nichts gutes vermuten. 😬
Kannst du mal als nächstes morgens auf dem Server wo die Profile liegen, bitte mal den Ressourcenmonitor mit laufen lassen und insbesondere die Antwortzeiten der Datenträgeraktivitäten im Auge behalten.
Ich gehe mal davon aus, das die Server auf SSD's laufen, wenn ja, dann solltest du hier im Optimalfall keine Latenzen im zweistelligen Bereich sehen, denn das wäre ein sehr schlechtes Zeichen, vor allem wenn diese in den dreistelligen oder gar vierstelligen Bereich rutschen.
Gruss Alex
Moin @ukulele-7,
bei manchen User unserer Kunden, sind die VHDX deren Userprofiledisks zum Teil weit über 50G gross und bei diesen usern dauert die Anmeldung in der Regel auch nur wenige Sekunden.
👍👍👍, das ist eine sehr gute Frage!
FW's oder SGW's zischen den SH's und dem Fileserver auf dem die Userprofiledisks liegen, haben mir in der Vergangenheit leider auch schon ähnlichen "Spass" beschert.
Gruss Alex
Wie groß sind die Benutzerprofile?
bei manchen User unserer Kunden, sind die VHDX deren Userprofiledisks zum Teil weit über 50G gross und bei diesen usern dauert die Anmeldung in der Regel auch nur wenige Sekunden.
Ist zwischen Profilspeicher und RD-SH eine Subnetztrennung / Firewall oder ähnliches?
👍👍👍, das ist eine sehr gute Frage!
FW's oder SGW's zischen den SH's und dem Fileserver auf dem die Userprofiledisks liegen, haben mir in der Vergangenheit leider auch schon ähnlichen "Spass" beschert.
Gruss Alex
Zitat von @MysticFoxDE:
Moin @ukulele-7,
bei manchen User unserer Kunden, sind die VHDX deren Userprofiledisks zum Teil weit über 50G gross und bei diesen usern dauert die Anmeldung in der Regel auch nur wenige Sekunden.
Das ist richtig, bei mir sind die bis zu 200GB und das ist egal. Es sei denn natürlich das Profil steht in Windows am RD-SH noch auf "Roaming". Dann kann es sein das das alte roaming profile mit der VHDX synchronisiert, also quasi beides statt findet.Moin @ukulele-7,
Wie groß sind die Benutzerprofile?
bei manchen User unserer Kunden, sind die VHDX deren Userprofiledisks zum Teil weit über 50G gross und bei diesen usern dauert die Anmeldung in der Regel auch nur wenige Sekunden.
Man könnte auch mal einen komplett neuen, noch nie vorher existierenden User anlegen. Wenn das Problem irgendeinen Profilbezug hat, müsste sich die Anmeldezeit deutlich unterscheiden.
Moin @dersysops,
😱 ... 😭
Ähm, sagst DELL einen lieben Gruss von mir.
Das folgende sind die Antwortzeiten auf einem RDS eines unserer Kunden auf dem gerade über 20 User angemeldet sind.
Dieser RDS läuft storagetechnisch übrigens auf einem über 6 Jahre altem AllFlash SAN, welches wahrscheinlich noch mit SAS6G SSD's bestückt ist.
Sprich, bei einem Storagesystem wie S2D, wo die Datenträger direkt am Node per PCIE dranhängen, sollte solche Antwortzeiten wie du sie schilderst, eigentlich unmöglich sein. 😔
Gruss Alex
Die Antwortzeiten sind bei Anmeldung des Users (hier egal welcher) zwischenzeitig jenseits der 200ms.
Auffällig sind hier die hohen Zahlen bei allem, was mit "AppData" zu tun hat. Hier bewegen wir uns bei Anmeldung im Bereich zwischen 25 und 350 ms.
Auffällig sind hier die hohen Zahlen bei allem, was mit "AppData" zu tun hat. Hier bewegen wir uns bei Anmeldung im Bereich zwischen 25 und 350 ms.
😱 ... 😭
Laut DELL, sollte ein S2D auf unseren Nodes irgendwo bei 5ms liegen und definitiv nicht weit darüber. Ja das sind geschönte Zahlen, aber jenseits der 10ms ist dann doch sehr auffällig.
Ähm, sagst DELL einen lieben Gruss von mir.
Das folgende sind die Antwortzeiten auf einem RDS eines unserer Kunden auf dem gerade über 20 User angemeldet sind.
Dieser RDS läuft storagetechnisch übrigens auf einem über 6 Jahre altem AllFlash SAN, welches wahrscheinlich noch mit SAS6G SSD's bestückt ist.
Sprich, bei einem Storagesystem wie S2D, wo die Datenträger direkt am Node per PCIE dranhängen, sollte solche Antwortzeiten wie du sie schilderst, eigentlich unmöglich sein. 😔
Gruss Alex
Moin @dersysops,
ich schätze mal, das die Netzwerkverbindung zwischen den Nodes über die das S2D "synchronisiert" wird, einen ordentlichen Schuss hat und daher werden die Storagezugriffe auch verzögert. 😉
Teste mal die Strecke mit iPerf oder am besten mit diskspd um RDMA richtig anzutriggern.
Gruss Alex
Also Fazit:
Es liegt offenbar an den Antwortzeiten. Warum genau DIESER Kunde allerdings Probleme macht, bleibt ein Rätsel.
Wir haben, wie gesagt, auch andere Kunden mit ähnlichem Konstrukt, die keinerlei Probleme haben.
Es liegt offenbar an den Antwortzeiten. Warum genau DIESER Kunde allerdings Probleme macht, bleibt ein Rätsel.
Wir haben, wie gesagt, auch andere Kunden mit ähnlichem Konstrukt, die keinerlei Probleme haben.
ich schätze mal, das die Netzwerkverbindung zwischen den Nodes über die das S2D "synchronisiert" wird, einen ordentlichen Schuss hat und daher werden die Storagezugriffe auch verzögert. 😉
Teste mal die Strecke mit iPerf oder am besten mit diskspd um RDMA richtig anzutriggern.
Gruss Alex