datenreise
Goto Top

Sporadische Performance-Probleme auf RDS-Server

Hallo an alle,

ein von mir betreuter virtueller Server hat seit einer Weile merkwürdige Schwierigkeiten und ich hoffe auf Eure Erfahrung bei Fehlersuche oder sogar -behebung.

Hardware:

- Intel Xeon E5-2620v3
- Supermicro X10DRL-I
- 32 GB RAM DDR4
- Avago MegaRAID 9361
- 2x Samsung PM863 SSD (á 256GB, RAID1)


Darauf läuft Windows Server 2012 R2 mit der HyperV-Rolle und ansonsten lediglich APC Powerchute und Veeam Backup&Replication.
Die einzige VM ist ebenfalls ein 2012 R2, ihr sind 24 GB Ram und 12 Prozessorkerne zugeordnet. Dieser Server dient als Remotedesktop-Host für sechs Anwender. Die Installierten Programme kommen aus dem medizinischen Bereich und haben keinen besonderen Ressourcenbedarf.
Etwas unschön ist, dass die VM auf der selben Partition liegt wie der Host, da dieser allerdings wirklich nur Host ist und die SSDs sehr ordentliche Performance bieten, sollte dies nicht zu sehr ins Gewicht fallen - das System lief über acht Monate auch wunderbar.

Mittlerweile gibt es aber an etwa drei Tagen in der Woche die Rückmeldung, dass das System immer mal wieder für mehrere Sekunden bis zu einer Minute unbenutzbar werde. Dies tritt aus Sicht der Nutzer willkürlich auf. Das System "fängt" sich auch wieder und arbeitet normal, aber friert dann nach wenigen Minuten bis einigen Stunden wieder ein. Starte ich den Server (VM) neu, ist für den Arbeitstag Ruhe, allerdings beginnt es 1-2 Tage später von Neuem.

Ich bin jetzt soweit, dass ich mangelnde CPU-Ressourcen fast ausschließen kann, es scheint eher am I/O (Datenträgerlast) zu liegen. Etwa im Zeitraum des ersten Auftretens dieses Phänomens wurde eine zusätzliche Software installiert, welche unsauber programmmiert ist und mir teilweise im Sekundentakt das Anwendungs-Protokoll mit Warnungen vollspammt. Derart regelmäßig, dass das Protokoll nur etwa 4 Tage zurückreicht. Der Hersteller der Software behauptet natürlich, dies wäre unkritisch (es läge an einer falsch registrierten DLL in deren PostgreSQL).
Ich kann nicht mit Sicherheit sagen, ob die Software der Auslöser ist, aber ein gewisser Verdacht besteht. Leider ist es keine Option, den Nutzern die Software probehalber "zu verbieten", da sie täglich und dringend im Abeitsablauf benötigt wird.
Was noch auffällt, dass in Momenten des "Einfrierens" oftmals Prozesse in Bezug auf den Volumenschattenkopiedienst ganz oben im Ressourcenmonitor unter "Datenträgeraktivität" stehen. Darauf kann ich mir aber keinen echten Reim machen. Backups der VM laufen ausschließlich Nachts, an dieser Stelle hat der Dienst natürlich zu tun.

Der Raidcontroller meldet keinerlei Probleme mit den Platten oder dem Volume, auch Schadsoftware kann ich nach mehreren Tests fast vollständig ausschließen.

Welche Möglichkeiten habe ich, der Ursache weiter auf den Grund zu gehen?

Danke für's Lesen und ggfs. Eure Unterstützung.

Content-ID: 315446

Url: https://administrator.de/contentid/315446

Ausgedruckt am: 21.11.2024 um 17:11 Uhr

SlainteMhath
SlainteMhath 16.09.2016 um 14:32:56 Uhr
Goto Top
Moin,

ihr sind [...] 12 Prozessorkerne zugeordnet
Der 2620v3 hat nur 6 Cores...

lg,
Slainte
Chonta
Chonta 16.09.2016 um 14:40:31 Uhr
Goto Top
Hallo,

dann installiere mal ein langzeit Performancemonitoring oder wirf die software wiede runter.
Außerdem hast Du wenn Du keine 2 CPU vom E5-2620v3 hat die Zuweisung für die CPU mal übertrieben.
Viel hilft nicht immer viel.

E5-2620v3 ist eine 6 Core mit HT also 12 Threads.
Für den HyperV sollte man mindestens 2 physische Kerne einplanen und auch min 4GB RAM.
Deine eine VM ist nun so eingestellt das die 100% der maximalleistung abgreifen dürfte, blöd wenn der Hypervisor nix mehr bekommt dann kann schonmal alles stehen.
Mit einer Datenbankanwendung schient ja nun auch was neues dazugekommen das Leistung zieht.

Also bitte nochmal die Zuweisung der Ressourcen überarbeiten.

Gruß

Chonta
Datenreise
Datenreise 16.09.2016 um 15:01:25 Uhr
Goto Top
Danke soweit schon mal, habe mich oben etwas vertippt, also von den virtuellen Prozessoren stehen der VM 10 (von 12) zur Verfügung - was eigentlich doch noch genug Ressourcen für den Host übrig lassen sollte, auf dem wie gesagt nicht läuft, was viele Ressourcen bräuchte. Zusätzlich bleiben ihm von den 32 GB RAM noch 8 GB übrig, was sicherlich eher großzügig dimensioniert ist.
Ich hatte auf dem Host auch noch niemals den Eindruck, dass er Leistungsdefizite hätte.
Wie erwähnt lief das System mehrere Monate reibungslos.


Zitat von @Chonta:

dann installiere mal ein langzeit Performancemonitoring oder wirf die software wiede runter.

Software runterwerfen ist leider keine Option. "Wird gebraucht"...

Hast Du eine Empfehlung für Software zum Performancemonitoring? Performance Analysis of Logs?
Chonta
Chonta 16.09.2016 um 15:10:16 Uhr
Goto Top
also von den virtuellen Prozessoren stehen der VM 10 (von 12)
Auch zu viel. Gib dem Teil 4 maximal.

Hast Du eine Empfehlung für Software zum Performancemonitoring?
Munin mit Muninnode4Windows, braucht aber einen Linuxserver für Munin.

Analysis of Logs?
Windows Ereignissanzeige und dann Filtern und suchen face-smile

Gruß

Chonta
Datenreise
Datenreise 16.09.2016 um 15:30:09 Uhr
Goto Top
Zitat von @Chonta:

also von den virtuellen Prozessoren stehen der VM 10 (von 12)
Auch zu viel. Gib dem Teil 4 maximal.

4 von 12? Aber warum sollte ich der einzigen VM so viele Ressourcen vorenthalten?


Windows Ereignissanzeige und dann Filtern und suchen face-smile

Da ist bislang -bis auf die erwähnten tausenden Einträge der zu heiß gestrickten Software- nichts zu finden, was hilfreich scheint.
SlainteMhath
SlainteMhath 16.09.2016 um 15:35:39 Uhr
Goto Top
.. 4 von 12? ...
Deine CPU hat keine 12 Cores! Sondern lediglich 6 mit jeweils 2 HT-Threads, Deswegen 4 Cores für die VM und 2 für den Host
Chonta
Chonta 16.09.2016 um 15:42:57 Uhr
Goto Top
http://www.faq-o-matic.net/2011/01/26/hyper-v-sizing-virtuelle-und-echt ...
Am "Immer rein – kost ja nix!?" für Dich wichtig.

Gruß

Chonta
Datenreise
Datenreise 16.09.2016 um 16:53:45 Uhr
Goto Top
@SlainteMhath: Chonta und ich sprechen auch gar nicht von Cores, sondern von virtuellen Prozessoren. Und davon hat das System definitiv 12. (6 Kerne + HT). Ich hatte es lediglich im OP als falschen Terminus aufgeführt. Diese Diskussion führt hier leider nicht weiter.

@Chonta: Danke, den Artikel kenne ich gut. Allerdings geht es hier doch um mittel bis stark virtualisierte Umgebungen, nicht um einen Host mit einer VM. Und für den Host halte ich nach wie vor einen reservierten Kern plus HT für ausreichend. Es ist ja auch nicht so, dass die VM dauerhaft voll ausgelastet wäre, eher im Gegenteil. Der Host hat also ganz sicher genügend Ressourcen, ich könnte keinerlei Probleme diesbezüglich feststellen.
Im Übrigen läuft die GUI des Hostes auch dann flüssig, wenn die VM eingefroren scheint.

Das Problem liegt also mit ziemlicher Sicherheit nicht an der Aufteilung der Prozessoren.
Chonta
Chonta 16.09.2016 um 17:11:37 Uhr
Goto Top
Stell es doch einfach um auf 4 und beobachte.
Die Überzuweisung spielt auch bei nicht ausgelasteten Systemen eine Rolle.
Deine VM friert anscheinend ab und zu ein, so wie Du es bschrieben hast, das kann passieren, wenn der Hypervisor selber zu wenig Ressourcen hat und sich dann alles von der VM zurück holt um dann nachzuregeln.

Ohne ein vorhandenes Monitoring ist es halt schwer zu sagen ob es einen wie auch immer gearteten Leistungseinbruch gibt.
Es kann auch sein das der Host zu wenig RAM hat und anfängt dauernt auf der SSD zu swapen und die Logflut der neuen Anwendung ihr übriges tut.

Ist auf dem Host irgendwas auser Hyper-V installiert?
Ist die neue Anwendung für eine virtualisierung unter Hyper-V oder überhaupt Virtualisierung frei gegeben?

Gruß

Chonta
vossi31
vossi31 16.09.2016 um 17:16:16 Uhr
Goto Top
Moin,

Was noch auffällt, dass in Momenten des "Einfrierens" oftmals Prozesse in Bezug auf den Volumenschattenkopiedienst
ganz oben im Ressourcenmonitor unter "Datenträgeraktivität" stehen.
Überprüfe doch mal ob Schattenkopien erstellt werden und wenn ja, wann. Wenn auch das Laufwerk, auf dem die PostgreSQL-DB liegt gesichert wird könnte man die mal rausnehmen oder erstmal die Schattenkopien testweise ganz abschalten.

Henning
Chonta
Chonta 16.09.2016 um 17:20:39 Uhr
Goto Top
Hm, könnte da ein Backupjob quer liegen vom Host oder der VM?
Ich hab auf meinen Systemen VSS Meldungen NUR wenn meine Backups gemacht werden oder vom Fileserver (eine VM) die Freigaben gesichert werden.

Gruß

Chonta
Datenreise
Datenreise 16.09.2016 um 17:43:40 Uhr
Goto Top
Danke für den weiteren Input!

Der RDS-Server (die VM) besitzt nur ein Volume, darauf sind Schattenkopien deaktiviert. Ich habe gerade probeweise noch einmal <vssadmin delete shadows /for=c:> ausgeführt, das Ergebnis: "Es wurden keine Ergebnisse für diese Abfrage gefunden". Bedeutet für mich übersetzt, dass keine Schattenkopien gefunden werden.

Gesichert wird ja über Veeam Backup and Replication 8.0 und dieses setzt auf den volume shadow service. Deaktiviere ich ihn in der VM, schlägt der abendliche Sicherungsjob logischerweise fehl.
Ansonsten habe ich bislang keinen Ärger mit dem Backup, insofern eher unwahrscheinlich, dass da etwas quer liegt. Der Host wird nicht automatisch gesichert.
Dani
Dani 16.09.2016 um 20:02:36 Uhr
Goto Top
Moin,
Das Problem liegt also mit ziemlicher Sicherheit nicht an der Aufteilung der Prozessoren.
was würdest du verwetten? Ich empfehle dir den Vortrag CDC-Germany 2016 - 10 Dinge, die Hyper-V übel nimmt.


Gruß,
Dani