Sporadische Performance-Probleme auf RDS-Server
Hallo an alle,
ein von mir betreuter virtueller Server hat seit einer Weile merkwürdige Schwierigkeiten und ich hoffe auf Eure Erfahrung bei Fehlersuche oder sogar -behebung.
Hardware:
- Intel Xeon E5-2620v3
- Supermicro X10DRL-I
- 32 GB RAM DDR4
- Avago MegaRAID 9361
- 2x Samsung PM863 SSD (á 256GB, RAID1)
Darauf läuft Windows Server 2012 R2 mit der HyperV-Rolle und ansonsten lediglich APC Powerchute und Veeam Backup&Replication.
Die einzige VM ist ebenfalls ein 2012 R2, ihr sind 24 GB Ram und 12 Prozessorkerne zugeordnet. Dieser Server dient als Remotedesktop-Host für sechs Anwender. Die Installierten Programme kommen aus dem medizinischen Bereich und haben keinen besonderen Ressourcenbedarf.
Etwas unschön ist, dass die VM auf der selben Partition liegt wie der Host, da dieser allerdings wirklich nur Host ist und die SSDs sehr ordentliche Performance bieten, sollte dies nicht zu sehr ins Gewicht fallen - das System lief über acht Monate auch wunderbar.
Mittlerweile gibt es aber an etwa drei Tagen in der Woche die Rückmeldung, dass das System immer mal wieder für mehrere Sekunden bis zu einer Minute unbenutzbar werde. Dies tritt aus Sicht der Nutzer willkürlich auf. Das System "fängt" sich auch wieder und arbeitet normal, aber friert dann nach wenigen Minuten bis einigen Stunden wieder ein. Starte ich den Server (VM) neu, ist für den Arbeitstag Ruhe, allerdings beginnt es 1-2 Tage später von Neuem.
Ich bin jetzt soweit, dass ich mangelnde CPU-Ressourcen fast ausschließen kann, es scheint eher am I/O (Datenträgerlast) zu liegen. Etwa im Zeitraum des ersten Auftretens dieses Phänomens wurde eine zusätzliche Software installiert, welche unsauber programmmiert ist und mir teilweise im Sekundentakt das Anwendungs-Protokoll mit Warnungen vollspammt. Derart regelmäßig, dass das Protokoll nur etwa 4 Tage zurückreicht. Der Hersteller der Software behauptet natürlich, dies wäre unkritisch (es läge an einer falsch registrierten DLL in deren PostgreSQL).
Ich kann nicht mit Sicherheit sagen, ob die Software der Auslöser ist, aber ein gewisser Verdacht besteht. Leider ist es keine Option, den Nutzern die Software probehalber "zu verbieten", da sie täglich und dringend im Abeitsablauf benötigt wird.
Was noch auffällt, dass in Momenten des "Einfrierens" oftmals Prozesse in Bezug auf den Volumenschattenkopiedienst ganz oben im Ressourcenmonitor unter "Datenträgeraktivität" stehen. Darauf kann ich mir aber keinen echten Reim machen. Backups der VM laufen ausschließlich Nachts, an dieser Stelle hat der Dienst natürlich zu tun.
Der Raidcontroller meldet keinerlei Probleme mit den Platten oder dem Volume, auch Schadsoftware kann ich nach mehreren Tests fast vollständig ausschließen.
Welche Möglichkeiten habe ich, der Ursache weiter auf den Grund zu gehen?
Danke für's Lesen und ggfs. Eure Unterstützung.
ein von mir betreuter virtueller Server hat seit einer Weile merkwürdige Schwierigkeiten und ich hoffe auf Eure Erfahrung bei Fehlersuche oder sogar -behebung.
Hardware:
- Intel Xeon E5-2620v3
- Supermicro X10DRL-I
- 32 GB RAM DDR4
- Avago MegaRAID 9361
- 2x Samsung PM863 SSD (á 256GB, RAID1)
Darauf läuft Windows Server 2012 R2 mit der HyperV-Rolle und ansonsten lediglich APC Powerchute und Veeam Backup&Replication.
Die einzige VM ist ebenfalls ein 2012 R2, ihr sind 24 GB Ram und 12 Prozessorkerne zugeordnet. Dieser Server dient als Remotedesktop-Host für sechs Anwender. Die Installierten Programme kommen aus dem medizinischen Bereich und haben keinen besonderen Ressourcenbedarf.
Etwas unschön ist, dass die VM auf der selben Partition liegt wie der Host, da dieser allerdings wirklich nur Host ist und die SSDs sehr ordentliche Performance bieten, sollte dies nicht zu sehr ins Gewicht fallen - das System lief über acht Monate auch wunderbar.
Mittlerweile gibt es aber an etwa drei Tagen in der Woche die Rückmeldung, dass das System immer mal wieder für mehrere Sekunden bis zu einer Minute unbenutzbar werde. Dies tritt aus Sicht der Nutzer willkürlich auf. Das System "fängt" sich auch wieder und arbeitet normal, aber friert dann nach wenigen Minuten bis einigen Stunden wieder ein. Starte ich den Server (VM) neu, ist für den Arbeitstag Ruhe, allerdings beginnt es 1-2 Tage später von Neuem.
Ich bin jetzt soweit, dass ich mangelnde CPU-Ressourcen fast ausschließen kann, es scheint eher am I/O (Datenträgerlast) zu liegen. Etwa im Zeitraum des ersten Auftretens dieses Phänomens wurde eine zusätzliche Software installiert, welche unsauber programmmiert ist und mir teilweise im Sekundentakt das Anwendungs-Protokoll mit Warnungen vollspammt. Derart regelmäßig, dass das Protokoll nur etwa 4 Tage zurückreicht. Der Hersteller der Software behauptet natürlich, dies wäre unkritisch (es läge an einer falsch registrierten DLL in deren PostgreSQL).
Ich kann nicht mit Sicherheit sagen, ob die Software der Auslöser ist, aber ein gewisser Verdacht besteht. Leider ist es keine Option, den Nutzern die Software probehalber "zu verbieten", da sie täglich und dringend im Abeitsablauf benötigt wird.
Was noch auffällt, dass in Momenten des "Einfrierens" oftmals Prozesse in Bezug auf den Volumenschattenkopiedienst ganz oben im Ressourcenmonitor unter "Datenträgeraktivität" stehen. Darauf kann ich mir aber keinen echten Reim machen. Backups der VM laufen ausschließlich Nachts, an dieser Stelle hat der Dienst natürlich zu tun.
Der Raidcontroller meldet keinerlei Probleme mit den Platten oder dem Volume, auch Schadsoftware kann ich nach mehreren Tests fast vollständig ausschließen.
Welche Möglichkeiten habe ich, der Ursache weiter auf den Grund zu gehen?
Danke für's Lesen und ggfs. Eure Unterstützung.
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 315446
Url: https://administrator.de/contentid/315446
Ausgedruckt am: 21.11.2024 um 17:11 Uhr
13 Kommentare
Neuester Kommentar
Hallo,
dann installiere mal ein langzeit Performancemonitoring oder wirf die software wiede runter.
Außerdem hast Du wenn Du keine 2 CPU vom E5-2620v3 hat die Zuweisung für die CPU mal übertrieben.
Viel hilft nicht immer viel.
E5-2620v3 ist eine 6 Core mit HT also 12 Threads.
Für den HyperV sollte man mindestens 2 physische Kerne einplanen und auch min 4GB RAM.
Deine eine VM ist nun so eingestellt das die 100% der maximalleistung abgreifen dürfte, blöd wenn der Hypervisor nix mehr bekommt dann kann schonmal alles stehen.
Mit einer Datenbankanwendung schient ja nun auch was neues dazugekommen das Leistung zieht.
Also bitte nochmal die Zuweisung der Ressourcen überarbeiten.
Gruß
Chonta
dann installiere mal ein langzeit Performancemonitoring oder wirf die software wiede runter.
Außerdem hast Du wenn Du keine 2 CPU vom E5-2620v3 hat die Zuweisung für die CPU mal übertrieben.
Viel hilft nicht immer viel.
E5-2620v3 ist eine 6 Core mit HT also 12 Threads.
Für den HyperV sollte man mindestens 2 physische Kerne einplanen und auch min 4GB RAM.
Deine eine VM ist nun so eingestellt das die 100% der maximalleistung abgreifen dürfte, blöd wenn der Hypervisor nix mehr bekommt dann kann schonmal alles stehen.
Mit einer Datenbankanwendung schient ja nun auch was neues dazugekommen das Leistung zieht.
Also bitte nochmal die Zuweisung der Ressourcen überarbeiten.
Gruß
Chonta
also von den virtuellen Prozessoren stehen der VM 10 (von 12)
Auch zu viel. Gib dem Teil 4 maximal.Hast Du eine Empfehlung für Software zum Performancemonitoring?
Munin mit Muninnode4Windows, braucht aber einen Linuxserver für Munin.Analysis of Logs?
Windows Ereignissanzeige und dann Filtern und suchen Gruß
Chonta
http://www.faq-o-matic.net/2011/01/26/hyper-v-sizing-virtuelle-und-echt ...
Am "Immer rein – kost ja nix!?" für Dich wichtig.
Gruß
Chonta
Am "Immer rein – kost ja nix!?" für Dich wichtig.
Gruß
Chonta
Stell es doch einfach um auf 4 und beobachte.
Die Überzuweisung spielt auch bei nicht ausgelasteten Systemen eine Rolle.
Deine VM friert anscheinend ab und zu ein, so wie Du es bschrieben hast, das kann passieren, wenn der Hypervisor selber zu wenig Ressourcen hat und sich dann alles von der VM zurück holt um dann nachzuregeln.
Ohne ein vorhandenes Monitoring ist es halt schwer zu sagen ob es einen wie auch immer gearteten Leistungseinbruch gibt.
Es kann auch sein das der Host zu wenig RAM hat und anfängt dauernt auf der SSD zu swapen und die Logflut der neuen Anwendung ihr übriges tut.
Ist auf dem Host irgendwas auser Hyper-V installiert?
Ist die neue Anwendung für eine virtualisierung unter Hyper-V oder überhaupt Virtualisierung frei gegeben?
Gruß
Chonta
Die Überzuweisung spielt auch bei nicht ausgelasteten Systemen eine Rolle.
Deine VM friert anscheinend ab und zu ein, so wie Du es bschrieben hast, das kann passieren, wenn der Hypervisor selber zu wenig Ressourcen hat und sich dann alles von der VM zurück holt um dann nachzuregeln.
Ohne ein vorhandenes Monitoring ist es halt schwer zu sagen ob es einen wie auch immer gearteten Leistungseinbruch gibt.
Es kann auch sein das der Host zu wenig RAM hat und anfängt dauernt auf der SSD zu swapen und die Logflut der neuen Anwendung ihr übriges tut.
Ist auf dem Host irgendwas auser Hyper-V installiert?
Ist die neue Anwendung für eine virtualisierung unter Hyper-V oder überhaupt Virtualisierung frei gegeben?
Gruß
Chonta
Moin,
Henning
Was noch auffällt, dass in Momenten des "Einfrierens" oftmals Prozesse in Bezug auf den Volumenschattenkopiedienst
ganz oben im Ressourcenmonitor unter "Datenträgeraktivität" stehen.
Überprüfe doch mal ob Schattenkopien erstellt werden und wenn ja, wann. Wenn auch das Laufwerk, auf dem die PostgreSQL-DB liegt gesichert wird könnte man die mal rausnehmen oder erstmal die Schattenkopien testweise ganz abschalten.ganz oben im Ressourcenmonitor unter "Datenträgeraktivität" stehen.
Henning
Moin,
Gruß,
Dani
Das Problem liegt also mit ziemlicher Sicherheit nicht an der Aufteilung der Prozessoren.
was würdest du verwetten? Ich empfehle dir den Vortrag CDC-Germany 2016 - 10 Dinge, die Hyper-V übel nimmt.Gruß,
Dani