atarjono
Goto Top

VDI CPU Ratio

Hallo zusammen,

ich habe mal eine "generelle" Frage zu VDI/CPU Ratio.
Aber erstmal unsere Umgebung:
- 4 Hosts mit 112 V CPU (28Cores --> 2 Socket Server --> 56Cores -- >VT --> 112 vCPU)
- 2 davon mit 1,5 TB und 2 mit 2 TB RAM
- VM8 mit Instantclones

Die jeweilgen VDI haben 2 vCPU und 4GB RAM und aktuell ca. 420 VDI.
Das ergibt eine vCPU Ratio von ca. 1:1,1 (VMWare sagt für "Mediumuser" 1:4) also sind wir momentan im grünen Bereich.
Auch die CPU Readyzeiten sind ok.
Was uns aber aufgefallen ist, dass bei allen Host die CPU zu Arbeitszeiten gut bei 85% liegen.
d.H. ja im Umkehrschluss, dass wir nicht mehr viel Luft nach oben haben.

Jetzt ist unsere Frage, liegt es an unsere "Softwarekonfig" oder das was usere MA machen?
Folgende Software sind in der VDi "Pflicht":
- Sophos Endpoint Security
- Splunk
- Teams V2
- Groupwise

Um festzustellen ob das "5x hoch gepatchtes Image" Schuld ist habe ich testweise W10 neuaufgesetzt inkl. die 4 oben genannte Software und 250 VDI hochgefahren (leider/natürlich ohne Benutzeranmeldung).
Und am nächsten Tag 250 VDI mit unserem "5x hoch gepatchtes Image".
Leider ist im "Idle" Modus die CPUauslastung auf den Server gleich.
Bedeutet das im Umkehrschluss, dass unsere MA wirklich soviel CPU Power bnötigen?

Wie sieht denn bei euch die CPU Ratio aus?

Danke
Schonmal im Vorraus.

Content-Key: 9803081856

Url: https://administrator.de/contentid/9803081856

Printed on: April 27, 2024 at 12:04 o'clock

Member: Dani
Dani Feb 05, 2024 at 20:41:01 (UTC)
Goto Top
Moin,
- 4 Hosts mit 112 V CPU (28Cores --> 2 Socket Server --> 56Cores -- >VT --> 112 vCPU)
Du meinst 4 Hosts mit jeweils zwei CPU Sockets. Wie viele Cores entfallen auf jede CPU, 16 oder 28 Cores? Für was steht das Kürzel VT?

VM8 mit Instantclones
Was soll VM8 sein, vSphere 8 mit Horizon 8?!

Was uns aber aufgefallen ist, dass bei allen Host die CPU zu Arbeitszeiten gut bei 85% liegen.
Wie sehen die Werte außerhalb der Arbeitszeit bzw. Wochenende aus?!

Wie sieht denn bei euch die CPU Ratio aus?
Ganz unterschiedlich.:
  • Auf unseren CAD Clustern halten wir uns an 1:1. Reservieren 4 Cores für ESXi.
  • Auf unseren Power Usern (Marketing, Designing, etc.) halten wir uns 1:2. Reservieren 4 Cores für ESXi.
  • Auf unseren Office Arbeitsplätzen ist es in der Regel 1:4. Reservieren 4 Cores für ESXi.

Alle Clustern verfügen allerdings Nvidia GPUs. Das bedeutet, dass die Berechnungen für Grafik & Co nicht auf die CPU ausgelagert werden sondern auf die CUDA Cores der Grafikkarte. Evtl. ist das schon bei euch der Flaschenhals. Solltest du mit entsprechenden Fachwissen, VMware oder eben mit einem qualifizieren IT-Dienstleister herausfinden.


Gruß,
Dani
Member: atarjono
atarjono Feb 06, 2024 at 14:53:15 (UTC)
Goto Top
Du meinst 4 Hosts mit jeweils zwei CPU Sockets. Wie viele Cores entfallen auf jede CPU, 16 oder 28 Cores? Für was steht das Kürzel VT?
Genau, die CPU haben jeweils 28 echte Kerne und VT sollte HT --> Hyperthreading sein.

Was soll VM8 sein, vSphere 8 mit Horizon 8?!
Genau.

Wie sehen die Werte außerhalb der Arbeitszeit bzw. Wochenende aus?!
Nach Feierabend geht die Last auf 11% runter (haben immer ein paar VM (160) die laufen, aber keine VDI sind.

Also mit Grafiken arbeiten die bei uns nicht, was mir heute aber aufgefallen ist, dass ein selbstentwickeltes Program OpenJDK nutzt, und diese beim arbeiten immer um die 20% CPU Leistung verbraucht.

Hmm was meinst du mit:
Reservieren 4 Cores für ESXi.
Meinst du damit, dass von den (bei uns sind es ja 56Cores je Server), 4 Cores explizit für den ESXi Host selber sind?
Das mit der Grafikkarte ist eine gute Idee...evtl. könnten man das Programm ja so umschreiben, dass alles auf die GPU geht....
Ist glaube ich preiswerter als ein paar neue Server zu kaufen, denn Ziel sind 600VDI und aktuell sind wir ja noch nicht mal bei 50%.
Auf unseren Office Arbeitsplätzen ist es in der Regel 1:4
Genau das war auch unser Gedankengang, aber wenn jetzt bei 1:1,1 die CPU schon bei 85% ist, können wir wohl 1:4 vergessen.
Member: Dani
Dani Feb 06, 2024 updated at 17:36:29 (UTC)
Goto Top
Moin,
Genau, die CPU haben jeweils 28 echte Kerne und VT sollte HT --> Hyperthreading sein.
nenn mir bitte noch das CPU Modell, das ihr nutzt. HT sollte bei VDI keine Rolle einnehmen.

Also mit Grafiken arbeiten die bei uns nicht, was mir heute aber aufgefallen ist, dass ein selbstentwickeltes Program OpenJDK nutzt, und diese beim arbeiten immer um die 20% CPU Leistung verbraucht.
Mit Grafik meine ich Berechnungen, welche im Regelfall von der physikalischen Grafikkarte, durchgeführt werden. Dazu zählen schon Interaktionen in Microsoft Office. Aber natürlich auch in Windows, Teams, etc. Daher werden diese oftmals auf die CPU der VM ausgelagert. Damit entsteht der Workload auf den ESXi Hosts.

Meinst du damit, dass von den (bei uns sind es ja 56Cores je Server), 4 Cores explizit für den ESXi Host selber sind?
Die goldene Regel ist mindestens 2 Cores für ESXi vorzusehen sind. Wir sind da großzügig und nehmen 4. face-smile

Das mit der Grafikkarte ist eine gute Idee...evtl. könnten man das Programm ja so umschreiben, dass alles auf die GPU geht....
So einfach ist es dann auch nicht... in der Regel erfolgt das durch Windows bzw. dem Agent. Unabhängig davon sei dir gesagt, das sind keine 0815 Karten sondern für VDI und GPUs, z.B. A16. Hier kannst du grob mal deinen Bedarf des jeweiligen Modells und deren Anzahl anschauen: https://www.vgpu-configurator.com/en/ Wenn du nach den Preisen suchst, setze dich vorher hin.

Ist glaube ich preiswerter als ein paar neue Server zu kaufen, denn Ziel sind 600VDI und aktuell sind wir ja noch nicht mal bei 50%.
Idee hatte damals mein Vorgesetzter auch. Aber irgendwann bekommst du die Anforderung an eine GPU mit einer CPU nicht mehr ausgeglichen. Bestes Beispiel sind neue Programmversionen, da reicht ein einfacher Wechsel von Office 2016 auf Office 2021. Auch Interaktionen in Windows mit einer vGPUs sind ein anderes Nutzererlebnis. Wenn ihr es ernst meint und nachhaltig an der Zufriedenheit der Nutzer interessiert seit, führt kein Weg an Nvidia Karten vorbei. Und das sage ich weil ich knapp 10 Jahre eine VDI Plattform mit einer 6stelligen Nutzeranzahl verantwortet habe.

Genau das war auch unser Gedankengang, aber wenn jetzt bei 1:1,1 die CPU schon bei 85% ist, können wir wohl 1:4 vergessen.
Wie gesagt, die Last kann evtl. durch richtige GPUs deutlich reduziert werden. Sowas wird eigentlich einem PoC herausgefunden und nicht im Live Betrieb. face-wink


Gruß,
Dani
Member: atarjono
atarjono Feb 07, 2024 updated at 08:21:06 (UTC)
Goto Top
nenn mir bitte noch das CPU Modell, das ihr nutzt. HT sollte bei VDI keine Rolle einnehmen.
Intel(R) Xeon(R) Gold 6348
Also unsere extener Berater hat eingestellt..und VT eingeschaltet, damit wir mehr vCPU "haben".

Mir war nicht bewusst, dass auch Office 365 (Offline Variante), Firefox auch eine GPU nutzt.
Also bei dem Preis für die A16 bin nicht umgefallen ;), wenn es viel hilft, ist es preiswerter wie einen Server.

Laut NVidia wird für uns die A16 empfohlen bei max 64 vGPU/Karte.
Jetzt spielen wir mal das ganze durch...
Wir haben aktuell ca. 250 VDI auf den 4 Servern verteilt --> 62,5 vGPU/Karte --> Passt.
Oder kann man das so gar nicht ausrechnen?
Was passiert denn, wenn mehr gebraucht wird? Also sagen wir mal 70 vGPU/Karte?
Wird einfach alles "langsamer" oder bekommen nur die ersten 64 VDI eine vGPU?
Die "64" scheint ja eine "Hardware" seitige Grenze zu sein.

Hmm kann VMware nicht den Bedarf an vGPU an den PC/Laptop auslagern?

Als wir vor 10 Jahren? Mit VDI angefangen haben, war ja der Bedarf noch anders.
Jaa hmm PoC wird schwierig sein...
Member: Dani
Dani Feb 07, 2024 updated at 18:10:00 (UTC)
Goto Top
Moin,
Also unsere extener Berater hat eingestellt..und VT eingeschaltet, damit wir mehr vCPU "haben".
Ist mir neu, dass man HT beim Sizing der CPUs bzw. der Anzahl der VDI aktiv berücksichtigt.

Mir war nicht bewusst, dass auch Office 365 (Offline Variante), Firefox auch eine GPU nutzt.
Alle Interaktionen, welche auch auf einem physikalischen Gerät die GPU beanspruchen. Die Anwendungen unterscheiden hier nicht zwischen VDI.

Also bei dem Preis für die A16 bin nicht umgefallen ;), wenn es viel hilft, ist es preiswerter wie einen Server.
Die Frage ist, wie weit kommst du mit dem Modell A16... siehe meine nächsten Ausführungen.

Wir haben aktuell ca. 250 VDI auf den 4 Servern verteilt --> 62,5 vGPU/Karte --> Passt.
Oder kann man das so gar nicht ausrechnen?
Die Anzahl der vGPUs sagt überhaupt nichts über die Anzahl der VMs aus. Die Karten haben unterschiedliche Profile. Die Profile definieren, wie viele CORES der GPU der VM nutzen kann. Die verschiedene Profile werden den VMs zugeordnet und damit ergibt sich maximale Anzahl von VMs pro Karte. Ist alles hier beschrieben.

Was passiert denn, wenn mehr gebraucht wird? Also sagen wir mal 70 vGPU/Karte?
Die VM kann nicht gestartet werden. Es sind dann weitere Karten erforderlich. Denn der andere limitierender Faktor ist der Server bzw. das Board. In der Regel bekommst du nicht mehr als zwei solcher NVIDIA Karten in einem Server. Somit ist die Schwierigkeit CPU, RAM, Grafikkarten und Anzahl VDIs pro Server in Einklang zu bringen. Idealerweise berücksichtigt man noch den Ausfall eines ESXi Hosts, so dass die verbleibenden Hosts diesen zu 100% kompensieren können.

Die "64" scheint ja eine "Hardware" seitige Grenze zu sein.
Die Physik kannst auch du nicht ändern. face-wink Es gibt dafür noch größere Modelle.

Hmm kann VMware nicht den Bedarf an vGPU an den PC/Laptop auslagern?
Wie soll das gehen?

Als wir vor 10 Jahren? Mit VDI angefangen haben, war ja der Bedarf noch anders.
Bei uns auch. face-smile Aber deshalb macht doch 3, 5 Jahresplanungen und reviewed solche Umgebungen jedes Jahr. Um den Bedarf und Anforderungen von User, IT und Hersteller von Software zielgerichtet einplanen zu können.


Gruß,
Dani
Member: atarjono
atarjono Feb 08, 2024 at 15:52:07 (UTC)
Goto Top
Ich meine mal gelesen zu haben, dass Edge die "CPU" Leistung auch an den Host (Laptop) "abtreten" kann.
Dass es auch noch eine A30 und A40 gibt habe ich gesehen.
Habe nur nicht auf die "schnelle" erkannt, dass die A30 anstatt 64VDI, XX VDI und die A40 XX VDI kann bei gleichem Profil.
Member: Dani
Dani Feb 08, 2024 at 16:57:58 (UTC)
Goto Top
Moin,
Ich meine mal gelesen zu haben, dass Edge die "CPU" Leistung auch an den Host (Laptop) "abtreten" kann.
wo hast du das gelesen?


Gruß,
Dani
Member: atarjono
atarjono Feb 08, 2024 at 20:52:44 (UTC)
Goto Top
Member: Dani
Dani Feb 09, 2024 at 11:57:50 (UTC)
Goto Top
Moin,
ich lese da nichts davon, dass die GPU Threads der VM auf die GPU des physikalischen Geräts ausgelagert werden kann.


Gruß
Dani
Member: atarjono
atarjono Feb 09, 2024 at 19:23:34 (UTC)
Goto Top
GPU nicht...aber generell, dass Last (hier CPU) ausgelagert werden kann.
Dachte wenn bei Edge das für die CPU geht, dann könnten ja evtl. andere Programme "nachziehen"?
Member: Dani
Dani Feb 10, 2024 at 12:59:28 (UTC)
Goto Top
Moin,
aber generell, dass Last (hier CPU) ausgelagert werden kann.
auch dazu lese ich nichts in den Links. Vermutlich haben ich Tomaten auf den Augen. Willst du die vermeidlichen Stellen hier einmal zitieren?!

Gruß,
Dani
Member: atarjono
atarjono Feb 12, 2024 at 10:29:28 (UTC)
Goto Top
Wenn ein Endbenutzer einen Browser mit Unterstützung für die Browser-Inhaltsumleitung auf einem Remote-Desktop verwendet, wird die Webseite auf dem Clientsystem und nicht auf dem Agent-System gerendert und im Viewport des Remote-Browsers angezeigt. Der Viewport ist der Teil des Browserfensters, der den Inhalt einer Webseite anzeigt.
Member: Dani
Dani Feb 12, 2024 updated at 16:50:38 (UTC)
Goto Top
Moin,
bei sowas immer die englische Fassung lesen. Denn die Übersetzungen sind nach wie vor nicht der Brüller.
With Browser Redirection, when a user launches the Google Chrome browser in a remote desktop, the website is rendered on the client (endpoint) system instead of the agent (virtual machine) system, and it is displayed over the remote browser’s viewport. The viewport is the portion of the browser window that displays the content of a web page. This feature helps to improve user experience for browser-based applications while limiting VDI traffic as the source of the webpage is directly accessed by the client.

Damit sollte auch klar sein, dass das auf native Win32 Anwendungen nicht anwendbar ist. Zudem sind die Rahmenbedingungen sehr eng gehalten. Ein 1080p im Fullscreen wirst du damit nicht ruckelfrei abspielen können. Zumal in der Regel keine Fatclients mit entsprechenden CPUs und GPUs, sondern Zero- und Thinclients verwendet werden.


Gruß,
Dani
Member: atarjono
atarjono Feb 13, 2024 at 09:01:53 (UTC)
Goto Top
Aber da steht doch auch das selbe oder?
Also die "Webseite" wird nicht im VDI sondern im Endpoint gerendert.
Wollte damit ja auch nur sagen, wenn die das Rendern "auslagern" können, dann könnten die evtl. auch andere Sachen auslagern.
Aber ich versuche die "Geldausgeber" auf eine Graka zu lenken.
Member: Dani
Dani Feb 13, 2024 at 22:23:42 (UTC)
Goto Top
Moin,
Also die "Webseite" wird nicht im VDI sondern im Endpoint gerendert.
probiere es doch einfach praktisch aus. Dann wirst du feststellen, dass das von dir gedachte "Rendern" über Google Chrome bzw. der View über den Agent in keinster Weise mit einer virtualisierter CPU, noch eine GPU vergleichen kann. Das sollte dir auch jeder VDI Architekt bestätigen zu können.

Wollte damit ja auch nur sagen, wenn die das Rendern "auslagern" können, dann könnten die evtl. auch andere Sachen auslagern.
Es hat schon Gründe, weshalb diese Implementierung in den letzten Jahren nie mehr weiter entwickelt wurde. Aber schreibe am Besten einen Feature Request bei VMware für dein Vorhaben.

Aber ich versuche die "Geldausgeber" auf eine Graka zu lenken.
Schaffe doch Fakten und eine Datenbasis in dem du Tests mit den verschiedenen Technologien durchführst und aufbereitest. Einfach mal Geld für Karten, Software und Hardware Konfiguration, neue VMs, etc. auszugeben, halte ich nicht gerade für professionell. Vor allem wenn hinterher der Schuss nach hinten los geht und dann noch mehr Geld benötigt wird.


Gruß,
Dani
Member: atarjono
atarjono Feb 14, 2024 at 14:27:00 (UTC)
Goto Top
Sind gerade dabei Daten zu sammeln, was viel "CPU" frisst.
Angenommen man könnte die Last auf eine GPU auslagern, können wir es jetzt nicht feststellen, da wir gar keine GPU haben.
Man könnte natürlich die MA auf einen normalen Laptop arbeiten und nachsehen, ob die GPU "beansprucht" wird.
Member: Dani
Dani Feb 14, 2024 updated at 18:44:20 (UTC)
Goto Top
Moin,
Angenommen man könnte die Last auf eine GPU auslagern, können wir es jetzt nicht feststellen, da wir gar keine GPU haben.
darum habe ich eingangs von einem PoC gesprochen.

Man könnte natürlich die MA auf einen normalen Laptop arbeiten und nachsehen, ob die GPU "beansprucht" wird.
Da sind wir wieder bei Äpfel und Birnen...

Wer ist denn der Plattform Owner oder Architekt? Das ist doch sein Job, Anforderungen aufzunehmen, diese technisch zu definieren und daraus verschiedene Arbeitspakete den Kollegen zuzuweisen und aus den Ergebnisse weitere Maßnahmen abzuleiten. Somit auch Verantwortung gegen über den Management/GF und damit auch Verantwortlich für die Beschaffung der notwendigen Geldmittel.

Alles andere geht früher oder später nach hinten los und die verminderte oder sogar keine Arbeitsleistung von 420 Leuten pro Tag kann sehr schnell mehr Kosten als eine leistungsstarke und anforderungsgerechte VDI Plattform.


Gruß,
Dani
Member: atarjono
atarjono Feb 15, 2024 at 08:11:58 (UTC)
Goto Top
Wie gesagt haben wir VDI seit längerem im Einsatz..
Vor 1,5 Jahren hat der damaliger verantwortliche Admin (Kollege von mir) eine Hochrechnung für 600 VDI gemacht.
Damals kam dabei raus, dass wir 4 Server (so wie es jetzt ist) brauchen.
Seit gut 1/2 Jahr habe ich das Thema aufgenommen.
Und auch seit gut 3/4 Jahr werden "Flexarbeitsplätze" gepuscht --> alle MA bekommen einen Laptop.
Die meisten von Ihnen werden auf VDI arbeiten und ein "paar" mit VPN.

Seit der Hochrechnung, sind aber auch die "Sicherheitsrichtlinie" seitens Datenschützer gestiegen --> Splunk, Sophos Endpoint mit allem an und es kommen immer mehr digitale Akten rein.

Seit paar Wochen ist mir auf gefallen, dass die CPUs der Hosts am "glühen" sind.
PoC ist also schon vorbei. Daher müssen wir jetzt feststellen, was viel CPU frisst.

Da sind wir wieder bei Äpfel und Birnen...
Warum kann man ein und die selbe MA nicht auf einem Laptop mit GPU arbeiten lassen und nachsehen ob auch GPU verbraucht wird? Sollte das auf einer VDI mit vGPU auch nicht der Fall sein?