julian94
Goto Top

Bluescreen virtualisierte Maschinen (VMWare)

Guten Morgen zusammen,

seit dem wir unsere Hardware Server auf unsere neue VMWare Umgebung migriert haben gibt es öfters Probleme mit 2 Servern (Server 2008 & Server 2008 R2) die öfters mit einem Bluescreen crashen. Die beiden Server laufen auf unterschiedlichen Hosts, somit können wir einen Hardwaredefekt ausschließen. Minidump zeigt von insgesamt 8 Bluescreens, 2 mal ATTEMPTED_EXECUTE_OF_NOEXECUTE_MEMORY, 5 mal PAGE_FAULT_IN_NONPAGED_AREA und in einem keinem Check String. Anscheinend hat die Maschine ein Problem mit den VMWare Treibern.

Anbei die Links zu den Minidumps der einzelnen Server:
Server #1: http://cloud.hilgenberg.cc/public.php?service=files&t=2cec895afb112 ...
Server #2: http://cloud.hilgenberg.cc/public.php?service=files&t=e44c2e6a6fff1 ...

Das schlimmste an der Sache ist, dass dies Terminalserver mit insgesamt ca. 70 User sind und wir echt auf'm Schlauch stehen.

Daher bitte ich um Tipps was wir ändern können damit es wieder stabil läuft.

Danke im Voraus!

Content-ID: 259657

Url: https://administrator.de/contentid/259657

Ausgedruckt am: 24.11.2024 um 12:11 Uhr

emeriks
emeriks 13.01.2015 um 11:12:47 Uhr
Goto Top
Hi,
Zitat von @Julian94:

Die beiden Server laufen auf unterschiedlichen Hosts, somit können wir einen Hardwaredefekt ausschließen.
Äh, sorry. Nein, kann man nicht wirklich. Die Wahrscheinlichkeit mag jetzt geringer sein, aber ausgeschlossen ist es deswegen nicht!
Was ist das denn für Hardware? Steht die auf der HCL von VMware?

Wird die Hardware überbucht? (RAM, CPU)

E.
Julian94
Julian94 13.01.2015 um 11:20:14 Uhr
Goto Top
Wir haben 4x IBM System x3650 M4 mit jeweils 2x Intel Xeon E5-2667 v2 und 128GB RAM. Und ja die stehen auf der HCL.

Hardware wird nicht überbucht. CPUs aber voll ausgereizt mit 32 verteilten Kernen.
SlainteMhath
SlainteMhath 13.01.2015 aktualisiert um 11:41:10 Uhr
Goto Top
Moin,

die ESXi's, die Windows VMs und die VMWare Tools sind auf akteuellesten Stand gepatcht?

... Terminalserver ...
Sind alle verwendeten Druckertreiber für den TS-Betrieb zugelassen/zertifiziert?

Ggfs. einfach mal einen Case bei VMware aufmachen.


/EDIT:
CPUs aber voll ausgereizt mit 32 verteilten Kernen.
Der Xeon hat doch nur 8 kerne...x2 = 16 - also doch überbucht.

Schraub das mal zurück, das max. die Anzahl der vorhandenen Cores verwendet wird. Ggfs. auch mal HT in den VMs abschalten.

lg,
Slainte
Julian94
Julian94 13.01.2015 aktualisiert um 11:53:06 Uhr
Goto Top
Ja sind so gut wie auf dem neusten Stand wurden Anfang Januar aktualisiert.

Nein sind nicht alle zertifiziert, laufen aber im Typ 3 Benutzermodus, also sollte im schlimmsten Fall nur der Benutzer crashen.

//EDIT:

Habe ich nicht durch Hyperthreading statt 16 - 32 Kerne zur Verfügung?
SlainteMhath
SlainteMhath 13.01.2015 um 11:58:22 Uhr
Goto Top
Nein sind nicht alle zertifiziert, laufen aber im Typ 3 Benutzermodus, also sollte im schlimmsten Fall nur der Benutzer crashen.
Auf den User Mode würde ich mich nicht verlassen.

Habe ich nicht durch Hyperthreading statt 16 - 32 Kerne zur Verfügung?
Nope. HT != Core
siegit
siegit 13.01.2015 aktualisiert um 12:03:34 Uhr
Goto Top
ggf. vor dem Umstieg AMD CPUs in den Servern gehabt?

auf jeden Fall die zugewiesenen Kerne runterschrauben. RAM Zuweisung auch einmal überprüfen.

Edit: nein HT wird unterschiedlich zu Cores behandelt
emeriks
emeriks 13.01.2015 um 12:04:27 Uhr
Goto Top
Zitat von @Julian94:

Ja sind so gut wie auf dem neusten Stand wurden Anfang Januar aktualisiert.

Nein sind nicht alle zertifiziert, laufen aber im Typ 3 Benutzermodus, also sollte im schlimmsten Fall nur der Benutzer crashen.
Wenn diese das problem wären, dann hätten sie doch auch schon Probleme bereiten müssen, als das teil noch auf Blech lief.

Habe ich nicht durch Hyperthreading statt 16 - 32 Kerne zur Verfügung?
Jaein.
Logisch ja. Physisch natürlich nein, wie auch bei einer Hardware-Kiste.
VMware ist inzischen so weit, dass bei aktiviertem HT die vCPU so lange wie möglich auch auf einem Core bzw. Sockel zusammengefasst bleiben.
Das hängt im wesentlichen davon ab, wie diese Core verteilt sind. Alle auf einen Gast, auf weinige Gäste oder viele Gäste.

E.
Julian94
Julian94 13.01.2015 aktualisiert um 12:52:42 Uhr
Goto Top
Auf dem Host laufen nur 4 VM's, siehe Screenshot: https://bilderkiste.me/images/2015/01/13/esx02.png

Nein wir haben noch keine AMD CPUs in unserer Umgebung gehabt.

Komisch, die Hardware und Migration wurde von der Telekom angeboten und ausgeführt und er sagte uns das wir von 32 Cores ausgehen.
siegit
siegit 13.01.2015 aktualisiert um 13:03:31 Uhr
Goto Top
grade mal die Server1.zip angeschaut. Scheinen noch alte (Chipsatz)teiber im System zu hängen.

Bluescreenview von nirsoft bringt da einiges an .sys Dateien die im Zusammenhang mit den Crashs zu sehen sind (usbccbd.sys, parport.sys,....). Musst mal recherchieren wofür die im einzelnen verantwortlich sind oder waren.

server2.zip ist da weniger Aufschlussreich auf den ersten Blick face-sad vermute aber durch den Umzug ähnliche Ursachen

Edit zum Screenshot: Welche Version vom vSphere (nehme ich jetzt mal an) habt ihr am laufen? Gibts einen Grund warum die HW Version der VMs noch auf Version 8 ist?
Habt ihr auf den 4 IBM Servern je eine VM? oder sieht jeder IBM Server so aus wie auf dem Screenshot?
Da sind 3 2003er Server, die ja laut deiner Beschreibung nicht crashen, aber nur eine 2008er, der crasht?

Welche Server Edition hat der 2008er Server? Standard? Dann kannst den dem zB gar nicht soviel RAM zuweisen (max 32GB).

Langsam kommen da noch mehr Fragen bzgl. der Umgebung auf bei mir. Wäre sinnig die nochmal genau und ausführlich zu skizzieren.
SlainteMhath
SlainteMhath 13.01.2015 um 13:04:52 Uhr
Goto Top
Nene schraub das mal auf 16 Cores - also 2 CPUs a 8 Cores - zurück. Und bei RAM >64GB wäre ich auch vorsichtig, da das (Performance-)Probleme mit NUMA geben kann.

Meiner Erfahrung nach sollte man übrigens ~30 User pro TS nicht überschreiten. Lieber ein paar mehr VMs aufsetzen mit 4-6 Cores und 16 od 24 GB RAM und die Sache läuft um einiges sauberer.

... von der Telekom angeboten und ausgeführt und er sagte uns das wir von 32 Cores ausgehen.
lol - danke das Bestätigt mein Bild von "denen" face-smile sind die 2003er Server (die mit den 8GB RAM) Standard oder Enterprise/Datecenter?
emeriks
emeriks 13.01.2015 um 13:47:59 Uhr
Goto Top
Zitat von @SlainteMhath:

Meiner Erfahrung nach sollte man übrigens ~30 User pro TS nicht überschreiten. Lieber ein paar mehr VMs aufsetzen mit
4-6 Cores und 16 od 24 GB RAM und die Sache läuft um einiges sauberer.
So pauschal kann man das (leider) nicht sagen.
Wir habe hier bei uns 60 User auf
- 8 vCPU
- 32 GB RAM
- Windows 2008 R2
- VMware 5.1
Und davon jeweils 4 VM auf einem Blech. (2x E5-2680, mit HT, zusammen = 32 log. Core)
Und das Ganze läuft performant.

E.
Julian94
Julian94 13.01.2015 aktualisiert um 15:24:39 Uhr
Goto Top
Also jetzt nochmal ausführlicher zu unserer Umgebung.

Wir haben 4 Hosts (IBM System x3650 M4, 2x Intel Xeon E5-2667 v2, 128GB RAM). Die problematischen Maschinen laufen auf unterschiedlichen Hosts (ESX02 & ESX03). Server #1 hat Windows 2008 Enterprise und Server #2 Windows Server 2008 R2 Standard. Bis jetzt machen die anderen VM's keine Probleme und laufen stabil, egal ob Windows Server 2003, 2008 oder 2012. Beide Server sind Terminalserver (Server #1 60 User, Server #2 12 User), wir wissen selbst das dies zu viele sind, können aber wegen evtl. Softwareänderungen dort noch nichts dran ändern - und auf Bare Metal liefen diese auch.

vSphere ist momentan auf Version 5.5.0.

Die VM's sind auf VM-Version 8 weil uns dies von der Telekom so empfohlen wurde.

Wir haben insgesamt 22 Server auf den 4 Hosts verteilt.
siegit
siegit 13.01.2015 um 15:21:46 Uhr
Goto Top
Wenns die 2008 (oderR2) Standard ist, machen 73664MB Ram schon keinen Sinn. Limit ist 32GB. Zumal laut Screenshot nur 22% belegt sind. Sollte also kein Problem sein, diese runter zu setzen.

Die 12 User auf dem zweiten sind doch okay. 60 User sind in der Tat viele, aber nicht unmöglich. Je nach Anwendung halt.
Auch die Verteilung der VMs auf die Hosts klingt realistisch.

Schau dir wie oben geschrieben mal die Dumps mit Blescreenview an und prüfe welche (vermutlich) Treiber oder andere Software dahinter stecken.
Julian94
Julian94 13.01.2015 um 15:25:39 Uhr
Goto Top
Oh verdammt, Server #1 hat natürlich die Enterprise Version. Beim schnellen tippen zu langsam gedacht.. :D

Okay werde mich mal dran setzen. Vielleicht bekommen wir es ja relativ schnell in den Griff.
Dani
Dani 13.01.2015 um 20:21:25 Uhr
Goto Top
Guten Abend,
Was ist das denn für Hardware? Steht die auf der HCL von VMware?
Steht die Server in der Liste, Ja oder Nein?

seit dem wir unsere Hardware Server auf unsere neue VMWare Umgebung migriert
Migration heißt . Mit VMWare Converter oder frisch installiert nach den Best Practice-Vorgaben seitens VMWare?
Die erste Variante würde bedeuten, dass alle unnötigen Treiber natürlich nach wie vor installiert sind und gelöscht werden müssen. Ich habe auch schon erlebt, dass VMs die nicht nach Best Practice konfiguriert sind ebenfalls Bluescreens auslösen können.


Gruß,
Dani
Julian94
Julian94 14.01.2015 um 06:24:21 Uhr
Goto Top
Moin,

ja wie schon oben beschrieben stehen diese auf der HCL.

Mit dem VMWare Converter wurden diese migriert. Alte Treiber wurden aber von uns deinstalliert. Sehr wahrscheinlich hängen irgendwo trotzdem noch welche rum.
Dani
Lösung Dani 23.01.2015 um 15:10:05 Uhr
Goto Top
Moin,
Im Geräte Manager die ausgeblendeten Geräte Anzeige lassen. Danach nochmals die Kategorien durchforsten.
Welche Netzwerkkartentyp (Intel oder vmnet3) nutzt du?


Gruß,
Dani
Julian94
Julian94 25.01.2015 um 07:17:01 Uhr
Goto Top
Haben vor kurzem alles auf VMXNET3 umgestellt - wegen besserer Performance und Kompatibilität.

Werde ich nachher nochmal durchschauen, danke!