zeroblue2005
Goto Top

ESXI 6.0 Absturz Hardwarefehler. Hilfe bei der Fehlersuche

Hallo Zusammen,

einer meiner Standalone ESXI macht mir sorgen. Hier scheint ein Hardwarefehler vorzuliegen. Dieser stürzt seit gestern gerne mal immer wieder in Regelmäßigen Abständen ab. Heute Morgen hatte ich dann diese Meldung:

k1600_20191108_062547

Ist die Interpretation richtig? VM-214 löste den Fehler aus und Auslöser war die CPU? Dann sollte ich die wohl mal tauschen...

Ich hatte bereits letzte Woche das Mainboard getauscht und den RAM getestet, der RAM war OK!

Kurz noch zur Info VM-2014 läuft beinhaltet die USV Steuerungssoftware für Shutdown! ESXI! Ausgelöst haben kann die eigentlich nicht... aber man weiss ja nie...

Danke für euere Hilfe...

Content-ID: 513467

Url: https://administrator.de/contentid/513467

Ausgedruckt am: 24.11.2024 um 22:11 Uhr

Spirit-of-Eli
Lösung Spirit-of-Eli 08.11.2019 aktualisiert um 07:57:56 Uhr
Goto Top
Moin,

den Grund kann ich dir nicht nennen.
Nur bevor ich die CPU tausche, würde ich die entsprechende VM auslagern oder einfach ausschalten.
Danach weißt du, ob es an der VM liegt.

Gruß
Spirit
zeroblue2005
zeroblue2005 08.11.2019 aktualisiert um 08:01:54 Uhr
Goto Top
Ja, genau so gehe ich jetzt vor! Ich lasse den ESXI jetzt erst mal ohne eingeschaltete VMs laufen und nach ein paar Stunden dann immer eine VM einschalten, zuletzt dann die betroffene VM. Mal sehen was passiert!
StefanKittel
Lösung StefanKittel 08.11.2019 um 12:05:10 Uhr
Goto Top
Moin,

siehe https://kb.vmware.com/s/article/1005184?lang=de

"Bei Machine Check Architecture handelt es sich um einen Mechanismus innerhalb einer CPU, mit dem Hardwareprobleme erkannt und gemeldet werden können. Wenn ein Problem erkannt wird, wird eine Maschinenprüfausnahme (Machine Check Exception, MCE) ausgegeben. Falls eine MCE ausgegeben und ein violetter Diagnosebildschirm angezeigt wird, ist ein Hardwareproblem die Ursache. Es gibt keine andere Möglichkeit, eine MCE zu generieren."
GrueneSosseMitSpeck
Lösung GrueneSosseMitSpeck 08.11.2019 aktualisiert um 12:59:01 Uhr
Goto Top
doch, und zwar in dem man von der VMware Version zu neue und nicht unterstützte Betriebsysteme verwendet. Auch die Windows 10 Updates können solche Dinge in sich tragen, ab einer bestimmten Buildnummer MUSS man die dazugheörigen Patches von VMware einspielen und alle 6 Monate kommt ein neuer Build.

Die allererste Maßnahme hier ist erstmal das ESXi hochzupatchen - die Patches kriegt man auch als Inhaber der kostenlosen Lizenz, die CU-Pakete nicht und das manuelle Patchen mit dem Putty oder einer anderen SSH Shell macht nicht so wirklich Spaß aber es geht. Besser mal ein 6.7 herunterladen, auf nem USB Stick zum Booten bringen und schauen ob die lila screens noch kommen oder nicht.
zeroblue2005
zeroblue2005 08.11.2019 um 16:22:04 Uhr
Goto Top
Hi Zusammen,

ich habe die CPU heute Mittag getauscht. Danach jede Stunde eine VM gestartet. Seither läuft er stabil.

...Mit Speck hat schon Recht, mit den Patches. Nur kann ich den ESXi leider nicht weiter patchen, weil die Hardware dann nicht mehr unterstützt wird. Dafür ist die Hardware einfach schon zu alt. Hatte ich schon mal probiert. Das kam auch von jetzt auf gleich und auf dem Host laufen nur Maschinen bis 2012 R2.

StefanKittel, danke für den Hinweis, dass hat mir geholfen.

Danke an alle...
cykes
cykes 09.11.2019 aktualisiert um 19:30:12 Uhr
Goto Top
Hi,

es kann natürlich die CPU gewesen sein, halte ich aber auch für eher unwahrscheinlich.
Hast Du nicht noch irgendwelchge Logeinträge in der USV-VM?
Wie ist die USV mit der VM verbunden (LAN, USB oder seriell)?
Es könnte auch bspw. eine durchgereichte USB-Verbindung sowas auslösen. Oder die USV geht in den Testmodus und reißt den ganzen Server mit runter. Welche USV ist das und welche VM/software(version) verwendest Du da?
Auch eine falsche Treiber/Firmware-Kombination des Storage-Controllers, Netzwerkcontrollers oder sonstiger Erweiterungskarten (bzw. onboard Komponenten) kann sowas auslösen.
In Deinem Screenshot des PSOD sieht man eigentlich, dass der VMWare-Kernel eine Uptime von über 16 Tagen (genauer 16 Tage 15 Stunden 3 Minuten und rund 44 Sekunden) hatte. Das deckt sich irgendwie nicht mit Deiner Aussage "Dieser stürzt seit gestern gerne mal immer wieder in Regelmäßigen Abständen ab." Oder was genau ist abgestürzt (die VM(s), der komplette Host oder was)?

Auch könnten Kühlungsprobleme die Ursache sein oder ein nicht ordentlich montierter CPU-Lüfter. Des weiteren wäre möglich, dass ein falsches Power-Profil in der Host Konfiguration bzw. im BIOS den PSOD ausgelöst hat.

Du könntest auch mal ein Ziel für den Diskdump konfigurieren, um der Ursache auf den Grund zu gehen.
BIOS des Mainboards, Firmware von Controllern/NIC sollten aktuell und die passenden Treiber im ESXi eingebunden sein.
Du könntest auch mal Deine Hardwarekonfiguration auflisten.

Gruß

cykes
zeroblue2005
zeroblue2005 10.11.2019 um 14:33:25 Uhr
Goto Top
Hallo Cykes,

danke für den Hinweis! Stimmt, die VM-214 habe ich jetzt erst mal ausser acht gelassen. Das ist sicherlich nicht gut! Derzeit läuft der ESXI mit allen VMs, jedoch ohne durchgeschliffen USB Kabel für die USV. Testmodus der USV ist es nicht. Die Software ist: apcupsd die auf einer kleinen VM Win 7 läuft. Dies lokal ohne Gateway und DNS. Leider läuft die Software nur unter Win-7.

Ich werde das morgen früh merken, ob das evtl. das USB war und werde berichten....
cykes
cykes 10.11.2019 aktualisiert um 16:33:47 Uhr
Goto Top
Zitat von @zeroblue2005:
Derzeit läuft der ESXI mit allen VMs, jedoch ohne durchgeschliffen USB Kabel für die USV.
Und da meckert der apcupsd in der VM nicht? Oder läuft die VM-214 ebenfalls nicht?
Die Software ist: apcupsd die auf einer kleinen VM Win 7 läuft. Dies lokal ohne Gateway und DNS. Leider läuft die Software nur unter Win-7.
Das ist nicht ganz korrekt, meine Erfahrungen mit dem apcupsd habe ich ausschließlich unter Linux gemacht, mit unterschiedlichen Ergebnissen. Teilweise wurden falsche Werte (Temperatur, Last etc.) von der USV zurückgeliefert und man musste manuell in der Konfigurationsdatei herumhantieren. Wenn das USV-Modell vollständig unterstützt wurde, lief er jedoch relativ problemlos.

Aber warum verwendest Du nicht die Software zum USV-Modell (welches?) von APC/Schneider Electric (unter Windows in dem Fall Powerchute) oder die vorgefertigte VMWare VM von APC?

Gruß

cykes
zeroblue2005
zeroblue2005 11.11.2019 um 07:53:37 Uhr
Goto Top
...natürlich meckert er face-wink. Ich hatte doch oben geschrieben, dass die Maschine läuft, jedoch ohne durchges. USB. Ich wollte ja erst mal den ganzen ESXI Schritt für Schritt prüfen und habe ihn daher erst mal mit der neuen CPU ein paar Tage laufen lassen. Jetzt habe ich ihn gerade runtergefahren und wieder ins Regal gestellt. Nun lasse ich ihn ein paar Stunden mit allen VMs laufen. Danach stecke ich wieder das USB-Kabel ein und dann bin ich gespannt!

Ich muss dir ehrlich sagen, ich weiss garnicht mehr warum ich damals apcupsd eingesetzt habe (8 Jahre) ? Das hatte irgendeinen Grund... Aber die Software erkennt die USV bzw. Modell schon richtig und die Werte stimmen auch! läuft auch sehr stabil. Sehe jetzt auch keinen Grund hier was zu ändern. Das Modell ist APC/IBM 1001. Hatte ich mal aus Restbestand der Bundeswehr eingekauft.
zeroblue2005
zeroblue2005 18.11.2019 um 14:05:22 Uhr
Goto Top
... jetzt ist eine Woche vergangen. Ich wollte nur eben mitteilen, dass seither inkl. VM-214 und durchgeschliffenen USB alles normal läuft!

Danke noch mal an alle für Ihre Hilfe face-smile