ESXI 6.0 Absturz Hardwarefehler. Hilfe bei der Fehlersuche
Hallo Zusammen,
einer meiner Standalone ESXI macht mir sorgen. Hier scheint ein Hardwarefehler vorzuliegen. Dieser stürzt seit gestern gerne mal immer wieder in Regelmäßigen Abständen ab. Heute Morgen hatte ich dann diese Meldung:
Ist die Interpretation richtig? VM-214 löste den Fehler aus und Auslöser war die CPU? Dann sollte ich die wohl mal tauschen...
Ich hatte bereits letzte Woche das Mainboard getauscht und den RAM getestet, der RAM war OK!
Kurz noch zur Info VM-2014 läuft beinhaltet die USV Steuerungssoftware für Shutdown! ESXI! Ausgelöst haben kann die eigentlich nicht... aber man weiss ja nie...
Danke für euere Hilfe...
einer meiner Standalone ESXI macht mir sorgen. Hier scheint ein Hardwarefehler vorzuliegen. Dieser stürzt seit gestern gerne mal immer wieder in Regelmäßigen Abständen ab. Heute Morgen hatte ich dann diese Meldung:
Ist die Interpretation richtig? VM-214 löste den Fehler aus und Auslöser war die CPU? Dann sollte ich die wohl mal tauschen...
Ich hatte bereits letzte Woche das Mainboard getauscht und den RAM getestet, der RAM war OK!
Kurz noch zur Info VM-2014 läuft beinhaltet die USV Steuerungssoftware für Shutdown! ESXI! Ausgelöst haben kann die eigentlich nicht... aber man weiss ja nie...
Danke für euere Hilfe...
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 513467
Url: https://administrator.de/contentid/513467
Ausgedruckt am: 24.11.2024 um 22:11 Uhr
10 Kommentare
Neuester Kommentar
Moin,
siehe https://kb.vmware.com/s/article/1005184?lang=de
"Bei Machine Check Architecture handelt es sich um einen Mechanismus innerhalb einer CPU, mit dem Hardwareprobleme erkannt und gemeldet werden können. Wenn ein Problem erkannt wird, wird eine Maschinenprüfausnahme (Machine Check Exception, MCE) ausgegeben. Falls eine MCE ausgegeben und ein violetter Diagnosebildschirm angezeigt wird, ist ein Hardwareproblem die Ursache. Es gibt keine andere Möglichkeit, eine MCE zu generieren."
siehe https://kb.vmware.com/s/article/1005184?lang=de
"Bei Machine Check Architecture handelt es sich um einen Mechanismus innerhalb einer CPU, mit dem Hardwareprobleme erkannt und gemeldet werden können. Wenn ein Problem erkannt wird, wird eine Maschinenprüfausnahme (Machine Check Exception, MCE) ausgegeben. Falls eine MCE ausgegeben und ein violetter Diagnosebildschirm angezeigt wird, ist ein Hardwareproblem die Ursache. Es gibt keine andere Möglichkeit, eine MCE zu generieren."
doch, und zwar in dem man von der VMware Version zu neue und nicht unterstützte Betriebsysteme verwendet. Auch die Windows 10 Updates können solche Dinge in sich tragen, ab einer bestimmten Buildnummer MUSS man die dazugheörigen Patches von VMware einspielen und alle 6 Monate kommt ein neuer Build.
Die allererste Maßnahme hier ist erstmal das ESXi hochzupatchen - die Patches kriegt man auch als Inhaber der kostenlosen Lizenz, die CU-Pakete nicht und das manuelle Patchen mit dem Putty oder einer anderen SSH Shell macht nicht so wirklich Spaß aber es geht. Besser mal ein 6.7 herunterladen, auf nem USB Stick zum Booten bringen und schauen ob die lila screens noch kommen oder nicht.
Die allererste Maßnahme hier ist erstmal das ESXi hochzupatchen - die Patches kriegt man auch als Inhaber der kostenlosen Lizenz, die CU-Pakete nicht und das manuelle Patchen mit dem Putty oder einer anderen SSH Shell macht nicht so wirklich Spaß aber es geht. Besser mal ein 6.7 herunterladen, auf nem USB Stick zum Booten bringen und schauen ob die lila screens noch kommen oder nicht.
Hi,
es kann natürlich die CPU gewesen sein, halte ich aber auch für eher unwahrscheinlich.
Hast Du nicht noch irgendwelchge Logeinträge in der USV-VM?
Wie ist die USV mit der VM verbunden (LAN, USB oder seriell)?
Es könnte auch bspw. eine durchgereichte USB-Verbindung sowas auslösen. Oder die USV geht in den Testmodus und reißt den ganzen Server mit runter. Welche USV ist das und welche VM/software(version) verwendest Du da?
Auch eine falsche Treiber/Firmware-Kombination des Storage-Controllers, Netzwerkcontrollers oder sonstiger Erweiterungskarten (bzw. onboard Komponenten) kann sowas auslösen.
In Deinem Screenshot des PSOD sieht man eigentlich, dass der VMWare-Kernel eine Uptime von über 16 Tagen (genauer 16 Tage 15 Stunden 3 Minuten und rund 44 Sekunden) hatte. Das deckt sich irgendwie nicht mit Deiner Aussage "Dieser stürzt seit gestern gerne mal immer wieder in Regelmäßigen Abständen ab." Oder was genau ist abgestürzt (die VM(s), der komplette Host oder was)?
Auch könnten Kühlungsprobleme die Ursache sein oder ein nicht ordentlich montierter CPU-Lüfter. Des weiteren wäre möglich, dass ein falsches Power-Profil in der Host Konfiguration bzw. im BIOS den PSOD ausgelöst hat.
Du könntest auch mal ein Ziel für den Diskdump konfigurieren, um der Ursache auf den Grund zu gehen.
BIOS des Mainboards, Firmware von Controllern/NIC sollten aktuell und die passenden Treiber im ESXi eingebunden sein.
Du könntest auch mal Deine Hardwarekonfiguration auflisten.
Gruß
cykes
es kann natürlich die CPU gewesen sein, halte ich aber auch für eher unwahrscheinlich.
Hast Du nicht noch irgendwelchge Logeinträge in der USV-VM?
Wie ist die USV mit der VM verbunden (LAN, USB oder seriell)?
Es könnte auch bspw. eine durchgereichte USB-Verbindung sowas auslösen. Oder die USV geht in den Testmodus und reißt den ganzen Server mit runter. Welche USV ist das und welche VM/software(version) verwendest Du da?
Auch eine falsche Treiber/Firmware-Kombination des Storage-Controllers, Netzwerkcontrollers oder sonstiger Erweiterungskarten (bzw. onboard Komponenten) kann sowas auslösen.
In Deinem Screenshot des PSOD sieht man eigentlich, dass der VMWare-Kernel eine Uptime von über 16 Tagen (genauer 16 Tage 15 Stunden 3 Minuten und rund 44 Sekunden) hatte. Das deckt sich irgendwie nicht mit Deiner Aussage "Dieser stürzt seit gestern gerne mal immer wieder in Regelmäßigen Abständen ab." Oder was genau ist abgestürzt (die VM(s), der komplette Host oder was)?
Auch könnten Kühlungsprobleme die Ursache sein oder ein nicht ordentlich montierter CPU-Lüfter. Des weiteren wäre möglich, dass ein falsches Power-Profil in der Host Konfiguration bzw. im BIOS den PSOD ausgelöst hat.
Du könntest auch mal ein Ziel für den Diskdump konfigurieren, um der Ursache auf den Grund zu gehen.
BIOS des Mainboards, Firmware von Controllern/NIC sollten aktuell und die passenden Treiber im ESXi eingebunden sein.
Du könntest auch mal Deine Hardwarekonfiguration auflisten.
Gruß
cykes
Zitat von @zeroblue2005:
Derzeit läuft der ESXI mit allen VMs, jedoch ohne durchgeschliffen USB Kabel für die USV.
Und da meckert der apcupsd in der VM nicht? Oder läuft die VM-214 ebenfalls nicht?Derzeit läuft der ESXI mit allen VMs, jedoch ohne durchgeschliffen USB Kabel für die USV.
Die Software ist: apcupsd die auf einer kleinen VM Win 7 läuft. Dies lokal ohne Gateway und DNS. Leider läuft die Software nur unter Win-7.
Das ist nicht ganz korrekt, meine Erfahrungen mit dem apcupsd habe ich ausschließlich unter Linux gemacht, mit unterschiedlichen Ergebnissen. Teilweise wurden falsche Werte (Temperatur, Last etc.) von der USV zurückgeliefert und man musste manuell in der Konfigurationsdatei herumhantieren. Wenn das USV-Modell vollständig unterstützt wurde, lief er jedoch relativ problemlos.Aber warum verwendest Du nicht die Software zum USV-Modell (welches?) von APC/Schneider Electric (unter Windows in dem Fall Powerchute) oder die vorgefertigte VMWare VM von APC?
Gruß
cykes