philbrx
Goto Top

ESXI 6.5 - VMs stürzen ab

Hi Leute,

ich habe seit Wochen ein Problem mit dem ESXI Server beim Kunden.

Hier die Hard- und Softwareinfos für euch:

Supermicro X11 DPi-N(T)
16 CPU Intel Xeon Gold 6134
190 GB RAM
SSD-RAID

ESXI 6.5 Update 1 (Build 7388607)


5 VMs mit Windows Server 2019 (AD, File, Mail, DB, Test)


Problem:

Sporadisch ruft der Kunde an und sagt dass alles abgestürzt sei.
Ich schalte mich remote auf den ESXI und sehe dass alle Maschinen offline sind. Der ESXI ist weiterhin online.
Im Ereignisprotokoll der Server steht nichts weiter bis auf "unterwartet heruntergefahren".

Im Log vom ESXI kann ich leider auch nichts erkennen.

Ich hoffe auf Tipps von euch und danke schonmal im Voraus! face-smile

Gruß Philipp

Content-Key: 665235

Url: https://administrator.de/contentid/665235

Printed on: April 19, 2024 at 13:04 o'clock

Member: em-pie
em-pie Mar 29, 2021 at 10:26:41 (UTC)
Goto Top
Moin,

Seit wann besteht das Problem?
Was sagt das Log des IPMI?
Spannungsschwankungen am Ausgang der USV?
Ist der ESXi rebootet (Uptime checken) und startet die VMs nicht selbstständig?
Ist es immer die selbe Uhrzeit aber an "zufälligen" Tagen?
Stehen die Server in einem gesicherten Raum, wo nicht jeder dran kommt?

Wo hast du am ESXI geschaut?
Mal ein Update des ESXi auf 6.5U3 geprüft?
Passen die Treiber des ESXi zur eingesetten Hardware?

Gruß
em-pie
Member: cykes
cykes Mar 29, 2021 at 10:37:25 (UTC)
Goto Top
Hi,

ich würde noch ergänzend fragen:
[...] und sehe dass alle Maschinen offline sind.
Was heißt "offline" genau? Ausgeschaltet/heruntergefahren oder laufen sie noch haben aber keine Netzwerkverbindung mehr?

Gruß

cykes
Member: Snagless
Snagless Mar 29, 2021 at 11:18:52 (UTC)
Goto Top
Hallo,

wenn es vorher gegangen ist, dann sollte es auch jetzt tun. Es sei denn man hat etwas verändert ;=)

So aus eigener Erfahrung würde ich zu aller erst mal einen RAM Test laufen lassen. Steht im Log der Datastores etwas drin. Netzteil redundant ? Stromversorung prüfen, Testlauf der USVs.

Solche Probleme kommen ja nicht von NICHR gemachten Udates, sondern eher weil was kaputt geht oder sich was verändert hat.
Member: philbrx
philbrx Mar 29, 2021 at 11:33:28 (UTC)
Goto Top
Hi Cykes,

danke für deine Antwort.

Sorry, offline bedeutet heruntergefahren.
Member: philbrx
philbrx Mar 29, 2021 at 11:35:38 (UTC)
Goto Top
Zitat von @em-pie:

Moin,

Seit wann besteht das Problem? Seit ca. 3 Wochen, es ist schon 5x passiert
Was sagt das Log des IPMI? Log sagt alles in Ordnung
Spannungsschwankungen am Ausgang der USV? Nein, USV in Ordnung
Ist der ESXi rebootet (Uptime checken) und startet die VMs nicht selbstständig? Neu rebootet gestern. VMs starten selbst
Ist es immer die selbe Uhrzeit aber an "zufälligen" Tagen? Nein, immer unterschiedlich
Stehen die Server in einem gesicherten Raum, wo nicht jeder dran kommt? Ja da komme nur ich rein bzw. meine Firma

Wo hast du am ESXI geschaut? Die normalen Log-Dateien vom Kernel usw.
Mal ein Update des ESXi auf 6.5U3 geprüft? Update könnte ich frühestens nächste Woche starten..
Passen die Treiber des ESXi zur eingesetten Hardware? Ja ist zertifiziert..

Gruß
em-pie
Member: em-pie
em-pie Mar 29, 2021 at 11:47:31 (UTC)
Goto Top
Tipp:
Bevor du auf die zitierten Fragen antwortest, einmal Enter drücken - dann gehen deine Antworten nicht unter face-wink

Mit meiner Frage, ob die ESXi-Hosts rebootet wurden meinte ich, ob die vor dem Ereignis (zufällig) neu gestartet sind. z.B. weil jemand am Stromkabel gespielt hat. Daher mal beim Anruf des Kunden direkt prüfen, wie die Uptime des Servers aussieht. Deckt sich das mit deinem letzten initiierten Neustart (also dann gestern) oder ist die Uptime kürzer?
eine Spannungsspitze könnte auch der auslöser sein oder ein Fehlverhalten der USV, die dem ESXi signalisiert "Achtung, wir laufen nun über Akku". Ist es im übrigen eine Offline, Online oder Line Interactive USV?

Stehen die Server in einem gesicherten Raum, wo nicht jeder dran kommt?
Ja da komme nur ich rein bzw. meine Firma
und sonst keiner, nicht mal der Geschäftsführer/ Inhaber deines Kunden - was macht der, wenn es deine Firma mal nicht mehr geben sollte (was ich natürlich nicht hoffe) - und warum hat dein Kunde keinen Zugriff auf seine eigenen Räumlichkeiten?
Waroauf ich hinaus will: ist ausgeschlossen, dass jemand zufällig nen Stecker gezogen hat?


Ferner:
Richte einfach "mal eben" einen Syslog-Server ein - das ist binnen einer halben bis dreiviertel Stunde (für ungeübte) erledigt und lasse den ESXi dorthin protokollieren. Der Syslog sollte natürlich nicht virtualisiert sein - zumindest nicht auf dem selben Host. Ein olles Notebook und eine Debian-VM (1GB Ram und 40GB Disk Space) reichen aus.
z.B.: https://www.laub-home.de/wiki/Syslog_Server_unter_Debian_Linux_mit_Rsysl ...
Member: GrueneSosseMitSpeck
GrueneSosseMitSpeck Mar 30, 2021 at 05:55:19 (UTC)
Goto Top
Hitzeabschaltung? Hab ich schon mal bei zu spärlicher Lüftung erlebt. Das sollte man im IPMI sehen.