ESXI 6.5 - VMs stürzen ab

Mitglied: philbrx

philbrx (Level 1) - Jetzt verbinden

29.03.2021 um 11:17 Uhr, 701 Aufrufe, 7 Kommentare

Hi Leute,

ich habe seit Wochen ein Problem mit dem ESXI Server beim Kunden.

Hier die Hard- und Softwareinfos für euch:

Supermicro X11 DPi-N(T)
16 CPU Intel Xeon Gold 6134
190 GB RAM
SSD-RAID

ESXI 6.5 Update 1 (Build 7388607)


5 VMs mit Windows Server 2019 (AD, File, Mail, DB, Test)


Problem:

Sporadisch ruft der Kunde an und sagt dass alles abgestürzt sei.
Ich schalte mich remote auf den ESXI und sehe dass alle Maschinen offline sind. Der ESXI ist weiterhin online.
Im Ereignisprotokoll der Server steht nichts weiter bis auf "unterwartet heruntergefahren".

Im Log vom ESXI kann ich leider auch nichts erkennen.

Ich hoffe auf Tipps von euch und danke schonmal im Voraus! :-) face-smile

Gruß Philipp
Mitglied: em-pie
29.03.2021 um 12:26 Uhr
Moin,

Seit wann besteht das Problem?
Was sagt das Log des IPMI?
Spannungsschwankungen am Ausgang der USV?
Ist der ESXi rebootet (Uptime checken) und startet die VMs nicht selbstständig?
Ist es immer die selbe Uhrzeit aber an "zufälligen" Tagen?
Stehen die Server in einem gesicherten Raum, wo nicht jeder dran kommt?

Wo hast du am ESXI geschaut?
Mal ein Update des ESXi auf 6.5U3 geprüft?
Passen die Treiber des ESXi zur eingesetten Hardware?

Gruß
em-pie
Bitte warten ..
Mitglied: cykes
29.03.2021 um 12:37 Uhr
Hi,

ich würde noch ergänzend fragen:
[...] und sehe dass alle Maschinen offline sind.
Was heißt "offline" genau? Ausgeschaltet/heruntergefahren oder laufen sie noch haben aber keine Netzwerkverbindung mehr?

Gruß

cykes
Bitte warten ..
Mitglied: Snagless
29.03.2021 um 13:18 Uhr
Hallo,

wenn es vorher gegangen ist, dann sollte es auch jetzt tun. Es sei denn man hat etwas verändert ;=)

So aus eigener Erfahrung würde ich zu aller erst mal einen RAM Test laufen lassen. Steht im Log der Datastores etwas drin. Netzteil redundant ? Stromversorung prüfen, Testlauf der USVs.

Solche Probleme kommen ja nicht von NICHR gemachten Udates, sondern eher weil was kaputt geht oder sich was verändert hat.
Bitte warten ..
Mitglied: philbrx
29.03.2021 um 13:33 Uhr
Hi Cykes,

danke für deine Antwort.

Sorry, offline bedeutet heruntergefahren.
Bitte warten ..
Mitglied: philbrx
29.03.2021 um 13:35 Uhr
Zitat von @em-pie:

Moin,

Seit wann besteht das Problem? Seit ca. 3 Wochen, es ist schon 5x passiert
Was sagt das Log des IPMI? Log sagt alles in Ordnung
Spannungsschwankungen am Ausgang der USV? Nein, USV in Ordnung
Ist der ESXi rebootet (Uptime checken) und startet die VMs nicht selbstständig? Neu rebootet gestern. VMs starten selbst
Ist es immer die selbe Uhrzeit aber an "zufälligen" Tagen? Nein, immer unterschiedlich
Stehen die Server in einem gesicherten Raum, wo nicht jeder dran kommt? Ja da komme nur ich rein bzw. meine Firma

Wo hast du am ESXI geschaut? Die normalen Log-Dateien vom Kernel usw.
Mal ein Update des ESXi auf 6.5U3 geprüft? Update könnte ich frühestens nächste Woche starten..
Passen die Treiber des ESXi zur eingesetten Hardware? Ja ist zertifiziert..

Gruß
em-pie

Bitte warten ..
Mitglied: em-pie
29.03.2021 um 13:47 Uhr
Tipp:
Bevor du auf die zitierten Fragen antwortest, einmal Enter drücken - dann gehen deine Antworten nicht unter ;-) face-wink

Mit meiner Frage, ob die ESXi-Hosts rebootet wurden meinte ich, ob die vor dem Ereignis (zufällig) neu gestartet sind. z.B. weil jemand am Stromkabel gespielt hat. Daher mal beim Anruf des Kunden direkt prüfen, wie die Uptime des Servers aussieht. Deckt sich das mit deinem letzten initiierten Neustart (also dann gestern) oder ist die Uptime kürzer?
eine Spannungsspitze könnte auch der auslöser sein oder ein Fehlverhalten der USV, die dem ESXi signalisiert "Achtung, wir laufen nun über Akku". Ist es im übrigen eine Offline, Online oder Line Interactive USV?

Stehen die Server in einem gesicherten Raum, wo nicht jeder dran kommt?
Ja da komme nur ich rein bzw. meine Firma
und sonst keiner, nicht mal der Geschäftsführer/ Inhaber deines Kunden - was macht der, wenn es deine Firma mal nicht mehr geben sollte (was ich natürlich nicht hoffe) - und warum hat dein Kunde keinen Zugriff auf seine eigenen Räumlichkeiten?
Waroauf ich hinaus will: ist ausgeschlossen, dass jemand zufällig nen Stecker gezogen hat?


Ferner:
Richte einfach "mal eben" einen Syslog-Server ein - das ist binnen einer halben bis dreiviertel Stunde (für ungeübte) erledigt und lasse den ESXi dorthin protokollieren. Der Syslog sollte natürlich nicht virtualisiert sein - zumindest nicht auf dem selben Host. Ein olles Notebook und eine Debian-VM (1GB Ram und 40GB Disk Space) reichen aus.
z.B.: https://www.laub-home.de/wiki/Syslog_Server_unter_Debian_Linux_mit_Rsysl ...
Bitte warten ..
Mitglied: GrueneSosseMitSpeck
30.03.2021 um 07:55 Uhr
Hitzeabschaltung? Hab ich schon mal bei zu spärlicher Lüftung erlebt. Das sollte man im IPMI sehen.
Bitte warten ..
Heiß diskutierte Inhalte
Off Topic
Realistische Gehaltsvorstellung für eine "IT-Allroundkraft"
gelöst JiggyLeeVor 19 StundenFrageOff Topic17 Kommentare

Hallo an alle, ich hege momentan den Wunsch mich von der alten verstaubten Behörden Bürokratie und langweiliger Aufgaben los zu lösen und in einem ...

Windows 10
Windows 10 Geschwindigkeitprobleme trotz viel mehr Gb Ram
Matthes88Vor 1 TagFrageWindows 1036 Kommentare

Hallo ihr lieben aaaalso : Da mein neuer Arbeitsspeicher (32gb) von meiner alten Windows 7 version (max mit 8gb kompatibel) nicht angenommen wurde, habe ...

Humor (lol)
Tipp: Dinge, die man besser nicht klaut
altmetallerVor 20 StundenTippHumor (lol)11 Kommentare

Hallo, so wurde meiner Hündin z.B. heute der (eingeschaltete) GPS-Tracker mit Mobilfunkanbindung quasi "direkt vom Halsband weggefunden". Akku hatte noch 60% :-P Und ich ...

Switche und Hubs
Suche Deutsche Sprachdatei für D-Link DGS-1210-24 D1 Switch
gelöst Oggy01Vor 1 TagFrageSwitche und Hubs8 Kommentare

Hallo, ich habe einen D-Link DGS-1210-24 Vers. D1 Switch bekommen und suche für diesen eine Deutsche Sprachdatei. Die Firmware ist auf dem aktuellen Stand ...

Windows Server
GPU Passthrough HYPER-V 2019
bintesVor 1 TagFrageWindows Server8 Kommentare

Hallo, ich habe ein ein Problem mit der Bereitstellung einer Grafikkarte an eine virtuelle Maschine. Hardware: - HPE ProLiant DL380 Gen9 V4 Rack Server ...

Video & Streaming
Videoaufnahme funktioniert nur bis zum ersten Reboot (0x80040217)
IllusionFACTORYVor 1 TagFrageVideo & Streaming11 Kommentare

Ich nehme über eine Video-Software von einem USB-Hardware-Encoder Video auf. Das funktioniert exakt bis zum ersten Reboot - danach bekomme ich beim Starten der ...

Windows Server
Windows Admin Center DC
maximidVor 1 TagFrageWindows Server3 Kommentare

Hallo, ich hätte mal eine Frage zu Windows Admin Center und zwar schaue ich es mir aktuell etwas an da mir die zentrale Verwaltung ...

SAN, NAS, DAS
Synology DS213j - Volume nach HDD Austausch vergrößern
gelöst JasperBeardleyVor 1 TagFrageSAN, NAS, DAS4 Kommentare

Moin, ich hab meinem NAS zwei neue 8TB spendiert, da die 3TB Platten jetzt 6 Jahre alt sind. Da die beiden Platten im JBOD ...