ESXi Fehler eingrenzen anhand eines Pink-Screens

stefankittel
Goto Top
Hallo,

ich habe diesen Screenshot von einem Absturz eines ESXi erhalten.
whatsapp image 2022-04-15 at 10.23.06.

Es handelt sich um einen Fujitsu-Server der auf ESX-Liste steht und bisher ohne Auffälligkeiten lief.
Er stürzte an zwei aufeinanderfolgenden Tagen nachts ab.

Alle Tests waren negativ.
Seit 2 Wochen läuft er wieder störungsfrei.

Kann Jemand anhand des Screenshots eine Ursache eingrenzen?
RAM, NIC, NT/Strom, Storage?

Ich sehe ganz unten "no place on disk to dump data".
Der ESX bootet von einer 120GB SATA M2 SSD wo sonst nichts drauf ist.
Zu wenig Platz kann also nicht sein. Könnte also ein Fehler beim Zugriff auf die SSD sein.
oder lese ich da zu viel rein?

Stefan

Content-Key: 2665111170

Url: https://administrator.de/contentid/2665111170

Ausgedruckt am: 25.05.2022 um 07:05 Uhr

Mitglied: radiogugu
Lösung radiogugu 02.05.2022 um 12:32:03 Uhr
Goto Top
Hi.

Auf diversen VMWare Patch Release Seiten wurde daraufhingewiesen, dass dieses Problem wohl behoben wurde.

Für 7.0.1 habe ich das jetzt noch nicht explizit gelesen.

Gibt es einen verfügbaren Patch oder ist der Host auf dem neuesten Stand?

Gruß
Marc
Mitglied: em-pie
Lösung em-pie 02.05.2022 um 12:40:53 Uhr
Goto Top
Moin,

habe mir das filesystem eines ESXi noch nicht genauer angeschaut, aber gibt es für die logs eine eigene Partition? Wenn ja, wie voll ist die?
Mitglied: Nils02
Lösung Nils02 02.05.2022 um 13:04:41 Uhr
Goto Top
"No place on Disk" wird vermutlich der Übeltäter sein
Mitglied: Looser27
Lösung Looser27 02.05.2022 um 13:44:17 Uhr
Goto Top
Da steht aber schon noch mehr drin....Kernel Panic....FS Probleme....

Wie warm is es im Serverraum?
Mitglied: Trommel
Lösung Trommel 02.05.2022 aktualisiert um 17:11:05 Uhr
Goto Top
Moin,

den Bildschirm kenne ich ! War auch ein Fujitsu und ist alle paar Wochen mal aufgetreten - allerdings noch mit der 6.70, mehr ging nicht (Fujitsu VMware Image). Wir haben damals ein VMware Update gemacht wenn ich mich richtig errinere...

Evtl. mal den ESXi auf Stand bringen (sofern supported), deine Version 7.0.1 Build 16850804 ist 10/2020, aktuell ist 19482537.
https://customerconnect.vmware.com/patch

Trommel
Mitglied: cykes
Lösung cykes 02.05.2022 aktualisiert um 16:34:53 Uhr
Goto Top
Hi,

überprüfe mal die Energieeinstellungen sowohl im BIOS als auch im ESXi.
Kannst Du nachvollziehen, zu welcher Uhrzeit der PSOD auftrat, korrelliert das zufällig mit dem Backup. Ich hatte mal einen Fall, da war ein Bug im VMWare-Treiber für den SAS-Controller und genau zum Backup hat der sich verschluckt und auch einen PSOD geworfen.
Ansonsten sollten auch sämtliche Treiber für Storage, LAN/NIC und die Firmware der iRMC auf passendem Stand sein.

Gruß

cykes
Mitglied: ElmerAcmeee
Lösung ElmerAcmeee 03.05.2022 um 08:29:46 Uhr
Goto Top
Moin,
bei den FuSis ist das aus meiner Erfahrung heraus ein Treiberproblem. Einen echten Hardwareschaden der zu nem PSOD führte hatte ich bei ca 30 Servern noch nie.
Die o.g. ESXi Version ist von Oktober 2020. Da dürften mittlerweile auch TreiberUpdates gekommen sein.
Gruß
Mitglied: StefanKittel
StefanKittel 03.05.2022 um 09:56:40 Uhr
Goto Top
Ich probiere es demnächst mit einer aktuelleren Version von ESXi.
Danke für den Input

Btw. aktuell schnurrt die Kiste wieder...
Vieleicht auch Stromschwankungen durch die USV kombiniert mit ein paar EMP-Signalen und der aktuellen Planetenkonstelation...
Mitglied: Trommel
Trommel 03.05.2022 aktualisiert um 12:01:49 Uhr
Goto Top
Zitat von @StefanKittel:
Vieleicht auch Stromschwankungen durch die USV kombiniert mit ein paar EMP-Signalen und der aktuellen Planetenkonstelation...

Das wirds sein.. da drehen die Festplatten gleich falsch herum ;-) face-wink

Trommel