butterbot
Goto Top

ESXi is abgestürzt

Moin Moin,

mir ist gerade mein selbstgebauter ESXi abgeschmiert und das relativ interessant.
Ich war am arbeiten und merkte das plötzlich alle VM's weg waren.
Also habe ich den Bildschirm welcher am ESXi angeschlossen ist, an gemacht und rote streifen mit grün, blau schnellbewegenden Punkten gesehen.
Als ich eine Tastatur angeschlossen habe, konnte ich jede Taste drücken die ich wollte, da tat sich nichts.
Nach ein paar Minuten hatte ich dann den Stecker gezogen und neugestartet.

img_1299

Dann habe ich mir die logs in /var/log/ gezogen und grob angeguckt, soweit konnte ich da nichts finden.
Die Logs haben ab einen gewissen Punkt einfach aufgehört und für mich nichts zum Googeln gefunden.


vmkernel.log
##### Das false RX lange detected on vmnic4 kommt so etwa 13581 mal in dem Log vor, seit dem der Server installiert wurde. Das ist die Haupt NIC, welche direkt auf dem Mainboard ist, vielleicht werde ich die meisten VM's mal auf eine andere Karte tun, welche per PCI angebunden ist. 

##### Dieses End path evaluation for device kommt auch etwa 33613 mal vor, seit dem der Server installiert wurde.

2023-02-15T22:17:12.171Z cpu4:2097729)INFO (ne1000): false RX hang detected on vmnic4
2023-02-15T22:21:56.517Z cpu9:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704H69
2023-02-15T22:21:56.517Z cpu9:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704J29
2023-02-15T22:21:56.517Z cpu6:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST10000NM001G2D2MW103________________________________ZS50LLKV
2023-02-15T22:21:56.519Z cpu6:2097423)StorageDevice: 7059: End path evaluation for device t10.NVMe____Samsung_SSD_980_500GB___________________5DE3D521D3382500
2023-02-15T22:21:56.519Z cpu6:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST10000NM001G2D2MW103________________________________ZS8029J3
2023-02-15T22:21:56.519Z cpu6:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR70MMLT
2023-02-15T22:21:56.519Z cpu6:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST2000DM0082D2UB102__________________________________ZFL5ZP6S
2023-02-15T22:21:56.519Z cpu9:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704K20
2023-02-15T22:21:56.519Z cpu9:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST4000VN0082D2DR166__________________________________ZDH53GJE
2023-02-15T22:21:56.519Z cpu9:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____CT1000MX500SSD1_________________________1946E227B4CB________
2023-02-15T22:21:56.519Z cpu9:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST2000DM0082D2UB102__________________________________ZFL5ZNCM
2023-02-15T22:21:56.519Z cpu9:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____Samsung_SSD_870_QVO_2TB_________________S5RPNF0R608341R_____
2023-02-15T22:21:56.519Z cpu9:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST4000VN0082D2DR166__________________________________ZDH5315T
2023-02-15T22:23:10.174Z cpu1:2097729)INFO (ne1000): false RX hang detected on vmnic4
2023-02-15T22:26:56.517Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704H69
2023-02-15T22:26:56.517Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704J29
2023-02-15T22:26:56.517Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST10000NM001G2D2MW103________________________________ZS50LLKV
2023-02-15T22:26:56.519Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.NVMe____Samsung_SSD_980_500GB___________________5DE3D521D3382500
2023-02-15T22:26:56.519Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST10000NM001G2D2MW103________________________________ZS8029J3
2023-02-15T22:26:56.519Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR70MMLT
2023-02-15T22:26:56.520Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST2000DM0082D2UB102__________________________________ZFL5ZP6S
2023-02-15T22:26:56.520Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704K20
2023-02-15T22:26:56.520Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST4000VN0082D2DR166__________________________________ZDH53GJE
2023-02-15T22:26:56.520Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____CT1000MX500SSD1_________________________1946E227B4CB________
2023-02-15T22:26:56.520Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST2000DM0082D2UB102__________________________________ZFL5ZNCM
2023-02-15T22:26:56.520Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____Samsung_SSD_870_QVO_2TB_________________S5RPNF0R608341R_____
2023-02-15T22:26:56.520Z cpu12:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST4000VN0082D2DR166__________________________________ZDH5315T
2023-02-15T22:31:56.517Z cpu6:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704H69
2023-02-15T22:31:56.517Z cpu6:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704J29
2023-02-15T22:31:56.517Z cpu11:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST10000NM001G2D2MW103________________________________ZS50LLKV
2023-02-15T22:31:56.519Z cpu11:2097423)StorageDevice: 7059: End path evaluation for device t10.NVMe____Samsung_SSD_980_500GB___________________5DE3D521D3382500
2023-02-15T22:31:56.519Z cpu5:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST10000NM001G2D2MW103________________________________ZS8029J3
2023-02-15T22:31:56.519Z cpu5:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR70MMLT
2023-02-15T22:31:56.519Z cpu5:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST2000DM0082D2UB102__________________________________ZFL5ZP6S
2023-02-15T22:31:56.519Z cpu5:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704K20
2023-02-15T22:31:56.520Z cpu5:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST4000VN0082D2DR166__________________________________ZDH53GJE
2023-02-15T22:31:56.520Z cpu5:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____CT1000MX500SSD1_________________________1946E227B4CB________
2023-02-15T22:31:56.520Z cpu5:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST2000DM0082D2UB102__________________________________ZFL5ZNCM
2023-02-15T22:31:56.520Z cpu5:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____Samsung_SSD_870_QVO_2TB_________________S5RPNF0R608341R_____
2023-02-15T22:31:56.520Z cpu5:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST4000VN0082D2DR166__________________________________ZDH5315T
2023-02-15T22:36:56.517Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704H69
2023-02-15T22:36:56.517Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704J29
2023-02-15T22:36:56.517Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST10000NM001G2D2MW103________________________________ZS50LLKV
2023-02-15T22:36:56.519Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.NVMe____Samsung_SSD_980_500GB___________________5DE3D521D3382500
2023-02-15T22:36:56.519Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST10000NM001G2D2MW103________________________________ZS8029J3
2023-02-15T22:36:56.519Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR70MMLT
2023-02-15T22:36:56.519Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST2000DM0082D2UB102__________________________________ZFL5ZP6S
2023-02-15T22:36:56.519Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST16000NM000J2D2TW103________________________________ZR704K20
2023-02-15T22:36:56.519Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST4000VN0082D2DR166__________________________________ZDH53GJE
2023-02-15T22:36:56.519Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____CT1000MX500SSD1_________________________1946E227B4CB________
2023-02-15T22:36:56.519Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST2000DM0082D2UB102__________________________________ZFL5ZNCM
2023-02-15T22:36:56.519Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____Samsung_SSD_870_QVO_2TB_________________S5RPNF0R608341R_____
2023-02-15T22:36:56.519Z cpu4:2097423)StorageDevice: 7059: End path evaluation for device t10.ATA_____ST4000VN0082D2DR166__________________________________ZDH5315T

##### Ab hier habe ich den Strom gezogen und wieder eingesteckt.

VMB: 65: Reserved 4 MPNs starting @ 0x4b9
EFI: 235: 64-bit EFI v2.70 revision 327697
VMB_ACPI: 632: No SPCR table found.
VMB_SERIAL: 264: Serial port set to default configuration.
VMB_MEMMAP: 2625: memmap: addr 0, len a0000, type 1
VMB_MEMMAP: 2625: memmap[1]: addr a0000, len 60000, type 2
VMB_MEMMAP: 2625: memmap[2]: addr 100000, len 9b7f000, type 1
VMB_MEMMAP: 2625: memmap[3]: addr 9c7f000, len 381000, type 2
VMB_MEMMAP: 2625: memmap[4]: addr a000000, len 200000, type 1
VMB_MEMMAP: 2625: memmap[5]: addr a200000, len e000, type 4
VMB_MEMMAP: 2625: memmap[6]: addr a20e000, len df2000, type 1
VMB_MEMMAP: 2625: memmap[7]: addr b000000, len 20000, type 2
VMB_MEMMAP: 2625: memmap[8]: addr b020000, len afced000, type 1


Kennt jemand dieses verhalten?

Liebe Grüße


System:
ESXi 7.0 Update 3
16 CPUs x AMD Ryzen 9 5950X 16-Core Processor mit Wasser Kühlung
80 GB RAM Corsair DDR4
Mainboard: ROG STRIX B450-F GAMING
NVMe SSD mit ESXi Betriebssystem drauf | Samsung_SSD_980_500GB
Crucial SSD mit VM's | CT1000MX500SSD1
Samsung SSD mit VM's | Samsung_SSD_870_QVO_2TB
Sonst noch Seagate HDD mit Daten für den FileShare

Content-Key: 5997345697

Url: https://administrator.de/contentid/5997345697

Printed on: May 2, 2024 at 08:05 o'clock

Member: Spirit-of-Eli
Spirit-of-Eli Feb 15, 2023 at 23:37:45 (UTC)
Goto Top
Moin,

schwer zu sagen was letztendlich der Auslöser war.
Für mich schaut das aus, als wenn die CPU oder das Board einen weg hat. Ist der Server ggf. zu heiß geworden?

Gruß
Spirit
Member: Pjordorf
Pjordorf Feb 15, 2023 at 23:43:17 (UTC)
Goto Top
Hallo,

Zitat von @ButterBot:
16 CPUs x AMD Ryzen 9 5950X 16-Core Processor mit Wasser Kühlung
Dein Kühler leckt face-smile
Entweder leckt dein Kühler , oder deine Grafikeinheit ist am abnippeln und probt schon mal den ausstand oder sonsteine Komponente versucht sich sich ins nirwana zu retten, oder ein Treiber spaxxt.

Gruß,
Peter
Member: ButterBot
ButterBot Feb 15, 2023 updated at 23:47:32 (UTC)
Goto Top
Zitat von @Spirit-of-Eli:

Moin,

schwer zu sagen was letztendlich der Auslöser war.
Für mich schaut das aus, als wenn die CPU oder das Board einen weg hat. Ist der Server ggf. zu heiß geworden?

Gruß
Spirit

Moin,

danke dir für deine Antwort.
Es is möglich dass das Mainboard einen weg hat.
Den Prozessor musste ich gerade frisch tauschen, ist jetzt ca. 2 Wochen alt.
Dieser ist mit einer Wasserkühlung und einem riesigem Radiator ausgestattet, da es ein Ryzen 9 5950X ist, lasse ich die Lüfter immer auf 100% laufen, daher dürfte der nicht zu heiß werden.
Ich habe im Moment immer eine Auslastung von 20% - 40% gehabt.

Hast du eine Idee wie ich das besser eingrenzen kann?
Den RAM hatte ich damals vor zwei Wochen auch komplett einzeln durchgetestet, Netzteil habe ich auch schon gewechselt.
Das waren damals so meine Ansätze.
Member: ButterBot
ButterBot Feb 15, 2023 at 23:48:55 (UTC)
Goto Top
Zitat von @Pjordorf:

Hallo,

Zitat von @ButterBot:
16 CPUs x AMD Ryzen 9 5950X 16-Core Processor mit Wasser Kühlung
Dein Kühler leckt face-smile
Entweder leckt dein Kühler , oder deine Grafikeinheit ist am abnippeln und probt schon mal den ausstand oder sonsteine Komponente versucht sich sich ins nirwana zu retten, oder ein Treiber spaxxt.

Gruß,
Peter

Moin,
ne die Kühlung leckt nicht, habe gerade geguckt, Wasser is auch noch genug drin.
Das mit der Grafikkarte is ne gute Idee, vielleicht probiere ich mal eine andere ;)
Danke dir
Member: StefanKittel
StefanKittel Feb 15, 2023 at 23:58:49 (UTC)
Goto Top
Moin,

das kommt so selten vor.
Wenn beim ESXi was in die Hose geht, gibt es den Pink-Screen mit Fehlercode.
Den hatte ich in den letzten 10 Jahren nur 1 mal (SSD defekt).

Das was Du da siehst, passiert wenn eine Anwendung in den RAM der GFX schreibt.
Also ist irgendwas ganz schiefgelaufen bei der Adressierung von Daten im RAM.

Das kann leider alles mögliche sein. Von defekt bis CPU/Board/RAM/ESX in der Kombination nicht kompatibel.
Sorry, kein einfacher Fix.

Stefan
Member: ButterBot
ButterBot Feb 16, 2023 at 00:34:11 (UTC)
Goto Top
Zitat von @StefanKittel:

Moin,

das kommt so selten vor.
Wenn beim ESXi was in die Hose geht, gibt es den Pink-Screen mit Fehlercode.
Den hatte ich in den letzten 10 Jahren nur 1 mal (SSD defekt).

Okay, bei dem selbstgebauten habe ich sicher schon mehr als 20 purple screen of death beim ESXi gesehen.
Zuerst war die HDD defekt, dann dies und das.
Alte IBM Rack Server laufen da irgendwie besser.

Das was Du da siehst, passiert wenn eine Anwendung in den RAM der GFX schreibt.
Also ist irgendwas ganz schiefgelaufen bei der Adressierung von Daten im RAM.

Okay, spannend, hätte nicht gedacht das man das so stark sieht.
Aber klar kein ECC RAM.

Das kann leider alles mögliche sein. Von defekt bis CPU/Board/RAM/ESX in der Kombination nicht kompatibel.
Sorry, kein einfacher Fix.

Alles klar, dann geht die Suche weiter, danke dir!

Stefan
Member: cykes
cykes Feb 16, 2023 at 05:46:52 (UTC)
Goto Top
Moin,

Du hast da ja ein buntes Sammelsurium an Hardware/Platten verbaut:
- HDDs: Seagate Barracuda, Ironwolf und Exos von 2 bis 16 TB
- SATA SSD, NVMe

Da muss nur eine querschiessen und das kann das ganze System runterreißen.

Aber mal zu dem CPU-Tausch: gleiche CPU neu gekauft oder andere? Danach ESXi neu installiert oder alte Installation weiter verwendet?

Hast Du irgendwelche der Platten/Controller in VMs durchgereicht? Ist die Grafikkarte in eine VM durchgereicht?

Grundsätzlich ist es bei Whitebox-Systemen (Selbstbau, keine Serverhardware aus der HCL) schwierig, solche Fehler zu analysieren, da meist für Storage und/oder die NIC community Treiber verwendet werden.

Gruß

cykes
Member: Bosnigel
Bosnigel Feb 16, 2023 updated at 07:03:51 (UTC)
Goto Top
Das sieht für mich übel nach Grafikkarte bzw. Grafiktreiber aus.

Auf einem NUC hatte ich genau dieses Bild. Damals waren die fehlerhaften Intel-Treiber in Verbindung mit Win 10 schuld.

Edit:
Nur weil deine Lüfter auf 100% laufen heist das noch nichts.
Läuft die Pumpe? Ist evtl. Luft im System?

Die Graka ist soweit ich das rauslesen kann nicht im Wakü-Kreislauf?

Edit2:
Das schöne bunte Bild - bewegt bzw. verändert sich das wenn du z.B. mit der Maus oder Tastatur spielst?
Member: silent-daniel
silent-daniel Feb 16, 2023 updated at 07:04:13 (UTC)
Goto Top
Welche ESX Version ist es?
Hast die VMware ESXi 7.0 Update 3j schon drauf?

16 CPUs x AMD Ryzen 9 5950X 16-Core Processor mit Wasser Kühlung
80 GB RAM Corsair DDR4
Mainboard: ROG STRIX B450-F GAMING
NVMe SSD mit ESXi Betriebssystem drauf | Samsung_SSD_980_500GB
Crucial SSD mit VM's | CT1000MX500SSD1
Samsung SSD mit VM's | Samsung_SSD_870_QVO_2TB
Sonst noch Seagate HDD mit Daten für den FileShare


Mit der Consumerhardware ist es sehr schwer den Fehler einzugrenzen. -> würde aber auch sagen RAM Grafikkarte...

Ich würde es laufen lassen, vielleicht nur eine einmalige Sache?
Mit der Hardware wird es eh keine Produktiv Maschine sein der? face-wink

gruß sd
Member: ukulele-7
ukulele-7 Feb 16, 2023 updated at 07:36:37 (UTC)
Goto Top
Der 5950X hat doch keinen Grafik Chip, hast du dann nicht noch eine dedizierte Grafikkarte verbauen müssen?

Die Darstellung kann natürlich auch Grüze sein weil der Monitor vorher nicht eingeschaltet war. Habe ich z.B. bei Displayport und älterem Monitor regelmäßig das Windows nicht klar kommt und die Darstellung einfach scheitert.

PS: ESXi 7.0 Update 3 ist ein sehr breites Feld und es gab ein paar Versionen die nicht empfohlen werden.
Member: Mr-Gustav
Mr-Gustav Feb 16, 2023 at 08:02:09 (UTC)
Goto Top
Du kannst ja mal versuchen die VM auszumachen welchen den Fehler verursacht. Eventuell stimmt auch was mit der Konfig einer VM nicht und die VM Versucht irgendwie direkt auf ein Karte/Hardware zuzugreifen da diese eventuell
nicht wirklich für die Virtualisierung gemacht sind.
Member: WoenK0
WoenK0 Feb 16, 2023 at 08:19:08 (UTC)
Goto Top
80GB RAM hören sich etwas suboptimal an...2x32 + 2x 8 ?

Wieviel Platz ist noch auf der SSD mit dem ESXI ?
Gabs da vor ein paar Wochen nicht eine Meldung das einige Intel NICs Hardware Fehler aufweisen die nicht durch ein Treiberupdate weggepatcht werden können ? (mich persönlich würde so ne Fehlermeldung selbst auf nen Testsystem unheimlich nerven :D )

Auf Grund erhöhter Sonnenerruptionen aktuell würde ich davon ausgehen das ein Bit im RAM geflippt ist :D
Member: ButterBot
ButterBot Feb 16, 2023 at 10:48:50 (UTC)
Goto Top
Zitat von @cykes:

Moin,

Du hast da ja ein buntes Sammelsurium an Hardware/Platten verbaut:
- HDDs: Seagate Barracuda, Ironwolf und Exos von 2 bis 16 TB
- SATA SSD, NVMe

Da muss nur eine querschiessen und das kann das ganze System runterreißen.

Ja, das stimmt.
Doch bis jetzt konnte eine Festplatte kaputt gehen, ohne das der Host ausstieg.
Ich habe sie dann im laufenden Betrieb gewechselt und alles lief weiter.

Aber mal zu dem CPU-Tausch: gleiche CPU neu gekauft oder andere? Danach ESXi neu installiert oder alte Installation weiter verwendet?

Ah, okay daran kann es liegen.
Ich meine aber, dass ich das ESXi Betriebsystem beim Prozessortausch auch neu installiert habe.
Ich hatte vorher einen Ryzen 7 und bin jetzt auf einen Ryzen 9 umgestiegen, also anderer Prozessor.
Vielleicht installiere ich das Betriebssystem noch einmal frisch neu.

Hast Du irgendwelche der Platten/Controller in VMs durchgereicht? Ist die Grafikkarte in eine VM durchgereicht?

Alle Festplatten bis auf die eine Crucial und die NVMe SSD wo das Betriebsystem des Hosts drauf ist, werden 1:1 durchgereicht und in den FileShare Server eingebunden.

Grundsätzlich ist es bei Whitebox-Systemen (Selbstbau, keine Serverhardware aus der HCL) schwierig, solche Fehler zu analysieren, da meist für Storage und/oder die NIC community Treiber verwendet werden.

Ja, das habe ich auch schon bemerkt, alte IBM Rack Server laufen ohne Probleme und Selbstbau Geschichten machen oft Probleme.
Member: ButterBot
ButterBot Feb 16, 2023 at 10:53:08 (UTC)
Goto Top
Zitat von @Bosnigel:

Das sieht für mich übel nach Grafikkarte bzw. Grafiktreiber aus.

Auf einem NUC hatte ich genau dieses Bild. Damals waren die fehlerhaften Intel-Treiber in Verbindung mit Win 10 schuld.

Okay, dann werde ich die mal Tauschen.

Edit:
Nur weil deine Lüfter auf 100% laufen heist das noch nichts.
Läuft die Pumpe? Ist evtl. Luft im System?

Das hatte ich auch schon überprüft, alles soweit in Ordnung.
Ich hätte mich etwas genauer ausdrücken sollen....

Die Graka ist soweit ich das rauslesen kann nicht im Wakü-Kreislauf?

Genau, das ist einfach eine Standard Grafikkarte welche nur Passiv gekühlt wird und so gut wie garnicht warm wird.

Edit2:
Das schöne bunte Bild - bewegt bzw. verändert sich das wenn du z.B. mit der Maus oder Tastatur spielst?

Ne, also doch...
Es bewegt sich von alleine sehr sehr schnell, also die grünen und blauen Punkte, die roten Streifen stehen.
Als ich die Tastatur angeschlossen hatte, wurde diese nicht einmal erkannt.
Ich konnte jede Taste drücken ohne das etwas passiert, er blieb im "Standby" Bildschirm und wechselte nicht auf den gelb schwarzen Bildschirm.
Ein Aus Knopf konnte auch nichts mehr bewirken, da half nur Stecker ziehen.
Member: ButterBot
ButterBot Feb 16, 2023 at 10:57:25 (UTC)
Goto Top
Zitat von @silent-daniel:

Welche ESX Version ist es?
Hast die VMware ESXi 7.0 Update 3j schon drauf?

Ja, genau ist die neuste ESXi 7 version.

16 CPUs x AMD Ryzen 9 5950X 16-Core Processor mit Wasser Kühlung
80 GB RAM Corsair DDR4
Mainboard: ROG STRIX B450-F GAMING
NVMe SSD mit ESXi Betriebssystem drauf | Samsung_SSD_980_500GB
Crucial SSD mit VM's | CT1000MX500SSD1
Samsung SSD mit VM's | Samsung_SSD_870_QVO_2TB
Sonst noch Seagate HDD mit Daten für den FileShare


Mit der Consumerhardware ist es sehr schwer den Fehler einzugrenzen. -> würde aber auch sagen RAM Grafikkarte...

RAM der Grafikkarte oder das RAM Modul auf dem Mainboard?
Die RAM Module hatte ich vor dem Tausch des Prozessors durchgetestet.

Ich würde es laufen lassen, vielleicht nur eine einmalige Sache?
Mit der Hardware wird es eh keine Produktiv Maschine sein der? face-wink

Ähhh, na ja....
Da die alten IBM Server so langsam sind, ist der Selbstbau Server schon ein Produktivsystem.

gruß sd
Member: ButterBot
ButterBot Feb 16, 2023 at 11:02:01 (UTC)
Goto Top
Zitat von @ukulele-7:

Der 5950X hat doch keinen Grafik Chip, hast du dann nicht noch eine dedizierte Grafikkarte verbauen müssen?

Ja, genau, ich habe einfach eine Grafikkarte genommen die ich noch da hatte.
Es ist eine: ASUS GeForce GT 730

Die Darstellung kann natürlich auch Grüze sein weil der Monitor vorher nicht eingeschaltet war. Habe ich z.B. bei Displayport und älterem Monitor regelmäßig das Windows nicht klar kommt und die Darstellung einfach scheitert.

Das Problem hatte ich tatsächlich noch nicht.
Ich habe den Bildschirm immer an, wenn ich den Host Starte, damit ich die richtige Auflösung habe.

PS: ESXi 7.0 Update 3 ist ein sehr breites Feld und es gab ein paar Versionen die nicht empfohlen werden.

Okay, gut zu Wissen
Member: Bosnigel
Bosnigel Feb 16, 2023 at 11:06:01 (UTC)
Goto Top

Ne, also doch...
Es bewegt sich von alleine sehr sehr schnell, also die grünen und blauen Punkte, die roten Streifen stehen.
Als ich die Tastatur angeschlossen hatte, wurde diese nicht einmal erkannt.
Ich konnte jede Taste drücken ohne das etwas passiert, er blieb im "Standby" Bildschirm und wechselte nicht auf den gelb schwarzen Bildschirm.
Ein Aus Knopf konnte auch nichts mehr bewirken, da half nur Stecker ziehen.

Jupp war beim NUC auch so nur das man da noch die Maus bewegen konnte und somit die Bewegungen beeinflussen konnte.
Member: ButterBot
ButterBot Feb 16, 2023 at 11:08:53 (UTC)
Goto Top
Zitat von @Mr-Gustav:

Du kannst ja mal versuchen die VM auszumachen welchen den Fehler verursacht. Eventuell stimmt auch was mit der Konfig einer VM nicht und die VM Versucht irgendwie direkt auf ein Karte/Hardware zuzugreifen da diese eventuell
nicht wirklich für die Virtualisierung gemacht sind.

Das könnte ich mal machen, ist nur die Frage welche VM den Fehler verursacht hat.
Die Logs scheinen relativ normal zu sein und hören dann abrupt auf, ohne irgendwelche Fehler zu protokollieren.
Das sind alles Ubuntu Server VM's und zwei Windows Maschinen, die Windows Maschinen liefen aber zu dem Zeitpunkt garnicht.


Zitat von @WoenK0:

80GB RAM hören sich etwas suboptimal an...2x32 + 2x 8 ?

Ja, genau, dass stimmt, nicht wirklich optimal.
Dass muss ich auch mal ändern, vielleicht nehme ich erstmal die 2x 8GB raus.

Wieviel Platz ist noch auf der SSD mit dem ESXI ?

Ich meine das es in etwa eine 256GB SSD ist und da dort nur das Betriebsystem drauf ist und der Datenstore von der Platte ist komplett leer.

Gabs da vor ein paar Wochen nicht eine Meldung das einige Intel NICs Hardware Fehler aufweisen die nicht durch ein Treiberupdate weggepatcht werden können ? (mich persönlich würde so ne Fehlermeldung selbst auf nen Testsystem unheimlich nerven :D )

Du glaubst nicht wie nervig das ist.
Vor ein paar Wochen hatte ich auch schon einen Hardware defekt und habe eine Woche lang nach dem Fehler gesucht, es gab immer wieder ein anderes Fehlerbild, bis ich bemerkte, dass der Prozessor durch ist.
Als der neue Prozessor dann eingebaut war und er zwei Wochen lang lief, war ich so erleichtert.
Und jetzt das....
Auf dem Host habe ich schon dutzende Purple Screen of death gesehen.

Auf Grund erhöhter Sonnenerruptionen aktuell würde ich davon ausgehen das ein Bit im RAM geflippt ist :D
😂, perfekt, dass weiß ich was zu tun ist.
Ich drehe den Server einfach um 180 Grad, dann sollte er wieder funktionieren.

Liebe grüße
Member: Bosnigel
Bosnigel Feb 16, 2023 at 11:13:16 (UTC)
Goto Top
😂, perfekt, dass weiß ich was zu tun ist.
Ich drehe den Server einfach um 180 Grad, dann sollte er wieder funktionieren.


Aber dann fällt doch die DVD raus! face-smile
Member: ButterBot
ButterBot Feb 16, 2023 at 11:18:06 (UTC)
Goto Top
Zitat von @Bosnigel:

😂, perfekt, dass weiß ich was zu tun ist.
Ich drehe den Server einfach um 180 Grad, dann sollte er wieder funktionieren.


Aber dann fällt doch die DVD raus! face-smile

Ahh, mist doch nicht so einfach
Member: WoenK0
WoenK0 Feb 16, 2023 at 11:54:30 (UTC)
Goto Top
Zitat von @ButterBot:
?

Ich meine das es in etwa eine 256GB SSD ist und da dort nur das Betriebsystem drauf ist und der Datenstore von der Platte ist komplett leer.


Wenn du nichts geändert hast dann laufen die Log Files doch in eine eigene Partition oder ? ist die vielleicht voll ?
Wie schauts mit den SMART Fehlern aus ?

Und beim RAM testen hab ich persönlich ehrlich gesagt irgendwie noch nie erlebt, das ein Memcheck mir einen Fehler bei Consumer RAM gemeldet hat (auch wenn dann im Windows die Hälfte nach dem Booten gefehlt hat). Wenn im BIOS XMP aktiv ist kanns zu einer zusätzlichen Fehlerquelle kommen.

Wenn die Kiste etwas stabiler laufen soll würde ich Ubuntu empfehlen :D
Da wird dann schon mal mehr Hardware unterstützt, reiner KVM Host ist auch recht schlank und wenn man nur eine handvoll VMs hat reicht der Virt-Manager vollkommen aus (nutz ich aktuell mit WSL2 und Mobaxterm).
Wenn es komplexer sein soll kann man sich ja mit Opennebula spielen.
Member: cykes
cykes Feb 16, 2023 at 17:27:17 (UTC)
Goto Top
Zitat von @ButterBot:

Hast Du irgendwelche der Platten/Controller in VMs durchgereicht? Ist die Grafikkarte in eine VM durchgereicht?
Alle Festplatten bis auf die eine Crucial und die NVMe SSD wo das Betriebsystem des Hosts drauf ist, werden 1:1 durchgereicht und in den FileShare Server eingebunden.
Ist das unbedingt nötig? Das erklärt zumindest die vielen "[...]End path evaluation for device [...]" Meldungen. Was setzt Du denn als Fileserver ein?
Member: ButterBot
ButterBot Mar 03, 2023 at 05:14:13 (UTC)
Goto Top
Zitat von @WoenK0:

Wenn du nichts geändert hast dann laufen die Log Files doch in eine eigene Partition oder ? ist die vielleicht voll ?
Wie schauts mit den SMART Fehlern aus ?

Ne, also klar kann sein, wenn der ESXi hochgefahren ist, ziehe ich mir einfach die Logs per "scp -rv ip:/var/log"
Wenn ich den Speicher dann per ssh mit dem Kommando "df -h" prüfe, ist die Festplatte an sich sehr leer, also noch sehr viel Speicher auf dem Boot Medium frei.

Und beim RAM testen hab ich persönlich ehrlich gesagt irgendwie noch nie erlebt, das ein Memcheck mir einen Fehler bei Consumer RAM gemeldet hat (auch wenn dann im Windows die Hälfte nach dem Booten gefehlt hat). Wenn im BIOS XMP aktiv ist kanns zu einer zusätzlichen Fehlerquelle kommen.

Das interessante war, dass ich den RAM Test ohne Veränderung der Hardware durchgeführt hatte unter Linux und direkt nach 1-2 Sekunden tausende Fehlermeldungen bekam.
Also hörte ich damit auf und nahm alle RAM Module raus und testete einen nach dem anderem, nachdem alle Fehlerfrei nach 1 Tag Arbeit durchgelaufen waren, hatte ich alle Module eingesetzt und den RAM Test erneut durchgeführt, da lief er dann komischerweise auch Fehlerfrei durch.

Ist XMP eine Übertaktungs Einstellung?
Mein BIOS (Asus ROG) hat nur D.O.C.P., ist aber soweit nicht in Benutzung, bzw. steht auf Auto.
Übertatet ist dort jetzt schon lange nichts mehr.

Wenn die Kiste etwas stabiler laufen soll würde ich Ubuntu empfehlen :D
Da wird dann schon mal mehr Hardware unterstützt, reiner KVM Host ist auch recht schlank und wenn man nur eine handvoll VMs hat reicht der Virt-Manager vollkommen aus (nutz ich aktuell mit WSL2 und Mobaxterm).
Wenn es komplexer sein soll kann man sich ja mit Opennebula spielen.

Joa, ich finde ESXi eigentlich ganz schön, ist am Ende ja auch nur ein Linux...
In den VM's nutze ich zu etwa 95% Linux Maschinen.
Member: ButterBot
ButterBot Mar 03, 2023 at 05:15:31 (UTC)
Goto Top
Zitat von @cykes:

Zitat von @ButterBot:

Hast Du irgendwelche der Platten/Controller in VMs durchgereicht? Ist die Grafikkarte in eine VM durchgereicht?
Alle Festplatten bis auf die eine Crucial und die NVMe SSD wo das Betriebsystem des Hosts drauf ist, werden 1:1 durchgereicht und in den FileShare Server eingebunden.
Ist das unbedingt nötig? Das erklärt zumindest die vielen "[...]End path evaluation for device [...]" Meldungen. Was setzt Du denn als Fileserver ein?

Joa, da ich die Festplatten gerne sauber in der VM drin hätte und sie im schlimmsten Fall der Fälle auch von einem normalen Linux lesen zu können ohne viel rumzuspielen.
Als Fileserver nutze ich einfach ein Ubuntu Server welcher die neuste Version hat.
Member: ButterBot
ButterBot Mar 03, 2023 at 09:11:57 (UTC)
Goto Top
Wie gehe ich mit den Logs vom ESXi in /var/log um?

Mir ist die Nacht wieder der Host abgeschmiert, keine VM war mehr erreichbar, jedoch hatte der Host noch ein Bild gesendet und hat reagiert.
Auf die Website kam ich auch noch, jedoch wurde ich direkt wieder rausgeworfen mit "Es ist ein Fehler aufgetreten" und sollte die Seite neu laden mit dem Button von der Meldung.
Das ganze hatte ich 8 mal gemacht und hatte danach mal den Ignorieren Button (glaube so hieß der) gedrückt und versucht eine laut System noch laufende VM anzuhalten, herunterzufahren und/oder direkt Auszuschalten.
Das hatte bei mehreren VMs nicht funktioniert.