ESXi Host Crash beim Herunterfahren einer VM mit Passthrough
Hallo zusammen,
ich war vor Kurzem mit dem Problem konfrontiert, dass sich mein ESXi 6.7 U2 mit dem Purple Screen of Death verabschiedet hat, als ich eine VM heruntergefahren habe. Ich habe leider auf deutsch keine Beiträge gefunden, in denen das Problem gelöst wurde. Im Englischen gibt es dazu gefühlt hunderte Beiträge, bei denen ich 2 mit der 'Lösung' gefunden habe.
Zum Symptom:
Beim Herunterfahren der VM mit PCI-E Passthrough stürzt die VM und der Host (Purple Screen of Death) gemeinsam ab (Bild im Anhang)
Mein Testszenario:
HP DL 560 G8
Bios vom 24.05.2019 & Bios vom 30.06.2013
4x E5-4650L
128GB DDR3 ECC RAM
2x AMD Sky 500 für Passthrough
VMware ESXi 6.5 U2 & VMware ESXi 6.7 U1 & VMware ESXi 6.7 U2
2x HP Netzteil 750w
Grundlegende Informationen:
Das Problem tritt allen getesteten ESXi Konstellationen auf, woraufhin ich das Hostsystem nahezu ausgeschlossen habe. Laut anderen Berichten aus dem Netz, soll das Problem bei VMware ESXi 5.5 deutlich weniger auftreten, aber dennoch bei einigen vorhanden sein. Ich habe dies selbst leider nicht gegen geprüft.
Die verwendete Hardware scheint auch keine Rolle zu spielen, da unter anderen Comsumer Boards von MSI, sowie Systeme von Supermicro mit beteiligt waren.
Laut dem was ich gelesen habe begrenzt sich das Problem jedoch auf ältere PCI-E Geräte. Beispielsweise meine eingesetzte AMD Sky500 (baugleich AMD S7000), was die Generation Radeon HD 7700 HD 7800 ist. Andere hatten Probleme mit Consumer Karten der Radeon HD6700 & 6800 Serien, sowie mit AMD Karten aus der Fury Serie. Auch Nvidia Karten der GeForce 600er Serie kamen in einigen Beiträgen vor. Mit neueren Grafikkarten Generationen konnte ich keine Beiträge mit solchen Problemen finden. Auch betroffen sind Raid Controller, sowie Netzwerk Adapter. Bei diesen habe ich jedoch aktuell keine Auflistung. Sobald ich die Beiträge wieder finde und es jemanden interessiert, werde ich diese ergänzen.
Das Problem beschränkt sich auf den PCI-E Bus, der beim Beenden der VM scheinbar nicht vollständig zurückgesetzt wird. Dies führt zu einer fehlerhaften Kommunikation des PCI-E Gerätes bei der Übergabe an den Host. Unter Vorbehalt, da auch das nur von anderen Nutzern in anderen Foren geschrieben wurde und ich die Richtigkeit nicht überprüfen kann. Dies klingt jedoch für mich einleuchtend, weshalb ich es nicht vorenthalten wollte.
Die Problemlösung:
Eine offizielle Lösung seitens VMware, konnte ich leider nicht finden.
Als provisorische Lösung hat ein Nutzer geschrieben, dass unter Windows die Deaktivierung des Gerätes im Gerätemanager den Absturz des Hostsystems verhindert. Dies habe ich unter allen oben genannten ESXi Versionen mit beiden Bios Versionen getestet.
Ohne die Deaktivierung der Grafikkarte im Gerätemanager liegt die Absturzwahrscheinlichkeit bei ca. 90%. Seit der händischen Deaktivierung im Gerätemanager vor dem Herunterfahren der VM habe ich keine Abstürze in den Testreihen gehabt. Unter ESXi 6.5 U2 & ESXi 6.7 U1 waren es jeweils 3 Testläufe, die problemlos klappten. Da ich jedoch ESXi 6.7 U2 im täglichen Einsatz habe habe ich es hierbei entsprechend häufiger getestet. Hierbei verliefen die letzten 15 Versuche problemlos.
Zusatzinformationen:
Bis bei meinem Server das POST durchgelaufen ist vergehen mal locker 5 Minuten, dann noch der Boot des ESXi und der Virtuellen Maschinen. Bis alles für den Test Bereit ist vergehen Schnell mal 15-20 Minuten, sowie diverse Testeinstellungen im Bios. Insgesamt hat mich das Testen, sowie die Suche nach Informationen mehrere Tage gekostet. Daher dachte ich mit bevor es noch mehr von euch so geht wie mir, schreibe ich noch einen Beitrag hier im Forum.
Kurzer Disclaimer:
Ich habe davon selbst keinen Mehrwert und mache dies nach meiner Arbeit und habe sonst mit Administration oder Serversystemen nicht viel zu tun. Lediglich privates Interesse was mich dazu treibt.
Falls noch jemand dieses Problem hat, hoffe ich denjenigen damit helfen zu können und freue mich über Kommentare und Anregungen.
ich war vor Kurzem mit dem Problem konfrontiert, dass sich mein ESXi 6.7 U2 mit dem Purple Screen of Death verabschiedet hat, als ich eine VM heruntergefahren habe. Ich habe leider auf deutsch keine Beiträge gefunden, in denen das Problem gelöst wurde. Im Englischen gibt es dazu gefühlt hunderte Beiträge, bei denen ich 2 mit der 'Lösung' gefunden habe.
Zum Symptom:
Beim Herunterfahren der VM mit PCI-E Passthrough stürzt die VM und der Host (Purple Screen of Death) gemeinsam ab (Bild im Anhang)
Mein Testszenario:
HP DL 560 G8
Bios vom 24.05.2019 & Bios vom 30.06.2013
4x E5-4650L
128GB DDR3 ECC RAM
2x AMD Sky 500 für Passthrough
VMware ESXi 6.5 U2 & VMware ESXi 6.7 U1 & VMware ESXi 6.7 U2
2x HP Netzteil 750w
Grundlegende Informationen:
Das Problem tritt allen getesteten ESXi Konstellationen auf, woraufhin ich das Hostsystem nahezu ausgeschlossen habe. Laut anderen Berichten aus dem Netz, soll das Problem bei VMware ESXi 5.5 deutlich weniger auftreten, aber dennoch bei einigen vorhanden sein. Ich habe dies selbst leider nicht gegen geprüft.
Die verwendete Hardware scheint auch keine Rolle zu spielen, da unter anderen Comsumer Boards von MSI, sowie Systeme von Supermicro mit beteiligt waren.
Laut dem was ich gelesen habe begrenzt sich das Problem jedoch auf ältere PCI-E Geräte. Beispielsweise meine eingesetzte AMD Sky500 (baugleich AMD S7000), was die Generation Radeon HD 7700 HD 7800 ist. Andere hatten Probleme mit Consumer Karten der Radeon HD6700 & 6800 Serien, sowie mit AMD Karten aus der Fury Serie. Auch Nvidia Karten der GeForce 600er Serie kamen in einigen Beiträgen vor. Mit neueren Grafikkarten Generationen konnte ich keine Beiträge mit solchen Problemen finden. Auch betroffen sind Raid Controller, sowie Netzwerk Adapter. Bei diesen habe ich jedoch aktuell keine Auflistung. Sobald ich die Beiträge wieder finde und es jemanden interessiert, werde ich diese ergänzen.
Das Problem beschränkt sich auf den PCI-E Bus, der beim Beenden der VM scheinbar nicht vollständig zurückgesetzt wird. Dies führt zu einer fehlerhaften Kommunikation des PCI-E Gerätes bei der Übergabe an den Host. Unter Vorbehalt, da auch das nur von anderen Nutzern in anderen Foren geschrieben wurde und ich die Richtigkeit nicht überprüfen kann. Dies klingt jedoch für mich einleuchtend, weshalb ich es nicht vorenthalten wollte.
Die Problemlösung:
Eine offizielle Lösung seitens VMware, konnte ich leider nicht finden.
Als provisorische Lösung hat ein Nutzer geschrieben, dass unter Windows die Deaktivierung des Gerätes im Gerätemanager den Absturz des Hostsystems verhindert. Dies habe ich unter allen oben genannten ESXi Versionen mit beiden Bios Versionen getestet.
Ohne die Deaktivierung der Grafikkarte im Gerätemanager liegt die Absturzwahrscheinlichkeit bei ca. 90%. Seit der händischen Deaktivierung im Gerätemanager vor dem Herunterfahren der VM habe ich keine Abstürze in den Testreihen gehabt. Unter ESXi 6.5 U2 & ESXi 6.7 U1 waren es jeweils 3 Testläufe, die problemlos klappten. Da ich jedoch ESXi 6.7 U2 im täglichen Einsatz habe habe ich es hierbei entsprechend häufiger getestet. Hierbei verliefen die letzten 15 Versuche problemlos.
Zusatzinformationen:
Bis bei meinem Server das POST durchgelaufen ist vergehen mal locker 5 Minuten, dann noch der Boot des ESXi und der Virtuellen Maschinen. Bis alles für den Test Bereit ist vergehen Schnell mal 15-20 Minuten, sowie diverse Testeinstellungen im Bios. Insgesamt hat mich das Testen, sowie die Suche nach Informationen mehrere Tage gekostet. Daher dachte ich mit bevor es noch mehr von euch so geht wie mir, schreibe ich noch einen Beitrag hier im Forum.
Kurzer Disclaimer:
Ich habe davon selbst keinen Mehrwert und mache dies nach meiner Arbeit und habe sonst mit Administration oder Serversystemen nicht viel zu tun. Lediglich privates Interesse was mich dazu treibt.
Falls noch jemand dieses Problem hat, hoffe ich denjenigen damit helfen zu können und freue mich über Kommentare und Anregungen.
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 470915
Url: https://administrator.de/contentid/470915
Ausgedruckt am: 20.11.2024 um 17:11 Uhr
10 Kommentare
Neuester Kommentar
Moin,
bist Du Dir sicher, dass die AMD Sky 500 überhaupt vom ESXi unterstützt wird?
Im VMware Compatibility Guide kann ich hierzu ad hoc nichts finden:
https://www.vmware.com/resources/compatibility/search.php
Gruss
bist Du Dir sicher, dass die AMD Sky 500 überhaupt vom ESXi unterstützt wird?
Im VMware Compatibility Guide kann ich hierzu ad hoc nichts finden:
https://www.vmware.com/resources/compatibility/search.php
Gruss
Hi,
was macht die AMD Karte in dem Server denn? Eine Art 3D VDI oder nix?
Ansonsten hast du bereits selbst die Lösung geschrieben. Consumer Karten gehören per se schon mal nicht einen Server. Daher hinkt dein Vergleich mit älteren Radeon HDs oder Geforce's leider etwas. Ergo: AMD raus und eine Grakka rein die supportet ist.
Alles andere kann klappen, muss aber nicht. Da viele hier Server eher beruflich fahren, wird hier glaube ich auch weniger mit Grakkas in Servern rumgefrickelt. Oder haben wir hier ein paar Citrix 3D Experten? Aber selbst wenn fahren die ziemlich sicher auch nicht mit so alten (kleinen) Karten Da dreht man sich also im Kreis.
Gruß
Ex0r
was macht die AMD Karte in dem Server denn? Eine Art 3D VDI oder nix?
Ansonsten hast du bereits selbst die Lösung geschrieben. Consumer Karten gehören per se schon mal nicht einen Server. Daher hinkt dein Vergleich mit älteren Radeon HDs oder Geforce's leider etwas. Ergo: AMD raus und eine Grakka rein die supportet ist.
Alles andere kann klappen, muss aber nicht. Da viele hier Server eher beruflich fahren, wird hier glaube ich auch weniger mit Grakkas in Servern rumgefrickelt. Oder haben wir hier ein paar Citrix 3D Experten? Aber selbst wenn fahren die ziemlich sicher auch nicht mit so alten (kleinen) Karten Da dreht man sich also im Kreis.
Gruß
Ex0r