genschman
Goto Top

ProLiant DL360p Gen8 Host Ausfall

Hallo zusammen,

vielleicht hatte diesen Fehler jemand schon mal, der HP Support und die Techniker sind jedenfalls ratlos. Das alle Lampen blinken hatten Sie noch nicht face-sad

Getauscht wurde nun schon Board, Prozessor Arbeitsspeicher, doch bei hoher Auslastung Ausfall des Hostes. Es wurde auch alles mit neuen Updates versorgt.

Die Server die auf dem Host liefen wurden aber noch automatisch auf unseren Zweiten Host verschoben und gestartet.

Es läuft auf den Host´s VMware ESXI, 5.5.0, der zweite Host läuft seit 3 Jahren Problemlos.

Viele grüße Mike
fehler

Content-ID: 519926

Url: https://administrator.de/contentid/519926

Ausgedruckt am: 24.11.2024 um 20:11 Uhr

Looser27
Looser27 28.11.2019 um 09:44:39 Uhr
Goto Top
Moin,

sind die Netzteile in Ordnung?

Gruß

Looser
beidermachtvongreyscull
beidermachtvongreyscull 28.11.2019 um 09:59:49 Uhr
Goto Top
Moin,

Donnerwetter - sowas habe ich schon lange nicht mehr gesehen.
Ich hätte bei solch einem Weihnachtsbaum drauf bestanden, dass das Blech komplett getauscht wird, denn wenn eine solche Störung elektrischer Natur ist und danach sieht es für mich derzeit aus, dann wird jedes Austauschteil geradewegs nochmal gefährdet, wenn es sich um defekte Netzteile handeln sollte und das vermute ich auch.
ukulele-7
ukulele-7 28.11.2019 um 10:21:32 Uhr
Goto Top
Zitat von @genschman:

...doch bei hoher Auslastung Ausfall des Hostes.
Dem wird aber nicht zu warm oder? Kann ja eigenltich nicht wenn ein anderer, baugleicher Host direkt daneben die volle Last bewältigt.
genschman
genschman 28.11.2019 um 10:22:51 Uhr
Goto Top
Jupp Netzteile sind in Ordnung, auch schon getauscht
genschman
genschman 28.11.2019 um 10:25:09 Uhr
Goto Top
Klimaanlage, 18 Grad, alle Temperaturen waren weit unter den Kritischen, hatte gleiches Temperaturlevel wie der zweite Host.
maretz
maretz 28.11.2019 um 10:26:52 Uhr
Goto Top
Ich würde - so es der Support-Vertrag zulässt - einfach das gesamte Blech tauschen lassen. Ansonsten mal gucken ob die Lüfter OK sind und die Kiste nich einfach nur überhitzt. Und ggf. mal wirklich ALLES ausbauen und schauen ob du ggf. irgendwo nen Kontakt zum Mainboard hast den du nicht willst (die übliche tote Fliege zwischen Board und Blech ;) )
itisnapanto
itisnapanto 28.11.2019 um 10:28:17 Uhr
Goto Top
Moin ,

steht das Teil noch unter Wartung ?

Ansonsten wie beim klassischen PC auch .
Alles außer das Board selbst mit CPU/RAM versuchen zu starten . Und dann Step by Step Controller und Kabel usw anklemmen. Auch HDD's usw alles einzeln und bei jedem stecken einmal testen.

Irgendwann sollte es ja dann "knallen".


Gruss
genschman
genschman 28.11.2019 um 10:28:28 Uhr
Goto Top
da tut sich HP leider schwer, mittlerweile fast alle Bauteile gewechselt und aktuellen Firmware-stand, Voraussetzung für weiteres arbeiten mit HP face-smile im AHS Log sehen Sie leider auch nichts
genschman
genschman 28.11.2019 um 10:32:43 Uhr
Goto Top
Garantie-pack haben wir Techniker hat mit minimal Bestückung angefangen und dies getestet, dann bis alles drin war, hat einen CPU und Speicherlast test gemacht über zwei Stunden, es passierte nichts, aber dann nach diesmal 8 h Ausfall face-sad
itisnapanto
itisnapanto 28.11.2019 um 10:46:46 Uhr
Goto Top
Zitat von @genschman:

Garantie-pack haben wir Techniker hat mit minimal Bestückung angefangen und dies getestet, dann bis alles drin war, hat einen CPU und Speicherlast test gemacht über zwei Stunden, es passierte nichts, aber dann nach diesmal 8 h Ausfall face-sad

Fieses Problem. Dann würde ich den erstmal aus dem produktiven Umfeld und den HP Techniker so lange doctern lasse bis es rennt.
Wenn der es dann nicht hinbekommt, soll es vielleicht mal ein anderer Techniker versuchen.

Gruss
beidermachtvongreyscull
beidermachtvongreyscull 28.11.2019 um 10:47:42 Uhr
Goto Top
Ich hätte noch einen Verdacht...

Die Dinger haben ne ilO drin, richtig?
Ich könnte mir wenn auch abwegig vorstellen, dass der Fehler softwaregetriggert ist, also vom Betriebssystem ausgeht.

Ich hatte bis letztes Jahr auf VMware virtualisiert und hatte bei ESXi v5.x lange das Problem, dass meine VHosts (zwei DL360p Gen8) etwa alle 40 - 42 Tage mit Kernel Panic einfroren. Das konnte ich nur verhindern, wenn ich die Bleche innerhalb dieser Zeit neugestartet habe.

Erst nach Upgrade auf v6.5 habe ich da Ruhe rein bekommen. Der Fehler lag an einem defekten Paket, dass im HP-OEM-Image gesteckt hatte und mir nicht aufgefallen ist.

Auch Firmware-Updates brachten keine Lösung. Erst das Update des ClusterOS zeigte eine vermeintliche Ursache und brachte die Lösung.
jenni
jenni 28.11.2019 um 14:15:15 Uhr
Goto Top
Moin,

Kannst du sagen seit wann das Problem besteht?

Stromkabel getauscht und Steckdose?
Wobei ich davon ausgehe, dass das Teil an einer USV hängt.
Sagt der Log in der USV was?

Was befindet sich über dem Server was darunter?

hat der Serverraum einen eigenen Stromkreis?