macleod
Goto Top

HP Proliant DL380 G9 stürzt ab und fährt nicht mehr hoch

Hallo zusammen

Wir haben seit ein mehreren Wochen das kuriose Problem, daß ein HP Server ständig crasht. Fast immer in in Abständen von genau einer Woche zum ähnlichen Tageszeitpunkt.
Das blöde daran ist, daß er danach nicht mehr hochfährt, wenn man ihn nicht vom Stromnetz trennt für eine Zeit von etwa 20 Minuten.
Steckt man dann die Stecker wieder rein, fährt er ganz normal wieder hoch als sei nichts gewesen.

- HP Server DL380 G9
- 96GB RAM,
- 2 x E5 2680v4
- 4 x HP SAS 600GB als Raid5
- 2 x 500W Netzteile
- ESXi 6.0.0 3620759
- Der Server ist ca 4 Jahre alt
- Der Server steht frei, hat keinerlei Staub und die Lüfter laufen fast auf Minimum.

Auf dem ESXi laufen 4 Windows Server, ein Windows 10 Testclient, sowie die Powerchute appliance in der Version 4.3
- 1 x Server 2019 DC, DNS, Printspooler, DHCP, das übliche
- 1 x Server 2016 für Exchange 2016
- 1 x Server 2019 RDP Broker + Host
- 1 x Server 2019 RDP Host

Der Server zeigt im iLO einen Stromverbauch von ca. 260 Watt an

Der Server hängt schon immer an einer 1500er APC USV. Diese wurde vor 14 Tagen komplett erneuert ohne Erfolg
Es hängt noch ein Microserver und ein kleines NAS an der USV, die ohne Probleme weiterlaufen.

Was wir probiert haben.
- HP Firmware upgrade alles auf den neuesten Stand - kein Erfolg
- Netzteile getauscht auf 2 x 1400 Watt - kein Erfolg
- Cache Batterie getauscht - kein Erfolg
- Stromversorgung von Hardware controlled auf OS controlled hin und herprobiert - kein Erfolg
- Volle Leistung oder ausgewogen - kein Erfolg
- Alle Komponenten raus, Kontakte geprüft, gereinigt - kein Erfolg
- RAMs in den Steckplätzen getauscht - kein Erfolg
- Prozessoren vertauscht, Kühlpaste erneuert - kein Erfolg. Die Dinger sind selbst bei offenen Gehäuse nur mässig warm.
- Im Haus herumgesucht ob zu den Zeitpunkten irgendjemand in den anderen Büros Experimente am Strom macht. Ohne Erfolg. ist auch schon mal an einem Samstag Nachmittag passiert, wo sonst keiner da war.

Uns gehen jetzt die Ideen aus. Wir haben mit der Lupe das Mainboard untersucht auf defekte oder geplatzte Kondensatoren, ist aber nichts zu erkennen (von oben)

Wer hat einen Tipp? Bleibt eigentlich nur das Mainboard und die Prozessoren, oder?

Content-Key: 629802

Url: https://administrator.de/contentid/629802

Printed on: April 19, 2024 at 20:04 o'clock

Member: erikro
erikro Dec 09, 2020 at 16:18:37 (UTC)
Goto Top
Moin,

was sagen denn die Logs der ILO und des Hostsystems?

Ich würde da eher nicht auf einen HW-Fehler tippen.

Liebe Grüße

Erik
Member: Meierjo
Meierjo Dec 09, 2020 at 16:20:41 (UTC)
Goto Top
Hallo

Der Server hängt schon immer an einer 1500er APC USV.....

Schon mal probiert, direkt am Stromnetz anzuhängen, um einen eventuellen Fehler der USV auszuschliessen?

Gruss
Member: MacLeod
MacLeod Dec 09, 2020 updated at 16:39:27 (UTC)
Goto Top
Der Log vom Esxi ist leer bzw. beginnt erst wieder mit dem Neustart des Systems.
Der Log vom iLo sagt "Server Power removed"
Member: MacLeod
MacLeod Dec 09, 2020 updated at 16:39:42 (UTC)
Goto Top
Wir haben den Server mal direkt an den Strom gehängt, sogar an eine andere Phase - kein Erfolg
Mit handelsüblicher Knürr Steckdose direkt und dann auch mit einer APC Überspannungsleiste - kein Erfolg
Member: chgorges
chgorges Dec 09, 2020 at 16:55:00 (UTC)
Goto Top
Hi,
Support ist auf dem Gerät ja hoffentlich noch drauf. Als nächstes die Netzteilbackplane tauschen lassen.
Wie wurden die Firmwareupdates gemacht, per SPP oder manuell?
Bei ersterem sind einige Updates für Netzteile, HDDs, SPS, IE nicht enthalten.

VG
Member: keine-ahnung
keine-ahnung Dec 09, 2020 at 17:02:41 (UTC)
Goto Top
Moin,

wenn man ihn nicht vom Stromnetz trennt für eine Zeit von etwa 20 Minuten

bin nur Arzt, das könnte aber auf ein thermisches Problem hindeuten ... habt Ihr da noch maintenance auf der Büchse? Da könnte man mal das Active Health System Log aus dem ILO zum support beamen ...

LG, Thomas
Member: erikro
erikro Dec 09, 2020 at 17:08:50 (UTC)
Goto Top
Zitat von @MacLeod:

Der Log vom Esxi ist leer bzw. beginnt erst wieder mit dem Neustart des Systems.
Der Log vom iLo sagt "Server Power removed"

Sind beide Netzteile angeschlossen?
Member: Franz-Josef-II
Franz-Josef-II Dec 09, 2020 at 17:28:27 (UTC)
Goto Top
Servas

(Wichtige) Server kaufe ich prinzipiell mit möglichst langer Garantiezeit, 5 Jahre sind da die Untergrenze. Hast Du da noch Garantie oder ist die schon abgelaufen?

Ansonsten: Hast Du mehrere Server, sprich kannst Du die VMs verschieben? Dann tue es und laß den HP ohne irgendwas laufen. Dann die VMs einzeln rüber ....... verdammt jeweils eine Woche warten ist ....... ein bißchen lang face-wink

Gibt die Ereignisanzeige was her? Nicht nur vom Host, auch die der VMs.
Member: MacLeod
MacLeod Dec 09, 2020 updated at 17:36:06 (UTC)
Goto Top
- Support ist leider keiner mehr auf der Büchse. Hatte der Kunde nicht mitgeordert
- Updates wurden über SPP gefahren. SPP2020090.2020_0901.114.iso ist die letzte die mir angeboten wurde.
- Das Board scheint kein separates Power-Backplane mehr zu haben. Das geht direkt auf das Mainboard
Sieht man hier: https://www.servershop24.de/hpe-proliant-dl360-dl380/a-116751/?ReferrerI ...
Ist nur eine schwarze Schutzfolie die da drübergeschraubt ist. Nichts zum wechseln.
- Netzteile sind beide angeschlossen
Member: Franz-Josef-II
Franz-Josef-II Dec 09, 2020 at 17:43:43 (UTC)
Goto Top
Zitat von @MacLeod:>
- Support ist leider keiner mehr auf der Büchse. Hatte der Kunde nicht mitgeordert


Damit kann der Server nicht so wichtig sein face-wink Sprich Du hast Zeit ....... Wie schauts mit dem Platz auf anderen(?) Servern aus? Kannst was verschieben? Kannst irgendwo ein (Leih)Gerät auftreiben? Irgendwie den Zeitdruck herausnehmen.
Member: MacLeod
MacLeod Dec 09, 2020 at 18:24:31 (UTC)
Goto Top
Ist der einzige Server in dem Kleinbetrieb. Anschaffung war noch vom Vater des Inhabers. Der hatte ganz klar die Break+Fix Einstellung.
Zeit haben wir etwas, denn das Ding läuft ja immer eine Woche. Und die Netzteile kann auch die Sekretärin abstöpseln mittlerweile.
Ich werde ein neues Mainboard bestellen.
Danke an alle
Member: Franz-Josef-II
Franz-Josef-II Dec 09, 2020 at 19:41:51 (UTC)
Goto Top
Zitat von @MacLeod:
Ich werde ein neues Mainboard bestellen.


Die Frage ist halt nur, ob das wirklich das Mainboard ist.

Ein Gebrauchter kostet so um die 2.000er herum die 9.Generation gibts seit 2014, also 6 Jahre.

Ich würde entweder ein gebrauchtes gleichwertiges oder neueres Gerät mit Garantie nehmen (alles aus einer Hand) oder wenn ich schon Teile tausche nur solche die ich, wenn sich herausstellt, daß die doch nicht fehlerhaft sind entwerder zurückgeben oder anderwertig weiterverwenden kann.

Nichts ist für einen Kunden ärgerlicher als zahlen, zahlen und zahlen ...... und das wars doch nicht face-wink die Arbeitszeit mußt ja auch rechnen .... und da kommen schon ein paar Stunden zusammen.
Member: Archeon
Archeon Dec 10, 2020 at 06:08:51 (UTC)
Goto Top
Guten morgen,

was bedeutet denn bei dir der Server "crasht", in welchem Zustand befindet er sich dann?

Gruß
Member: nachgefragt
nachgefragt Dec 10, 2020 updated at 06:24:56 (UTC)
Goto Top
Zitat von @MacLeod:
Wir haben seit ein mehreren Wochen das kuriose Problem, daß ein HP Server ständig crasht.
Moin,
die Erfahrung kann ich bei einem Spezl ebenfalls teilen:
- der DL380 G9 Server fuhr aus dem nichts herunter und legte mal kurz das Unternehmen lahm
- der HPE Support ist eine eine mittlere Katastrophe
-- Firmware Update hast du eingespielt (ist ein bekanntes Problem)
-- Es ist wahrscheinlich, dass das Problem wieder auftreten kann, dann aber ist es ein Hardware Defekt.
Member: chgorges
chgorges Dec 10, 2020 at 15:57:40 (UTC)
Goto Top
Zitat von @nachgefragt:
-- Firmware Update hast du eingespielt (ist ein bekanntes Problem)

Er hat aber nur das SPP eingespielt, da fehlen ca. 50% Firmwareupdates. Heißt "Firmwareupdates installiert" zählt bei ihm nicht face-smile
Member: MacLeod
MacLeod Feb 01, 2021 at 10:20:25 (UTC)
Goto Top
Hallo
Vielen Dank für die einigen brauchbaren Kommentare und einen schönen Gruß an all die anderen, die nur hier sind um ihren Frust abzulassen.
Das Problem ist gelöst. Schon seit einiger Zeit.
Gelöst wurde es durch eine sehr zügige Übergabe vom Support Kaufpartner Deutschland, an den HP Support Deutschland, dann an die Zentrale in Bulgarien (glaube ich) bis hin zu einem Techniker in den USA. Die ganze Kette hat nicht mal 20 Minuten gedauert. So sollte es sein.

In Absprache mit diese Techniker wurden dann Active Health logs erstellt, und noch einmal versucht durch ein paar Tweaks im Bios etwas zu erreichen. In diesem Zusammenhang wurde auch festgestellt, dass alle Komponenten und Firmware auf dem neuesten Stand waren (an all die Meckerjungs da daußen) und auch das gebrandete Esxi Image war das letzte gültige von HP!
Hat leider keine Abhilfe gebracht. Festgestellte Ursache: Power Backplane des Mainboards ist defekt. Nicht mehr und nicht weniger. Das Backplane ist leider bei diesem Modell in das Mainboard integriert und kann nicht separat getauscht werden. Ursache gefunden; Techniker kam am nächsten Arbeitstag. Neues Mainboard kam durch UPS Express. 1 Stunde saubere Arbeit durch einen netten Techniker von CDS. Problem gelöst, Kiste rennt.

Das Mainboard wurde auch nach 4 1/2 Jahren noch komplett auf Kulanz getauscht weil es auf jeden HP mittlerweile automatisch 5 Jahre extended Support gibt!
So geht Support. Danke an HP