HP Server - Unerwarteter Restart - Kernel Power EventID 41
Hallo Zusammen,
ich habe ein kleines Problem mit einem Hardware Server (HP) bei mir in der Infrastruktur.
Das Betriebssystem startet jeden Tag den Server unkontrolliert neu.
Im Event-Log mit der ID 41 - Kernel Power.
Habe mich jetzt ein wenig eingelesen, aber noch nicht wirklich eine Idee..
Es handelt sich um ein Windows 2012 R2 Server mit allen Patches.
Der Server zeigt bei der Hardware keinen Fehler an, das Netzteil ist redundant ausgelegt.
Ich habe Euch mal im Anhang zwei Bilder beigefügt.
Der Restart erfolgt immer zu unterschiedlichen Zeiten, aber wirklich jeden Tag!
Bin Euch für jeden Tipp dankbar.
Liebe Grüße
Jochen
ich habe ein kleines Problem mit einem Hardware Server (HP) bei mir in der Infrastruktur.
Das Betriebssystem startet jeden Tag den Server unkontrolliert neu.
Im Event-Log mit der ID 41 - Kernel Power.
Habe mich jetzt ein wenig eingelesen, aber noch nicht wirklich eine Idee..
Es handelt sich um ein Windows 2012 R2 Server mit allen Patches.
Der Server zeigt bei der Hardware keinen Fehler an, das Netzteil ist redundant ausgelegt.
Ich habe Euch mal im Anhang zwei Bilder beigefügt.
Der Restart erfolgt immer zu unterschiedlichen Zeiten, aber wirklich jeden Tag!
Bin Euch für jeden Tipp dankbar.
Liebe Grüße
Jochen
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 338109
Url: https://administrator.de/forum/hp-server-unerwarteter-restart-kernel-power-eventid-41-338109.html
Ausgedruckt am: 23.12.2024 um 08:12 Uhr
27 Kommentare
Neuester Kommentar
Nichts wirklich ist wirklich nicht viel.
Was lief zuletzt bevor der Absturz kam?
Irgendwas in den Logs im BIOS?
RAM testen/tauschen, Netzteile tauschen, Platten checken/tauschen.
Temperatuen im Gehaeuse ok?
MainBoard pruefen ob eventuell Kondensatoren Mainzelmaennchen spielen.
Nase ans Gehaeuse und schnuppern. Ja man kann riechen ob irgendwas zu heiss wurde.
BFF
Was lief zuletzt bevor der Absturz kam?
Irgendwas in den Logs im BIOS?
RAM testen/tauschen, Netzteile tauschen, Platten checken/tauschen.
Temperatuen im Gehaeuse ok?
MainBoard pruefen ob eventuell Kondensatoren Mainzelmaennchen spielen.
Nase ans Gehaeuse und schnuppern. Ja man kann riechen ob irgendwas zu heiss wurde.
BFF
Ich hatte ein vergleichbares Problem auf meinem HP DL380 G7 (red. Netzteil á 700 Watt).
Bei mir wars die USV (APC 1500VA), die hatte ich überhaupt nicht in Verdacht, weil sie die Serverlast problemlos stützen
konnte. Es fiel mir nur zufällig folgendes auf:
Das Ding macht regelmäßig einen Check zur Beurteilung der Akku-Qualität. Dazu schaltet sie für einige Sekunden
auf Akku um. Manchmal war die Umschaltzeit ein klein wenig zu lange, sodass die Netzteile das nicht überbrücken konnten und der Server
neu startete. Es kann sich dabei nur um wenige Millisekunden gehandelt haben. Hab nicht schlecht geschaut, gerade ein Servernetzteil
sollte eigentlich mehr am Kasten haben... vor allem wenn ohnehin 2 drinstecken.
Das Problem hab ich dann dadurch gelöst, dass ich den Server auf eine mittlerweile 23 Jahre alte Emmerson Select 2000 gehängt habe (die Akkus sind natürlich nicht 23 Jahre alt gggg) und das alte Monsterteil ist halt noch russische Qualität und seitdem gabs keine Probleme mehr.
Von der APC 1500 hab ich drei Stück (alle Akkus ziemlich neu) bei allen gleiches Problem.
Bei mir wars die USV (APC 1500VA), die hatte ich überhaupt nicht in Verdacht, weil sie die Serverlast problemlos stützen
konnte. Es fiel mir nur zufällig folgendes auf:
Das Ding macht regelmäßig einen Check zur Beurteilung der Akku-Qualität. Dazu schaltet sie für einige Sekunden
auf Akku um. Manchmal war die Umschaltzeit ein klein wenig zu lange, sodass die Netzteile das nicht überbrücken konnten und der Server
neu startete. Es kann sich dabei nur um wenige Millisekunden gehandelt haben. Hab nicht schlecht geschaut, gerade ein Servernetzteil
sollte eigentlich mehr am Kasten haben... vor allem wenn ohnehin 2 drinstecken.
Das Problem hab ich dann dadurch gelöst, dass ich den Server auf eine mittlerweile 23 Jahre alte Emmerson Select 2000 gehängt habe (die Akkus sind natürlich nicht 23 Jahre alt gggg) und das alte Monsterteil ist halt noch russische Qualität und seitdem gabs keine Probleme mehr.
Von der APC 1500 hab ich drei Stück (alle Akkus ziemlich neu) bei allen gleiches Problem.
Hallo,
Das hier kennst Du?
http://h20564.www2.hpe.com/hpsc/doc/public/display?docId=emr_na-c035276 ...
Und schau Dir das MainBoard an. Nicht das da ein paar Kondensatoren Huete (ausgebeult sind) haben.
BFF
Das hier kennst Du?
http://h20564.www2.hpe.com/hpsc/doc/public/display?docId=emr_na-c035276 ...
Und schau Dir das MainBoard an. Nicht das da ein paar Kondensatoren Huete (ausgebeult sind) haben.
BFF
Hi
Das würde ich ändern über die bekommst du genauere Infos was mit deinem Server nicht stimmt. Wenn das zb. der ASR (Automatic Server recovery) ist dann wird der neustart durchgeführt weil der Server nicht mehr reagiert.
https://community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/ASR-Automatic-Ser ...
LG
Hallo,
Netzteile?
Ein Tipp war ja mal, das ASR zu deaktivieren weil dann der Server beim Blue Screen stehen bleibt.
https://community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/quot-ASR-Detected ...
Vielleicht siehst Du per Blue Screen mehr?
BFF
Netzteile?
Ein Tipp war ja mal, das ASR zu deaktivieren weil dann der Server beim Blue Screen stehen bleibt.
https://community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/quot-ASR-Detected ...
Vielleicht siehst Du per Blue Screen mehr?
BFF
Hi,
hast dur mal die korrekte Funktionalität der Lüfter im Server und in den Netzteilen überprüft?
Ich könnte mir vorstellen, dass da eine Abschaltautomatik zuschlägt.
Gruß
hast dur mal die korrekte Funktionalität der Lüfter im Server und in den Netzteilen überprüft?
Ich könnte mir vorstellen, dass da eine Abschaltautomatik zuschlägt.
Gruß
Hallo,
Das Du das Mainboard mal nach defekten Kondensatoren optisch pruefen solltest hab ich schon gesagt.
Mal einen Temperaturwaechter mitlaufen lassen waere ne Idee.
Ist das OS auf einem RAID? RAID-Kontroller pruefen, Platten pruefen, RAID-Log pruefen.
Und ich wuerde dennoch die Netzteile ansehen. Wenn die gut sind ist ok.
Haengt das Teil eigentlich immer nach einer bestimmten Zeit?
BFF
Das Du das Mainboard mal nach defekten Kondensatoren optisch pruefen solltest hab ich schon gesagt.
Mal einen Temperaturwaechter mitlaufen lassen waere ne Idee.
Ist das OS auf einem RAID? RAID-Kontroller pruefen, Platten pruefen, RAID-Log pruefen.
Und ich wuerde dennoch die Netzteile ansehen. Wenn die gut sind ist ok.
Haengt das Teil eigentlich immer nach einer bestimmten Zeit?
BFF
Zitat von @tweety2007:
Also ich habe jetzt mal ASR deaktiviert und der Server hängt sich wirklich auf.
aber ohne BlueScreen.
Alles reagiert extrem langsam, Programme öffnen sich nicht, ich konnte aus
der Windows-Ebene zwar Neustarten, aber das System hat sich dann nicht beendet.
Habt Ihr eine Idee?
Könnte es der RAM sein? Die Netzteile schließe ich eigentlich aus.
Also ich habe jetzt mal ASR deaktiviert und der Server hängt sich wirklich auf.
aber ohne BlueScreen.
Alles reagiert extrem langsam, Programme öffnen sich nicht, ich konnte aus
der Windows-Ebene zwar Neustarten, aber das System hat sich dann nicht beendet.
Habt Ihr eine Idee?
Könnte es der RAM sein? Die Netzteile schließe ich eigentlich aus.
Moin
Warum gehst du den von einem Hardwareproblem aus ? Das könnte auch ein Softwareproblem sein.
Wurden möglicherweise Updates installiert ? Ich würde erstmal das neueste Servicepack for Proliant installieren (SPP)
Damit kriegst du die neuesten treiber inkl Firmware. Dann würde ich nochmal Testen.
Wenn das Problem dann immer noch besteht würde ich einen Prozess Explorer starten um bei dem hängenbleiben zu sehen ob die Maschine überlastet ist bzw. welcher Prozess das verursacht oder ob nichts zu sehen ist.
LG
Hi,
wenn du mal nicht Nutzer hast, die gerne mal spielen und in der Wildnis umhersurfen:
Dateiname killt Windows
Probiere doch in einer "stillen Stunde" mal aus, ob der Server anfällig ist. Du musst allerdings nach dem Test mindestens 10 Minuten, evtl. länger warten!
Gruß
wenn du mal nicht Nutzer hast, die gerne mal spielen und in der Wildnis umhersurfen:
Dateiname killt Windows
Probiere doch in einer "stillen Stunde" mal aus, ob der Server anfällig ist. Du musst allerdings nach dem Test mindestens 10 Minuten, evtl. länger warten!
Gruß
Hallo,
Diese Erkenntnis kommt reichlich spaet. Und was meint "noch starten"?
Welches OS hat der Server? Von einer aelteren Version "upgegradet"?
BFF
Was komisch ist, dass alle Windows eigenen Programme. (Explorer, Computerverwaltung,..) noch starten.
Nur dritt Programme wie VMWare, der IE oder auch die HP eigenen Programme starten nicht.
Nur dritt Programme wie VMWare, der IE oder auch die HP eigenen Programme starten nicht.
Diese Erkenntnis kommt reichlich spaet. Und was meint "noch starten"?
Welches OS hat der Server? Von einer aelteren Version "upgegradet"?
BFF
Es handelt sich um ein Windows 2012 R2 Server mit allen Patches.
Steht in der Frage.@tweety2007
Meinst du nicht dass es mal Zeit wird, uns das Ergebenis der mehrfach vorgeschlagenen Überprüfung deiner Hardwarekomponenten mitzuteilen? Mit deinen Vermutungen kommst du nicht weiter!
Ok,
Und VMWare, IE etc. hinterlassen wirklich nix im Eventlog?
Das OS ist ein RAID? Was fuer eins? Platten wirklich i.O.?
Denn Tipp von @Ausserwoeger solltest Du beachten und tun.
BFF
Und VMWare, IE etc. hinterlassen wirklich nix im Eventlog?
Das OS ist ein RAID? Was fuer eins? Platten wirklich i.O.?
Denn Tipp von @Ausserwoeger solltest Du beachten und tun.
BFF
Ich sehe nur das Problem, dass du auf konkrete Hinweise keine konkreten Feedbacks lieferst.
Dir wurde doch genau beschrieben, was du prüfen solltest. Alles in Ordnung ist kein Feedback, mit dem man was anfangen kann.
Ich bin raus.
Dir wurde doch genau beschrieben, was du prüfen solltest. Alles in Ordnung ist kein Feedback, mit dem man was anfangen kann.
Ich bin raus.
Hi
was hast du genau für eine Serie (DL365Gen7.......)? Ich habe mir für meine drei "Workstations" mehrere Mainboards auf Lager gelegt. Bei den Gen8 sind die Power Backplanes teils recht schlecht und ein Hotplug hat da auch schon zum Versagen des OS (ESXi5.1) geführt, was ja eine Redundanzauslgeung gerade verhindern sollte. Der ilo (ILM) sollte da dein bester Freund sein und nach 25 Jahren Compaq verlasse ich mich da blind darauf. RAM Fehler würde der ilo auch via SMB mitbekommen; CPU/Chipsatz Fehler eher weniger. Auf die Win Fehlermeldung würde ich nett gesagt wenig geben...
Gruß
Sam
was hast du genau für eine Serie (DL365Gen7.......)? Ich habe mir für meine drei "Workstations" mehrere Mainboards auf Lager gelegt. Bei den Gen8 sind die Power Backplanes teils recht schlecht und ein Hotplug hat da auch schon zum Versagen des OS (ESXi5.1) geführt, was ja eine Redundanzauslgeung gerade verhindern sollte. Der ilo (ILM) sollte da dein bester Freund sein und nach 25 Jahren Compaq verlasse ich mich da blind darauf. RAM Fehler würde der ilo auch via SMB mitbekommen; CPU/Chipsatz Fehler eher weniger. Auf die Win Fehlermeldung würde ich nett gesagt wenig geben...
Gruß
Sam
Hi
einen DL380G7 habe ich auch als ColdSpare hier. Wenn du willst könnte ich ein Image von dir bei mir einspielen und damit mal testen ob der dauerhaft läuft?!
Was sagt denn das IML beim Fehlerzeitpunkt? Da wird jeder Fehler abgefangen und protokolliert. Ansonsten würde ich eher auf SW Fehler tippen (Treiber). Kannst du den Fehler reproduzieren oder forcieren?
Gruß
Sam
einen DL380G7 habe ich auch als ColdSpare hier. Wenn du willst könnte ich ein Image von dir bei mir einspielen und damit mal testen ob der dauerhaft läuft?!
Was sagt denn das IML beim Fehlerzeitpunkt? Da wird jeder Fehler abgefangen und protokolliert. Ansonsten würde ich eher auf SW Fehler tippen (Treiber). Kannst du den Fehler reproduzieren oder forcieren?
Gruß
Sam
Zitat von @tweety2007:
Den Tipp von @Ausserwoeger habe ich versucht, SPP ist aktuell.
Den ProzessExplorer kann ich leider nicht mehr starten, wenn der Fehler auftritt.
Den Tipp von @Ausserwoeger habe ich versucht, SPP ist aktuell.
Den ProzessExplorer kann ich leider nicht mehr starten, wenn der Fehler auftritt.
Hi
Ja is klar deswegen würde ich den Prozessexplorer vor dem fehler starten und geöffnet lassen dann solltest du ihn ja verwenden können oder nicht ?
LG Andy
Wenn ich das Topic lese: "startet unerwartet neu" hilft dir im Bestenfall ein Kerneldebugger (via OHCI/RS232) im Hintergrund, doch keine Ring0 App wenn ein NMI (der Logeintrag macht dies eher unwahrscheinlich) oder Kernel Trap (meine Vermutung; Ring0 Treiber) ausgelöst wurde (und damit auch Ring0 angehalten wurde) der dann zum Neustart führt....
@to: hast du schon mal den "Neustart bei Fehler" rausgenommen damit du den Moment aufgenommen hast?
@to: hast du schon mal den "Neustart bei Fehler" rausgenommen damit du den Moment aufgenommen hast?