ckbeats
Goto Top

HP ProLiant ML310 G5 Server fällt einfach aus - was kann das sein?

Hallo zusammen,

stehe seit ca. 2 Wochen nun vor einem immer größeren Problem am Domaincontroller, Backup- & Mailserver.

System
Produktname ProLiant ML310 G5
Prozessorpaket 1 (Steckplatz 1, Kern = 2) Intel Xeon Prozessor @ 2.33 Ghz
Betriebssystemumgebung Microsoft(R) Windows(R) Server 2003 für Small Business Server, Service Pack 2 (Build 3790)

System fällt auf ein Mal komplett aus.
Ist sporadisch, Zeit und Tag sind nicht gleich.

Geht dann auch nicht mehr sofort zum Einschalten.
Power-Leuchte leuchtet braun, Strom ist also da.
Nach ca. 10 Mal Power-Knopf drücken geht er wieder an, läuft ca. 2-3 Sekunden, geht dann wieder aus. Das mehrmals hintereinander. Dann fährt er irgendwann wieder ganz normal hoch.

Hatte einen Festplattenschaden vermutet. Aber das Abziehen einer der RAID-Platten bzw. alle abziehen hat keine Änderung gebracht.
Geht kurz an und sofort wieder aus.
Ansonsten ist noch ein DVD-Rom und ein DAT-160 Streamer verbaut, der Wechler hängt SCSI extern.

Habe Stromversorgung, USV Stecker, alles gecheckt. Hieran kann es nicht liegen.

Was könnte der Grund dafür sein.

Im Systemprotokoll steht nur
"Das System wurde unerwartet beendet".
Im Diagnoseprotokoll ist kein Fehler auf der Hardware verzeichnet, alle Speicher arbeiten einwandfrei, die Festplatten laufen auch problemlos.

Jemand eine Idee?
Bin für alles offen.
Bis auf einen Plattenschaden im Array 1 war bisher noch nie etwas gewesen, normalerweise läuft er 24/365 online.
Problem ist, wenn das System aussteigt steht im Betrieb alles. Mail, Netzwerk, die anderen Server können nicht angesprochen werden, da DNS ausgefallen etc.

HILFE!!

Content-ID: 207180

Url: https://administrator.de/contentid/207180

Ausgedruckt am: 24.11.2024 um 04:11 Uhr

CKbeats
CKbeats 28.05.2013 um 21:12:40 Uhr
Goto Top
Hier der Windows-Fehlereintrag:

Das System wurde zuvor am 28.05.2013 um 16:31:20 unerwartet heruntergefahren.

Weitere Informationen über die Hilfe- und Supportdienste erhalten Sie unter http://go.microsoft.com/fwlink/events.asp.
Lochkartenstanzer
Lochkartenstanzer 28.05.2013 um 21:13:44 Uhr
Goto Top
moin,

  • Netzteil?
  • defekte Kondensatoren auf dem Motherboard?

lks
CKbeats
CKbeats 28.05.2013 um 21:14:11 Uhr
Goto Top
Hier der vorige Eintrag:

Das System wurde zuvor am 27.05.2013 um 21:31:04 unerwartet heruntergefahren.

Weitere Informationen über die Hilfe- und Supportdienste erhalten Sie unter http://go.microsoft.com/fwlink/events.asp.
CKbeats
CKbeats 28.05.2013 um 21:16:09 Uhr
Goto Top
Zitat von @Lochkartenstanzer:
moin,

  • Netzteil?
  • defekte Kondensatoren auf dem Motherboard?

lks

Hoi,

danke für Deine schnelle Antwort.

Meinst Du, dass das Netzteil defekt ist und dann auf einmal wieder geht? Ich kenne nur defekt = Rechner aus.

Komisch ist eben, dass er danach wieder völlig normal hochfährt, als wenn nie etwas gewesen wäre und brav wieder seinen Dienst tut.
Beim Booten bekomme ich keinen Fehler etc., dass z. B. Spannung irgendwo nicht passt.
Lochkartenstanzer
Lochkartenstanzer 28.05.2013 um 21:21:00 Uhr
Goto Top
Zitat von @CKbeats:
Meinst Du, dass das Netzteil defekt ist und dann auf einmal wieder geht? Ich kenne nur defekt = Rechner aus.

Nein Defekt = "Ich funktioniere ein wenig, dann mache ich pause und kühle mcih ab und dann gehe ich mal wieder ein wenig, bis ich warmlaufe und ich keien Lust mehr habe udn dann tue ich so, als ob ich egehn würde udn gehe dann doch wieder aus." Oder so.


Komisch ist eben, dass er danach wieder völlig normal hochfährt, als wenn nie etwas gewesen wäre und brav wieder
seinen Dienst tut.

Thermisches Problem im netzteil oder auf dem Motherboard würde da passen.

Beim Booten bekomme ich keinen Fehler etc., dass z. B. Spannung irgendwo nicht passt.

das ist ja das gemeine an den dingern, daß sie ab und zu so tun, als ob sie gehen würden.

lks
DerWoWusste
DerWoWusste 28.05.2013 um 21:21:31 Uhr
Goto Top
Das beschriebene Verhalten passt gut auf Netzteile, die langsam sterben. Solltest Du sofort testhalber tauschen.
Rudbert
Rudbert 28.05.2013 um 21:33:20 Uhr
Goto Top
hallo,


wenn der server so wichtig ist, würde sich ein hp care pack empfehlen.


mfg
CKbeats
CKbeats 28.05.2013 um 21:33:36 Uhr
Goto Top
Zitat von @DerWoWusste:
Das beschriebene Verhalten passt gut auf Netzteile, die langsam sterben. Solltest Du sofort testhalber tauschen.

Okay okay.
Danke für die Info.
Habe neues Netzteil mal schnell geordert.
Hoffe, dass es spätestens übermorgen hier ist.

Werde nochmals in den Serverraum und schauen, ob der Lüfter am Netzteil geht... das habe ich nicht geprüft. Alle anderen "eiern" fleißig vor sich hin.
CKbeats
CKbeats 28.05.2013 um 21:38:13 Uhr
Goto Top
Zitat von @Rudbert:
hallo,


wenn der server so wichtig ist, würde sich ein hp care pack empfehlen.


mfg

Hi Rudbert,

danke für die Info.
Aber HP möchte für das Care Pack echtes Geld sehen.
HP hat hier beim letzten Defekt des DAT-160 mir das schon vorgeschlagen... und 2 Monate nach Garantieende null Kulanz... der nächste wird wieder IBM, das ist sicher.
Unser uralt Dell Power Edge 600 (nur noch als Backup-Server vorhanden) lief 12 Jahre ohne irgendetwas und wurde dann nur aus Leistungsgründen außer Dienst gestellt.

Da sämtliche Daten täglich gesichert werden, alle Platten als RAID laufen... nach dem Motto "was soll schon passieren". Bis vor ein paar Tagen.
Außerdem... für das Geld, was HP für 1 Jahr CarePack möchte kann ich nach 2 Jahren einen Server inkl. Installation in 24 Stunden bekommen.
Lochkartenstanzer
Lochkartenstanzer 28.05.2013 um 22:31:37 Uhr
Goto Top
Zitat von @CKbeats:

Habe neues Netzteil mal schnell geordert.
Hoffe, dass es spätestens übermorgen hier ist.

Bedenke aber, daß "Netzteil" nureine möglichek fehlerquelle ist. Kann genausogut das mainboard oder der Prozessor sein, das nicht mehr mag, wenn es zu warm wird (z.B. Elkos kaputt/gealtert).

lks
CKbeats
CKbeats 28.05.2013 um 22:47:06 Uhr
Goto Top
Zuerst einmal vielen herzlichen Dank für die schnelle Hilfe und die super Tips.

War nun oben und habe mir das Netzteil angeschaut.
Ich würde sagen, das ist die Ursache.

DerWoWusste hat mich hier super auf die Spur gebracht! Danke!

Hand hinten auf Lüfterauslass Netzteil - kommt nichts raus.
Reingeleuchtet - Lüfter dreht, aber anscheinend nicht mehr in der benötigten Geschwindigkeit.

Also kein Thema, Lüfter habe ich da. Netzteil auf. Mist. Lüfter passen nicht. Ist komische Größe, kein Standard-Lüfter.

Alles wieder zusammengebaut, eingeschaltet.
Schranktür bleibt nun offen, für Zuluft ist gesorgt.
Hoffe, dass das hält, bis das neue Netzteil da ist.

Vermute, dass das Netzteil irgendwann Hitzestau hat und thermischer Überlastungsschutz greift.
Bis ich dann am Gerät war, was jeweils ca. 1/4 - 1/2 Stunde dauerte, ging es dann nach kurzem Murren wieder an.

Lochkartenstanzer, ich hatte schon viele uralte und ewig gelaufene Systeme. Probleme mit dem Board oder Processor hatte ich noch nie. Weiß nicht, kann mich mit dem Gedanken nicht anfreunden.
Hoffe, dass es wirklich das Netzteil ist.

Gibt es nicht irgendwelche Fehler bevor der Rechner einfach ausgeht?
Wenn Prozessor oder Board Schaden genommen haben sollte es doch erst Softwareprobleme geben und dann Systemabsturz, oder?

Nicht einfach aus, so wie Stecker raus.

Die Hoffnung stirbt zuletzt, hoffen wir, dass es nur das Netzteil ist.
Schade nur, dass ich den Lüfter nicht ersetzen konnte...
DerWoWusste
DerWoWusste 28.05.2013 um 22:53:26 Uhr
Goto Top
Schön.
DerWoWusste hat mich hier super auf die Spur gebracht! Danke
Bitte, dank aber auch LKS, der hatte doch zuvor schon das Selbe vermutet.
...und rumschrauben an Netzteilen, selbst an ausgeschalteten, bitte immer mit Vorsicht genießen.
CKbeats
CKbeats 29.05.2013 um 08:41:23 Uhr
Goto Top
Zitat von @DerWoWusste:
...und rumschrauben an Netzteilen, selbst an ausgeschalteten, bitte immer mit Vorsicht genießen.

Selbstverständlich immer unter äußerster Vorsicht.
Hätte mir eigentlich klar sein müssen, dass hier keine Standard-Lüftermße verbaut werden.
Damit es ja unmöglich ist zu reparieren.
Coreknabe
Coreknabe 29.05.2013 aktualisiert um 09:00:19 Uhr
Goto Top
Moin,

noch eine Ergänzung zu den Beiträgen hier: Wenn Du ILO installiert hast, kann man auf den Kisten auch interessante Infos dort finden. In Deinem Fall steht z.B. was im IML (Integrated Management Log). Hier werden teils Fehler geloggt, die Windows mangels Anwesenheit nicht mehr mitbekommt.
Unter System Information finden sich auch Infos zu (Netzteil-) Lüftern und Co.
ILO kostet ein paar Euronen, ist's aber in jedem Fall wert!

Gruß
CKbeats
CKbeats 29.05.2013 um 10:17:21 Uhr
Goto Top
Guten Morgen Coreknabe,

HP integrated lights-out ist installiert.

Integrated Management Log über Abfrage HP Insight Diagnostics ist leer.
Das ist ja das Problem.
Gut, könnte mal heute Abend neustarten und ILO beim Booten aufrufen.
Vielleicht fällt ihm hier etwas ein.

Kannst Du mir sagen, wie ich online auf ILO komme?
Habe das System damals nicht installiert.
Der Kollege zeigte mir damals nur, wie toll ILO auf niedrigster Ebene läuft und er über seinen Laptop dem Server beim Booten zusehen kann.
Coreknabe
Coreknabe 29.05.2013 um 11:02:07 Uhr
Goto Top
Moin,

das ist das Problem, wenn Windows das Problem nicht mehr loggen kann, geht es logischerweise mit der unter Windows installierten Variante auch nicht mehr...

Du brauchst die IP des ILO, hat einen eigenen Netzwerkanschluss. Dann ist wahrscheinlich (und hoffentlich) ein Passwort nötig. Wenn Du das alles nicht weißt, bleibt Dir nur der Weg über Neustart und Aufruf der ILO-Konfig. In unserem Fall greife ich über HTTPS auf das ILO zu.

Gruß
CKbeats
CKbeats 29.05.2013 um 11:53:58 Uhr
Goto Top
Hi Corelknabe,

danke für die Rückinfo.
Dann werde ich heute Abend, wenn niemand mehr im Hause ist das System neustarten und nach den ILO Daten schauen.
Vielleicht finde ich hier auch noch ein paar Logs.

War noch nie in diesem Bootmenü, mal schauen, was es dort Interessantes gibt.
keine-ahnung
keine-ahnung 29.05.2013 um 13:29:22 Uhr
Goto Top
Zitat von @Coreknabe:
Du brauchst die IP des ILO
Vorausgesetzt, ILO ist konfiguriert ...face-wink.

LG, Thomas
CKbeats
CKbeats 29.05.2013 um 17:24:17 Uhr
Goto Top
Hatte in der Mittagspause kurz Zeit.
ILO war konfiguriert, sprach jedoch unter seiner angegebenen IP-Adresse nich an.
Nun läufts.
Auf DHCP umgestellt.

Hier sind die Ausfälle natürlich geloggt, aber ohne jede Angabe von Gründen.
Lt. ILO funktionieren Netzteil etc. einwandfrei.
Gut, der Netzteillüfter hat keinen Drehzahlsensor. Also selbst, wenn er gar nicht mehr dreht würde das nur einen Crash auslösen, aber keine Fehlermeldung erzeugt.

Hier sieht man, wie gut es ist redundante Netzteile zu haben...
Vorausgesetzt das Netzteil ist nun wirklich schuld.
Weasel1969
Weasel1969 30.05.2013 um 01:57:03 Uhr
Goto Top
Hy,

wie schaut es denn mit der BIOS FW aus ?
Hatte ein ähnliches Prob. mit nem DL380G6 .... die Büchse ist sporadisch gecrasht, einfach aus, keine Eventlogs , nix...
Anruf bei HP , Problem bekannt und eine neue BIOS FW aufgrund dessen installiert - danach war Ruhe.
Nur so als Frage ( oder Tip )

Gruß,
Andy
CKbeats
CKbeats 30.05.2013 um 10:16:05 Uhr
Goto Top
Guten Morgen Weasel,

die Firmware des BIOS ist nicht mehr up-to-date.
Wurde noch nie aktualisiert, ist mir gestern auch gekommen.
Aber für das FW-Update muss man eine Boot-CD erstellen. Das war mir zeitlich zu aufwändig.

Aber wie kann das BIOS die Ursache hierfür sein? Jahrelang ist der einzige Eintrag in ILO, dass die Systemzeit verstellt wurde und nun werden diese Meldungen beim Absturz geloggt:

Informational iLO 2 05/29/2013 16:16 05/29/2013 16:16 1 iLO 2 network link up at 100 Mbps.
Caution iLO 2 05/29/2013 16:16 05/29/2013 16:16 1 iLO 2 network link down.
Informational iLO 2 05/29/2013 16:16 05/29/2013 16:16 1 Server power restored.
Caution iLO 2 05/29/2013 16:16 05/29/2013 16:16 1 Server reset.

Also ist es doch das Netzteil, oder?!
keine-ahnung
keine-ahnung 30.05.2013 um 10:25:34 Uhr
Goto Top
Zitat von @CKbeats:
Aber für das FW-Update muss man eine Boot-CD erstellen.
Hmmh, erstens muss man dafür keine Boot-CD erstellen, dafür gibt es die ProLiant-Servicepacks. Und das Argument:
Das war mir zeitlich zu aufwändig.
lässt mich schon ein wenig an der Ernsthaftigkeit Deiner Bemühungen zweifeln.
Also ist es doch das Netzteil, oder?!
Wie kommst Du darauf?? Das kann alles und nichts gleichzeitig sein - liess Dir das einfach nochmal in Ruhe durch ...

LG, Thomas
CKbeats
CKbeats 30.05.2013 um 10:32:06 Uhr
Goto Top
Moin Thomas,

der FW-Download für o. g. System ist ein Programm, dass Dich fragt, ob Du Boot-Diskette oder -CD zum updaten der Firmware haben möchtest.

Danach werden die neuen FW-Dateien so aufbereitet, dass sie brennbar oder für Floppy geeignet sind.

Wenn das Bremslicht am Auto defekt ist behebe ich den Fehler nicht mit dem Ölwechsel....
Der Server lief jahrelang mit der FW Problemlos und auf ein Mal sollte diese Probleme machen - sehr unwahrscheinlich.
Das FW-Update ist auch nicht kritisch...
keine-ahnung
keine-ahnung 30.05.2013 um 10:53:06 Uhr
Goto Top
Zitat von @CKbeats:
Hi,
der FW-Download für o. g. System ist ein Programm, dass Dich fragt, ob Du Boot-Diskette oder -CD zum updaten der Firmware haben möchtest.
Davon habe ich auch nicht gesprochen, ich sprach vom aktuellen Proliant-Servicepack. Da brauchst Du das Gedöhns nicht, sollte auch noch für die G5 gehen ...
Wenn das Bremslicht am Auto defekt ist behebe ich den Fehler nicht mit dem Ölwechsel....
Wenn es das Bremslicht ist ... korrekt. Du weisst aber nicht, ob es das Bremslicht ist, die Einspritzpumpe oder ob Du nur den Wagenschlüssel Deiner Frau für Dein Auto benutzt face-wink
Der Server lief jahrelang mit der FW Problemlos und auf ein Mal sollte diese Probleme machen - sehr unwahrscheinlich.
Ein Beispiel aus meiner Berufserfahrung: 22 Jährige kommt zu mir in die Sprechstunde wegen anhaltender Übelkeit. HCG-Test ist positiv. Das Argument: ich war doch 22 Jahre lang nicht schwanger wäre da auch nicht so richtig schlüssig, gelle?
Das FW-Update ist auch nicht kritisch...
Woher weisst Du das??

LG, Thomas
Coreknabe
Coreknabe 30.05.2013 aktualisiert um 10:55:32 Uhr
Goto Top
Moin,

den Ablauf kenne ich anders, wie von Thomas beschrieben: PSP durchlaufen lassen, System wird auf Updates geprüft, kannst auch konfigurieren, was upgedatet werden soll. Dann wird alles runtergeladen und nach einem oder mehreren Neustarts installiert, so auch das BIOS.

Zum Thema Muss-Das-Sein: Wenn Du einen Supportvertrag bei HP hättest, käme als erstes die Frage des Supports nach aktuellen Treibern / BIOS / etc. Nicht aktuell? Dann reden die gar nicht weiter mit Dir, bevor Du das System nicht aktualisiert hast.
Das Argument, dass es jahrelang lief, zieht nicht. Trotzdem hast Du es ja mit einem "lebenden System" zu tun, Stichwort Windows-Updates, Austausch vorhandener DLLs usw. Ändert sich irgendwo etwas, kann das ja durchaus Wechselwirkungen nach sich ziehen. Und Omas Waschmaschine lief doch gestern auch noch. Bei der Gelegenheit würde ich auch gleich das ILO updaten, gibt sicher auch hier was Neueres.

Gruß
keine-ahnung
keine-ahnung 30.05.2013 um 12:36:37 Uhr
Goto Top
Zitat von @Coreknabe:
Bei der Gelegenheit würde ich auch gleich das ILO updaten, gibt sicher auch hier was Neueres.
Das macht das SP gleich mit ... face-wink

LG, Thomas
CKbeats
CKbeats 30.05.2013 um 17:24:09 Uhr
Goto Top
Hoi zusammen,

also nix HP Service Pack für ProLiant ML310 G5.
Alle Treiber für Storage, Network, ILO bzw. deren Firmware ist up to date.

Bin jetzt am BIOS updaten.
Geht anscheinend über USB Stick... dabei dabei.

Aber vermute immer noch das Netzteil.
Da ILO unabhängig vom Restsystem läuft und Stromausfall einträgt sollte es eher Hard- als Software sein.
CKbeats
CKbeats 30.05.2013 um 17:53:28 Uhr
Goto Top
Sodala... BIOS ist nun auch auf dem aktuellen Stand.
Mehr gibt es nicht zu aktualisieren.

Was mich interessieren würde:
Von Euch hat niemand zufällig so ein System oder Nachfolger online?
Die Abluft des Netzteillüfters ist null. Bei unseren anderen Systemen kann man sich hinten dran föhnen.
Kommt mir wirklich arg wenig vor.
Aber seit der Schrank offen ist fällt er auch nicht mehr aus.

Schönen Feiertag!
Grüße
Constantin
keine-ahnung
keine-ahnung 30.05.2013 um 18:11:35 Uhr
Goto Top
Ich habe hier noch einen ML310G5p am Laufen, da machen die Lüfter kaum mal einen Mucks - allerdings hat der jetzt auch nicht wirklich viel zu tun. Leider habe ich den derartig zwischen Schrank und Wand verbastelt, dass ich mit der Hand nicht hinter die Netzteile komme ... aber rein akustisch ist da Ruhe im Schacht.

Was sagt denn nun ILO zum Gesundheitszustand des Probanden ... oder immer noch nicht eingerichtet?

LG, Thomas
CKbeats
CKbeats 02.06.2013 um 21:03:47 Uhr
Goto Top
Hi Tomas,

ja, leise ist er. Der macht bei mir auch überhaupt keine Geräusche, hat er aber noch nie gemacht. Der IBM ist wesentlich lauter. Deswegen habe ich ihn noch nie gehört.

Also das neue Netzteil ist drin, seit Freitagabend.
Seitdem ist der Schrank wieder zu und ILO so konfiguriert, dass wenn wieder ausfällt nicht neustartet automatisch.
So merke ich auf jeden Fall, wenn er noch stehen bleibt.
Aber bisher still ruht der See. Er läuft wieder 24h ausfallfrei.

ILO hat schon immer "alles in Ordnung" angezeigt. Nur Meldung, dass Strom ausgefallen ist war im Log verzeichnet.
Das ist ja das Komische.
Immer, wenn ich die Protokolle angesehen habe war zwischen Speicher und Prozessor bis hin zum Netzteil alles in Ordnung.

Hoffe, dass es das jetzt war.

Viele Grüße

Constantin
Coreknabe
Coreknabe 02.06.2013 um 22:03:47 Uhr
Goto Top
Hi Constantin,

dann drücke ich mal die Daumen, dass jetzt alles OK ist. Noch eine Anmerkung: Es ist nicht immer schlau, den automatischen Neustart zu unterbinden. In Deinem Fall wird ja eh nichts geloggt, durch den Neustart ist zumindest gewährleistet, dass benötigte Dienste weiterlaufen, wenn auch mit Unterbrechung. Sofern die Windows-Installation nicht mal irgendwann beschädigt wird und Windows nicht mehr startet. Aber für solche Fälle gibt's ja sicher ein Backup face-wink

Also viel Glück und einen guten Start in die neue Woche!

Gruß
Lochkartenstanzer
Lochkartenstanzer 03.06.2013 um 07:59:17 Uhr
Goto Top
Zitat von @Coreknabe:
Es ist nicht immer schlau, den automatischen
Neustart zu unterbinden.

Genauso, wie es nicht immer schlau ist, Gleich automatisch neustarten zu lassen. face-smile

manchmal isrt es wichtier, durch einen Ausfall des Dienstes das recht schnell mitzubekommen, um besser diagnostizieren zu können, als wenn der Dienst weiterläuft.

Muß imho immer im Einzelfall entschieden werden.

lks
CKbeats
CKbeats 03.06.2013 um 22:05:50 Uhr
Goto Top
Hi ihr beiden!

Ich mache es so wie Lochkartenstanzer beschreibt.

Möchte unbedingt wissen, ob der Server nun wieder 24/365 läuft.
Bis dato toi toi.... er läuft!
Keinen Ausfall zu verzeichnen.
Der Lüfter des neuen Netzteils bringt weit mehr Luft raus, vermutlich war es Ausfall durch Überhitzung.

Hoffe, dass nun wieder Ruhe und Frieden im Serverraum herrscht.

Danke Euch vielmals für die Hilfe und brauchbaren Tipps!!
CKbeats
CKbeats 04.07.2013 um 09:07:30 Uhr
Goto Top
Hallo zusammen,
möchte noch abschließendes Feedback geben:

Seit dem Einbau des neuen Netzteils läuft er wieder ohne Unterbrechung 24 Stunden.
Selbst bei den hohen Außentemperaturen und den erhöhten Raumtemperaturen gab es keinerlei Schwierigkeiten.
ILO ist immer noch so eingestellt, dass es nicht neustartet, wenn Strom weg war.
Aber Server ist nie mehr down gewesen.
War also wirklich das Netzteil.

Ich vermute, dass aufgrund der wirklich geringen Abluft das Netzteil bei erhöhten Temperaturen einfach im Inneren zu heiß wird. Dadurch werden irgendwann Bausteine in Mitleidenschaft gezogen und der Trafo beginnt zu spinnen.

Werde evtl. mal das alte Netzteil mit einem neuen stärkeren Lüfter ausstatten und wieder testen.
Aber dazu benötigt es Zeit, die mir im Moment fehlt.

Euch allen vielen herzlichen Dank für die gute Hilfe!

Eine sonnige Sommerwoche wünscht

Constantin
CKbeats
CKbeats 23.03.2014 um 15:14:37 Uhr
Goto Top
Hallo zusammen,

darf ich diesen Thread nochmals herauskramen?

1/2 Jahr später war das gleiche Problem wieder da.
Maschine fiel einfach aus.
Danach habe ich in Absprache mit dem HP Support das Netzteil demontiert und auf 2 redundante Netzteile getauscht.
Auch hier war wieder kurzfristig Ruhe, bis der Server wieder ausfiel.

Im IML auch hier null Fehlerprotokollierung.

Heute Nacht das Gleiche wieder.
System abgeschaltet.

Vor exakt 14 Tagen der letzte Ausfall.

Sodala... wieder eingeschaltet. Bootet, fährt hoch.
Windows-Anmeldung, angemeldet. Desktop offen, sonst keine weiteren Fenster.

Wollte gerade an dem anderen Datenbankserver etwas schauen, auf einmal kommt Abmeldebildschirm.
"Einstellungen werden gespeichert"... Zack - aus.
Betriebssystem hatte sich nicht vollständig herunter gefahren. Aber Power aus.

Jetzt kommt also der Clou.
Es scheint gar kein Hardware Defekt vorzuliegen, sondern eine Softwareansteuerung bringt die Maschine runter.

Jetzt zu meinen neuen Fragen:

- Könnte das ein Fehler der USV Software (Schneider APC) sein?
- Fehlfunktion des Integrated Lights Out? (Hier gibt es einen virtuellen "Power-Button")
- Angriff von außen (Firewall hat nur Port 25 für Exchange SMTP und Port 144 umgeleitet auf 143 Exchange für IMAP4 offen; ansonsten noch Symantec Software-Firewall installiert)

Was oder wer kann das Betriebssystem zum Herunterfahren bringen und vor Beenden des Herunterfahren Vorgangs die Netzteile ausschalten?
keine-ahnung
keine-ahnung 23.03.2014 aktualisiert um 15:51:37 Uhr
Goto Top
Moin,
darf ich diesen Thread nochmals herauskramen?
ist IMHO nicht strafbewehrt face-wink.
Es scheint gar kein Hardware Defekt vorzuliegen, sondern eine Softwareansteuerung bringt die Maschine runter.
Da würde ich zumindest nicht Sack und Pfeife gleichzeitig drauf verwetten!
- Könnte das ein Fehler der USV Software (Schneider APC) sein?
Nicht ausgeschlossen - ich hatte einmal in 7 (!) Jahren den Fall, dass eine APC-USV (war damals noch über USB, nicht über LAN angeknüppert) den Server in den Glauben versetzt hat, er wäre ein Airbook und der Akku ist gleich alle ... sauberer shutdown und bezaubernd, wie bei mir alle Türen gleichzeitig aufgingen face-wink. Ich bin mir aber nicht mehr sicher, ob ich da nicht was in den Energieeinstellungen verkorkst hatte. Vermutlich schon ...
- Fehlfunktion des Integrated Lights Out? (Hier gibt es einen virtuellen "Power-Button")
Noch nie gehört ...
- Angriff von außen (Firewall hat nur Port 25 für Exchange SMTP und Port 144 umgeleitet auf 143 Exchange für IMAP4
Klingt ebenfalls nicht plausibel ....
Was oder wer kann das Betriebssystem zum Herunterfahren bringen
Dafür gibt es IMHO ein event log?

Wenn da nicht irgendwelche irren tasks auf der Büchse laufen, klingt das für mich bei dem Grossväterchen eher doch nach einem Spannungsproblem --> eventuell sind da Kondensatoren auf dem Bord am Verrecken.

LG, Thomas

Tante Edith sagt noch: ich hatte ein ähnliches Problem mal mit einem Esprimo, da hatte auch das Bord einen Treffer weg ....
CKbeats
CKbeats 23.03.2014 um 16:23:51 Uhr
Goto Top
Hi Thomas,

aber wie wahrscheinlich ist ein Defekt auf dem Board?

Es kann doch nicht sein, dass das Betriebssystem am Herunterfahren ist und währenddessen die Hardware den Strom abschaltet, ohne, dass ich irgendetwas gemacht habe.
Alle Clients im System sind am Sonntag aus, nur ein paar Drucker, IP Cameras etc. hängen am LAN.

Wenn irgendwelche Kondensatoren abrauchen wird doch nicht ein OS Shutdown ausgelöst?!

Im Windows Eventlog steht nur "Betriebssystem wurde unerwartet heruntergefahren".
Das Integrated Lights Out Log des HP Servers gibt keinerlei Fehler an.
System Overall Status: OK.
Fehler am Board, RAM, Prozessor, LAN, HD-Speicher etc... alles würde geloggt werden.
Er loggt sogar, wenn ich eines der redundanten Netzteile vom Strom trenne.

Ich werde daraus absolut nicht schlau.
Benötige den Server aber noch 2-3 Monate am Netzt, dann soll er ausgetauscht werden.

Viele Grüße und danke für Deine schnelle Antwort

Constantin
keine-ahnung
Lösung keine-ahnung 23.03.2014 aktualisiert um 17:27:49 Uhr
Goto Top
Hi,
Wenn irgendwelche Kondensatoren abrauchen wird doch nicht ein OS Shutdown ausgelöst?!
soll man nicht denken. Aber irgendwie sollte man bei dem ganzen PC-Gerassel nicht denken face-wink.
Er loggt sogar, wenn ich eines der redundanten Netzteile vom Strom trenne.
Hexen kann ILO auch nicht - wenn kein Saft auf dem Bord ist, ist ILO auch (schein-)tod. Das mit dem begonnenen shutdown ... keine-ahnung. Natürlich kannst Du jetzt wieder bei Null anfangen: scheduler checken, offline-Virencheck and so on, and so on ...
Ich werde daraus absolut nicht schlau.
In der Medizin sage ich immer, das Häufige ist häufig und das Seltene eher selten face-wink. Damit fährt man in 95% aller Lebenslagen schon mal gar nicht so schlecht ... und da Deine Kiste jetzt doch den Zenith schon überschritten hat - ich würde auf die Elko's tippen.
Benötige den Server aber noch 2-3 Monate am Netzt, dann soll er ausgetauscht werden.
Wenn Du mit den crash's leben kannst, warte halt solange. aber wenn da was in Richtung SQL oder MX läuft, hast Du Dir früher oder später eine Datenbank ausgerenkt ... da würde ich den Serverumzug doch etwas forcieren face-wink

LG, Thomas
CKbeats
CKbeats 23.03.2014 aktualisiert um 19:02:04 Uhr
Goto Top
Hi Thomas,

meinst Du wirklich, dass hier ein Board-Defekt vorliegt?
Schade... sehr enttäuschend.
Ich würde mich freuen, wenn es etwas anderes wäre.

Ist schon komisch, die Maschine ist gar nicht "soooo" alt.
Habe hier zu Hause noch ein Testsystem mit Win2000 laufen, der ist mit Sicherheit schon 10 Jahre alt.
Und läuft 24/365 fehlerfrei.

Gibt es zum Board testen ein Diagnose Programm?
Irgendwas, dass das Board unter Volllast setzt?

Ich möchte es einfach nicht wahr haben, dass so etwas passieren kann.
Vor allen Dingen sind die Ausfälle nicht regelmäßig. War teilweise alle Stunde mind. 1 mal, seit 14 Tagen am Stück gelaufen.
Das ist das, was ich nicht verstehe.


Tante Edit:
Kann es sein, dass sich ein Schaden am Board immer nur sporadisch bemerkbar macht?
Sprich, dass der Server z. B. 1/2 Jahr am Stück ohne Probleme läuft und dann geht es wieder los?
Nach dem Netzteiltausch war ja zuerst Ruhe bis vor Kurzem. Seitdem bekomme ich es nicht mehr in den Griff.
Schaue jetzt nach einem neuen Board, um das System noch stabil zu bekommen bis Ersatz gefunden und installiert wurde.
Lochkartenstanzer
Lochkartenstanzer 23.03.2014 um 19:06:45 Uhr
Goto Top
Zitat von @CKbeats:

Habe hier zu Hause noch ein Testsystem mit Win2000 laufen, der ist mit Sicherheit schon 10 Jahre alt.
Und läuft 24/365 fehlerfrei.

Früher war alles besser face-smile

irgendwo habe ich noch einen P90-Server herumstehen mit NT4 drauf. Den habe ich zwar seit mehreren Jahren nicht mehr eingeschaltet, aber ich wette, der würde heute noch wie eien 1 laufen.

Tatsache ist, daß durch die Preisoptimiererei das ganze Gedöns inzwischen nur noch so lange hebt, bis die Gewährleistung oder die Servicevertrag läuft. Früher haben Computer 20 jahre udn länger gehalten. heute kann man froh sein, wenn die 5 Jahre störungsfrei laufen.

lks
CKbeats
CKbeats 23.03.2014 um 19:09:11 Uhr
Goto Top
Also kann es wirklich auch sein, dass das Board einen Schaden hat, durch Zufall eine Zeitlang absolut stabil läuft und dann auf einmal wieder die Probleme von vorne beginnen?
Lochkartenstanzer
Lochkartenstanzer 23.03.2014 um 19:18:06 Uhr
Goto Top
Zitat von @CKbeats:

Also kann es wirklich auch sein, dass das Board einen Schaden hat, durch Zufall eine Zeitlang absolut stabil läuft und dann
auf einmal wieder die Probleme von vorne beginnen?

Leider.

Das Dumme ist, daß bei soclhen Fehlern , bei denen das Board nru ein bischen nicht geht. man sich winen Wolf sucht, wenn man keien passenden diagnosemglichkeiten hat. Nicht immer sieht man den Schaden direkt.

Letztendlich muß man ab einem gewissen alter udn Aufwand abwägen, ob für einen produktivbedtrieb das ganze Tragbar ist oder nicht. Sofern Du noch einen gültigen SDupportvertag für dioe Kiste hast, würde ich damit Hp löchern. Ansonsten vielleicht die Migration vorziehen.

lks
keine-ahnung
keine-ahnung 23.03.2014 um 19:47:43 Uhr
Goto Top
Ich weiss nicht mehr, was da in dem G5p für ein Bord verbastelt ist - mit ein wenig Glück ist das noch ein "Eindecker", da kannst Du zumindest mal schauen, ob Du irgendwelche aufgequollenen oder verfärbten Elko's findest ... Sicherheit gibt Dir allerdings ein negatives Ergebnis auch nicht.

Bei dem Bord in meinem 350G8 schau ich nur noch wie die Sau ins Uhrwerk - das Teil besteht IMHO aus zwei Schichten face-wink

LG, Thomas
CKbeats
CKbeats 24.03.2014 aktualisiert um 08:46:03 Uhr
Goto Top
Das Board ist meines Wissens nach ein Standard Einschichtboard. Kein "Doppeldecker".
Ich kann / will so etwas einfach nicht begreifen, dass solche Fehler durch defekte Bausteine an einem SERVER passieren können.
An einer 08/15 Workstation mirwegen oder irgendeinem Tablet.
Aber doch nicht an einem 24/365 Produktivserver.
Das darf doch nicht wahr sein.
Muss mal HP Support fragen... mal schauen, was da raus kommt.

Kurze Frage noch zum neuen Board:
Wenn ich das einbauen würde, was passiert mit dem RAID?
Der RAID-Controller ist ja auf dem Board integriert... was macht meine Config dann? Lädt der neue Controller mein RAID-1 von den HDD's?
Das Bios bekomme ich eingestellt. Das wäre nicht das Thema. Auch das ILO. Aber was machen meine Festplatten? Ich möchte nicht schon wieder einen Totalausfall...
keine-ahnung
keine-ahnung 24.03.2014 um 09:02:36 Uhr
Goto Top
Moin,
Das darf doch nicht wahr sein.
warum nicht? Irgendwann geht alles mal über den Jordan - uns eingeschlossen.
Wenn ich das einbauen würde, was passiert mit dem RAID?
Identisches Bord, identisches firmwarestand --> rennt.

LG, Thomas
gilligan
gilligan 08.05.2014 aktualisiert um 23:09:31 Uhr
Goto Top
Ich hatte genau das gleiche Problem, DL380G5p.
Bei mir war die APC defekt und hat den Saft abgedreht. So ein ML310 is aber mal nicht wirklich soooo toll..