Server stürzt nach Firmwareupdate alle 3-4 Stunden ab!
DELL Poweredge 2950 (Win Server 2003) stürzt nach Firmwareupdate alle 3 - 4h ab. (Bildschirm friert ein, keine HDD - Zugriffe mehr).
Im Ereignisprotokoll sind keine Fehler eingetragen. Hardware ist in Ordnung.
Hallo zusammen.
Ich habe ein massives Problem mit zwei DELL PowerEdge Servern (PE2950).
Diese werden zur Archivierung von Produktionsdaten in einem industriellen Werk verwendet.
Das Archivierungssystem ist redundant aufgebaut, sodass bei Ausfall / Wartung, o.ä die Daten vom
2.Server weiterhin archiviert werden und sich gegenseitig im Betrieb abgleichen.
Die Server laufen seit fast drei Jahren ohne je ein Problem gehabt zu haben.
Angefangen hat alles mit dem Wunsch des Kunden den integrierten PERC 5i RAID Controller
um einen weiteren RAID 5 - Verbund zwecks HDD-Speichererweiterung aufzurüsten und in
diesem Schritt den Arbeitsspeicher von 2GB auf 4 GB zu erhöhen.
Vor Ort angekommen habe ich zuerst via OpenManage Administrator das System auf Fehler überprüft
und siehe da, bei beiden wurde gemeldet dass der Akku des RAID-Controllers fehlerhaft sei.
Was machen in einer solchen Situation: Den Support anrufen!
Anstatt die Batterien zum Austausch zu senden wird bei DELL allerdings nichts
unternommen so lange die Firmware nicht auf dem neusten Stand ist.
Step 1: Via Server Update Utility die Updates auf den Server gespielt.
Step 2: DELL sieht nun auch ein das die Akkus defekt sind und schickt diese zu!
Step 3: Akkus werden vor Ort getauscht und siehe da: Fehler ist weg.
Der 2. RAID Verbund sowie der Arbeitsspeicher ist mittlerweile auch installiert und
als neue Partition im Betriebssystem angelegt. Alles ohne Probleme, Fehlermeldungen, o.ä.!
Seit dem Update der Firmware (BIOS, RAID-Ctr., Netzwerkkarten, usw.) friert mir nun alle 3-4h
der Bildschirm ein. Die LEDs der Festplatten leuchten noch (Spannung) allerdings wird auf
die Festplatten nicht mehr zugegriffen. Der Server ist Stromseitig noch an, reagiert aber auf nichts mehr!
Einzige Lösung in diesem Zustand: Hardware-Reset.
Nach dem Neustart des Servers ist jedoch rein gar nichts im Ereignisprotokoll zu erkennen.
Also DELL Support erneut kontaktieren. Für den Support Mitarbeiter den gewünschten Hardware-Report
erstellt, worauf man als Antwort bekommt: Die Hardware ist vollkommen in Ordnung, Support Anfrage abgeschlossen!
Wer kann mir weiterhelfen?? Dringend!
Danke im Vorraus!
Im Ereignisprotokoll sind keine Fehler eingetragen. Hardware ist in Ordnung.
Hallo zusammen.
Ich habe ein massives Problem mit zwei DELL PowerEdge Servern (PE2950).
Diese werden zur Archivierung von Produktionsdaten in einem industriellen Werk verwendet.
Das Archivierungssystem ist redundant aufgebaut, sodass bei Ausfall / Wartung, o.ä die Daten vom
2.Server weiterhin archiviert werden und sich gegenseitig im Betrieb abgleichen.
Die Server laufen seit fast drei Jahren ohne je ein Problem gehabt zu haben.
Angefangen hat alles mit dem Wunsch des Kunden den integrierten PERC 5i RAID Controller
um einen weiteren RAID 5 - Verbund zwecks HDD-Speichererweiterung aufzurüsten und in
diesem Schritt den Arbeitsspeicher von 2GB auf 4 GB zu erhöhen.
Vor Ort angekommen habe ich zuerst via OpenManage Administrator das System auf Fehler überprüft
und siehe da, bei beiden wurde gemeldet dass der Akku des RAID-Controllers fehlerhaft sei.
Was machen in einer solchen Situation: Den Support anrufen!
Anstatt die Batterien zum Austausch zu senden wird bei DELL allerdings nichts
unternommen so lange die Firmware nicht auf dem neusten Stand ist.
Step 1: Via Server Update Utility die Updates auf den Server gespielt.
Step 2: DELL sieht nun auch ein das die Akkus defekt sind und schickt diese zu!
Step 3: Akkus werden vor Ort getauscht und siehe da: Fehler ist weg.
Der 2. RAID Verbund sowie der Arbeitsspeicher ist mittlerweile auch installiert und
als neue Partition im Betriebssystem angelegt. Alles ohne Probleme, Fehlermeldungen, o.ä.!
Seit dem Update der Firmware (BIOS, RAID-Ctr., Netzwerkkarten, usw.) friert mir nun alle 3-4h
der Bildschirm ein. Die LEDs der Festplatten leuchten noch (Spannung) allerdings wird auf
die Festplatten nicht mehr zugegriffen. Der Server ist Stromseitig noch an, reagiert aber auf nichts mehr!
Einzige Lösung in diesem Zustand: Hardware-Reset.
Nach dem Neustart des Servers ist jedoch rein gar nichts im Ereignisprotokoll zu erkennen.
Also DELL Support erneut kontaktieren. Für den Support Mitarbeiter den gewünschten Hardware-Report
erstellt, worauf man als Antwort bekommt: Die Hardware ist vollkommen in Ordnung, Support Anfrage abgeschlossen!
Wer kann mir weiterhelfen?? Dringend!
Danke im Vorraus!
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 139386
Url: https://administrator.de/forum/server-stuerzt-nach-firmwareupdate-alle-3-4-stunden-ab-139386.html
Ausgedruckt am: 09.01.2025 um 09:01 Uhr
15 Kommentare
Neuester Kommentar
Moin.
Habt ihr den bestehenden RAM denn mit exakt baugleichen Komponenten erweitert, wenn möglich vom gleichen Hersteller?
Gibt es zeittechnisch für Dich die Möglichkeit, eine (Last)Test des Speichers durchzuführen?
Was sagen denn die Temperaturwerte des Systems?
Die BBU läuft wirklich ohne Fehler? Das "riecht" nach einem Absturz des Controllers. Schonmal in die Logs des Controllers geschaut? Ist da irgend etwas zu finden?
Gruß
Habt ihr den bestehenden RAM denn mit exakt baugleichen Komponenten erweitert, wenn möglich vom gleichen Hersteller?
Gibt es zeittechnisch für Dich die Möglichkeit, eine (Last)Test des Speichers durchzuführen?
Was sagen denn die Temperaturwerte des Systems?
Die BBU läuft wirklich ohne Fehler? Das "riecht" nach einem Absturz des Controllers. Schonmal in die Logs des Controllers geschaut? Ist da irgend etwas zu finden?
Gruß
Hi,
wenn du die Möglichkeit hast, lass doch mal einen Memtest ein paar Stunden laufen.
Vielleicht liegts am neuen RAM den ihr nachgerüstet habt.
Zudem würde ich nachsehen ob die Bausteine vom gleichen Hersteller und vom gleichen
Modell sind.
ggf. mal die alten RAMs alle in einen der Server und die neuen RAMs in den 2. Server
und dann nochmal laufen lassen incl. Memtest.
Wenn das nichts hilft kannst du immernoch die Firmware downgraden oder das SP2 deinstallieren.
aber diese Schritte würde ich als letztes in Betracht ziehen.
Mfg.
wenn du die Möglichkeit hast, lass doch mal einen Memtest ein paar Stunden laufen.
Vielleicht liegts am neuen RAM den ihr nachgerüstet habt.
Zudem würde ich nachsehen ob die Bausteine vom gleichen Hersteller und vom gleichen
Modell sind.
ggf. mal die alten RAMs alle in einen der Server und die neuen RAMs in den 2. Server
und dann nochmal laufen lassen incl. Memtest.
Wenn das nichts hilft kannst du immernoch die Firmware downgraden oder das SP2 deinstallieren.
aber diese Schritte würde ich als letztes in Betracht ziehen.
Mfg.
Ok, dann dürfen/sollten wir RAM-Probleme mal ausschließen können (wobei - alles ist möglich).
Wenn keiner der Lüfter ausgefallen ist, sollten die Innentemperaturen auch ok sein.
Bliebe also nur der Controller und/oder die HDDs... Die Treiber des Controllers hast Du in Windows ebenfalls aktualisiert? Bei den DELLs habe ich fast immer nach dem Firmware-Update auch die Treiber aktualisieren müssen (früher ebenfalls PowerEdge-Server im Einsatz gehabt, momentan jedoch nur noch HP).
Ansonsten fiele mir nur noch ein: HDD (RAID) Stresstest außerhalb der Produktivzeit. Tools wären u.a. Everest, HeavyLoad, HD Tune, HDDScan...
Post scriptum: bei einem PE 2550 mit verbautem PERC 3D/i und U320 SCSI HDDs hatte ich mal ein ähnliches Problem. Da half nur ein murksiges Aufspielen der vorletzten Firmware.
Wenn keiner der Lüfter ausgefallen ist, sollten die Innentemperaturen auch ok sein.
Bliebe also nur der Controller und/oder die HDDs... Die Treiber des Controllers hast Du in Windows ebenfalls aktualisiert? Bei den DELLs habe ich fast immer nach dem Firmware-Update auch die Treiber aktualisieren müssen (früher ebenfalls PowerEdge-Server im Einsatz gehabt, momentan jedoch nur noch HP).
Ansonsten fiele mir nur noch ein: HDD (RAID) Stresstest außerhalb der Produktivzeit. Tools wären u.a. Everest, HeavyLoad, HD Tune, HDDScan...
Post scriptum: bei einem PE 2550 mit verbautem PERC 3D/i und U320 SCSI HDDs hatte ich mal ein ähnliches Problem. Da half nur ein murksiges Aufspielen der vorletzten Firmware.
@flo5780: das ging nicht aus Windows heraus, sondern nur mittels Boot-Floppy. Zum Ausführen und Erzwingen des "Down"grades mußten einige Switches gesetzt werden, welche kann ich Dir aber nicht mehr sagen, das ist schon einige Jährchen her
Ohne Floppy bzw. aus Windows heraus verweigerte das FlashTool das Aufspielen.
Ohne Floppy bzw. aus Windows heraus verweigerte das FlashTool das Aufspielen.
Hi !
Ich weiss, das hilft dir in deiner Situation nicht weiter aber glaube nicht immer was an den Hotlines der Hersteller so verzapft wird.. Ich mach den Job ja jetzt schon 20 Jahre und was mir da schon für Blödsinn unter gekommen ist, da könnte ich einen Roman drüber schreiben....
Erst letzte Woche hatte ich einen ähnlichen Fall mit einem anderen namhaften Hersteller. Es ging um einen Server mit Vor-Ort Service, der hatte einen (für mich sofort und klar ersichtlichen) Mainboardschaden. Der Mitarbeiter an der Hotline meinte, ich solle erstmal das OS neu installieren (Hä? Kopfkratz...)...Nach einer kleinen Diskussion über Fachkompetenz und einem 105 Dezibel-Schrei ins Telefon, lies er sich dann doch dazu bewegen, den Vor-Ort-Service mit einem Mainboard rauszuschicken. Der Vor-Ort Techniker brauchte ebenfalls keine fünf Minuten um festzustellen, dass der Fehler nur vom Mainboard kommen kann und wechselte es ohne eine weitere Diskussion aus. Der Server läuft seitdem wieder absolut stabil!
Und die Moral von der Gschicht: Glaube der Hotline nicht, zumindest nicht immer... An den Hotlines kannst Du Glück oder eben auch Pech haben und meiner Erfahrung nach überwiegt eher das Pech... Wie gesagt, der Fall oben ist nur ein Fall von vielen, zu vielen....
Ich an deiner Stelle hätte auf einer Lieferung der Akkus für den Raidkontroller bestanden, notfalls eben wieder mit 105 Dezibel und gut...
mrtux
Ich weiss, das hilft dir in deiner Situation nicht weiter aber glaube nicht immer was an den Hotlines der Hersteller so verzapft wird.. Ich mach den Job ja jetzt schon 20 Jahre und was mir da schon für Blödsinn unter gekommen ist, da könnte ich einen Roman drüber schreiben....
Erst letzte Woche hatte ich einen ähnlichen Fall mit einem anderen namhaften Hersteller. Es ging um einen Server mit Vor-Ort Service, der hatte einen (für mich sofort und klar ersichtlichen) Mainboardschaden. Der Mitarbeiter an der Hotline meinte, ich solle erstmal das OS neu installieren (Hä? Kopfkratz...)...Nach einer kleinen Diskussion über Fachkompetenz und einem 105 Dezibel-Schrei ins Telefon, lies er sich dann doch dazu bewegen, den Vor-Ort-Service mit einem Mainboard rauszuschicken. Der Vor-Ort Techniker brauchte ebenfalls keine fünf Minuten um festzustellen, dass der Fehler nur vom Mainboard kommen kann und wechselte es ohne eine weitere Diskussion aus. Der Server läuft seitdem wieder absolut stabil!
Und die Moral von der Gschicht: Glaube der Hotline nicht, zumindest nicht immer... An den Hotlines kannst Du Glück oder eben auch Pech haben und meiner Erfahrung nach überwiegt eher das Pech... Wie gesagt, der Fall oben ist nur ein Fall von vielen, zu vielen....
Ich an deiner Stelle hätte auf einer Lieferung der Akkus für den Raidkontroller bestanden, notfalls eben wieder mit 105 Dezibel und gut...
mrtux