Server Dell PowerEdge T310 Zweitmeinung Software-Hardware-Fehler
Liebe Forummitglieder
Da ich nicht mehr weiterkomme, möchte ich um Eure Hilfe bitten. Mir geht es quasi um eine vom Verkäufer unabhängige "Zweitmeinung".
Am 14.6.2011 kaufte ich bei Dell einen Server (Power Edge T310). Mit dem Server kaufte ich eine Garentieverlängerung bis 06/2014 (Reaktion am nächsten Geschäftstag… nicht mal die mails werden in dieser Frist beantwortet) und einen Pro-Suppurt.
Schon nach wenigen Tagen bekam auf dem Display eine Fehlermeldung bezüglich eines fehlerhaften Speicherchips (gelbes Display) .
Später (ca. 3 Monate nach Kauf) begannen dann Hardware-Crashs vom Feinsten: Innert Bruchteilsekunden schmierte der Server ab und bootete dann nicht mehr neu, sondern verblieb -unbemerkt auch tageweise - in einem Zustand mit maximal heulendem Lüfterbetrieb, ohne auch nur das Bios zu starten. Dieser undefinierte Zustand barg sicherlich Gefahren einer Überhitzung und eines Brandes, denn die maximale Drehzahl hält wohl kein Lüfter während mehrerer Tage durch. Dies interessierte den Dell - Support aber nur unmerklich. Wegen der permanenten Hardware-Crashs waren unsere sensiblen Daten massiv gefährdet (ich möchte hier nicht erwähnen um was für Daten es sich handelt…..Dell weiss es). Unser Geschäftsbetrieb lag fast lahm. Ich bekam die triviale Antwort, ich müsse halt Backups machen. Bei einem System, welches alle 2 Stunden so massiv abschmiert, dass es nicht mal das BIOS wieder hochfährt, nicht ganz einfach, da die Gefahr sehr gross ist, gute Daten mit korrupten Daten zu überschreiben.
Die Crashs waren übrigens zweiffellos von der Software unabhängig: Sie passierten auch während einer geöffneten Bios-Sitzung oder bei einer über eine CD gestarteten Linux-Sitzung, also ganz eindeutig Hardware-Fehler bei fast fabrikneuem Gerät.
Die Crashs waren in der Häufigkeit progredient, anfänglich sehr selten, schlussendlich mehrmals am Tag.
Es begann nun eine zähe Odyssee und Salamitaktik, gemäß Trial and error: Speicherchips wechseln, dann Mainboard - Wechsel, dann Wechsel der vorderen USB- Einheit.
Die Abstürze persistierten immer in gleicher Form, nämlich unabhängig vom Betriebssystem.
Nun kam der Vorschlag, das Mainboard ein 2. Mal zu wechseln. Ich war massiv erstaunt über diesen Vorschlag : In einem fabrikneuen Server soll nun das dritte !!!!!!!!!! Mainboard eingebaut werden?
Für mich war das eine irrationale Reaktion: Die rein statistische Wahrscheinlichkeit, dass in einem neuen Gerät 2 mal ein faules Mainboard eingebaut wird, ist in etwa so gross wie die Abräumung des Lotto-Jackpots. Viel grösser ist die Wahrscheinlichkeit, dass eine andere Komponente eben dieses Mainboard zerstört oder dass ein verbleibendes Teil, z.B. der Prozessor, die Ram-Chips, das Gehäuse (Erdung!!!) faul ist, die Spannungsversorgung ruckelt, vielleicht auch nur ein chinesisches Haar sich querstellt.
Ich verstand nicht, warum eine renommierte Firma ein solch offensichtlich massiv faules Gerät nicht zurücknimmt, um es im Detail zu untersuchen. Ich verstehe es nicht mal auf der monetären Ebene, da die Serviceeinsätze die ursprünglichen Kosten des Servers bereits um ein mehrfaches multiplizieren….
Anyhow….. und aus gesundem Menschenverstand heraus kaum zu glauben: Mit dem 3. Mainbaord war dann vorerst Ruhe. Der Server lief während ca. 8 Monaten anstandslos bis etwa Mitte Februar 2013. Änderungen außer den üblichen Updates (Windows, Acronis, Trend micro) waren keine durchgeführt worden.
Mitte Februar 2013 begann der Spuk von Neuem: Ebenfalls in der Häufung progredient kommt es wiederum zu Abstürzen. Im Februar einer, im März 4, nun 2-3 pro Tag.
Die jetzigen Abstürze werden nun jeweils mit einem Event-ID 41 protokolliert (bei den früheren konnte ich gar nichts erkennen). Dieses ID kann natürlich alles bedeuten und ist kein Beweis für einen Hardware-Fehler. Der Bug-Check-Code ist fast immer null, einmal sah ich ein 195, zweinmal ein 25.
Ein Minidump wird nicht erstellt. Auch Bluescreens erhalte ich nicht.
Aus der Vorgeschichte heraus, würde ich behaupten, dass das initiale Problem (faules Gerät) nicht behoben wurde. Die Abstürze sind nun aber klar anders und nicht mehr beweisbar hardwareabhängig: Zumindest bootet der Server nun wieder. Andererseits wurde das letzte Memory-Dump im Februrar geschrieben. Auch Bluescreens erhalte ich keine (das System wurde so eingestellt, dass der Server bei einem Bluescreen nicht automatisch hochfahrt, damit dieser erfasst werden könnte).
Ich bin kein Fachmann und wirklich ratlos und sehr dankbar um jede Meinung. Wie würdet ihr vorgehen?
Wie kann ich zum Beispiel das Event-ID 41 eingrenzen. Wie kann ich herausfinden, ob ein Software- oder Hardware-Fehler vorliegt?
Auf das 4. Mainboard habe ich ehrlich gar keine Lust. Da der Server mittlerweile fast ausgeweidet wurde, habe ich kein Vertrauen auf weitere Reparaturen. Ich fühle mich so ziemlich ausgeliefert....
Vielen Dank für eure Tipps.
Martin
Da ich nicht mehr weiterkomme, möchte ich um Eure Hilfe bitten. Mir geht es quasi um eine vom Verkäufer unabhängige "Zweitmeinung".
Am 14.6.2011 kaufte ich bei Dell einen Server (Power Edge T310). Mit dem Server kaufte ich eine Garentieverlängerung bis 06/2014 (Reaktion am nächsten Geschäftstag… nicht mal die mails werden in dieser Frist beantwortet) und einen Pro-Suppurt.
Schon nach wenigen Tagen bekam auf dem Display eine Fehlermeldung bezüglich eines fehlerhaften Speicherchips (gelbes Display) .
Später (ca. 3 Monate nach Kauf) begannen dann Hardware-Crashs vom Feinsten: Innert Bruchteilsekunden schmierte der Server ab und bootete dann nicht mehr neu, sondern verblieb -unbemerkt auch tageweise - in einem Zustand mit maximal heulendem Lüfterbetrieb, ohne auch nur das Bios zu starten. Dieser undefinierte Zustand barg sicherlich Gefahren einer Überhitzung und eines Brandes, denn die maximale Drehzahl hält wohl kein Lüfter während mehrerer Tage durch. Dies interessierte den Dell - Support aber nur unmerklich. Wegen der permanenten Hardware-Crashs waren unsere sensiblen Daten massiv gefährdet (ich möchte hier nicht erwähnen um was für Daten es sich handelt…..Dell weiss es). Unser Geschäftsbetrieb lag fast lahm. Ich bekam die triviale Antwort, ich müsse halt Backups machen. Bei einem System, welches alle 2 Stunden so massiv abschmiert, dass es nicht mal das BIOS wieder hochfährt, nicht ganz einfach, da die Gefahr sehr gross ist, gute Daten mit korrupten Daten zu überschreiben.
Die Crashs waren übrigens zweiffellos von der Software unabhängig: Sie passierten auch während einer geöffneten Bios-Sitzung oder bei einer über eine CD gestarteten Linux-Sitzung, also ganz eindeutig Hardware-Fehler bei fast fabrikneuem Gerät.
Die Crashs waren in der Häufigkeit progredient, anfänglich sehr selten, schlussendlich mehrmals am Tag.
Es begann nun eine zähe Odyssee und Salamitaktik, gemäß Trial and error: Speicherchips wechseln, dann Mainboard - Wechsel, dann Wechsel der vorderen USB- Einheit.
Die Abstürze persistierten immer in gleicher Form, nämlich unabhängig vom Betriebssystem.
Nun kam der Vorschlag, das Mainboard ein 2. Mal zu wechseln. Ich war massiv erstaunt über diesen Vorschlag : In einem fabrikneuen Server soll nun das dritte !!!!!!!!!! Mainboard eingebaut werden?
Für mich war das eine irrationale Reaktion: Die rein statistische Wahrscheinlichkeit, dass in einem neuen Gerät 2 mal ein faules Mainboard eingebaut wird, ist in etwa so gross wie die Abräumung des Lotto-Jackpots. Viel grösser ist die Wahrscheinlichkeit, dass eine andere Komponente eben dieses Mainboard zerstört oder dass ein verbleibendes Teil, z.B. der Prozessor, die Ram-Chips, das Gehäuse (Erdung!!!) faul ist, die Spannungsversorgung ruckelt, vielleicht auch nur ein chinesisches Haar sich querstellt.
Ich verstand nicht, warum eine renommierte Firma ein solch offensichtlich massiv faules Gerät nicht zurücknimmt, um es im Detail zu untersuchen. Ich verstehe es nicht mal auf der monetären Ebene, da die Serviceeinsätze die ursprünglichen Kosten des Servers bereits um ein mehrfaches multiplizieren….
Anyhow….. und aus gesundem Menschenverstand heraus kaum zu glauben: Mit dem 3. Mainbaord war dann vorerst Ruhe. Der Server lief während ca. 8 Monaten anstandslos bis etwa Mitte Februar 2013. Änderungen außer den üblichen Updates (Windows, Acronis, Trend micro) waren keine durchgeführt worden.
Mitte Februar 2013 begann der Spuk von Neuem: Ebenfalls in der Häufung progredient kommt es wiederum zu Abstürzen. Im Februar einer, im März 4, nun 2-3 pro Tag.
Die jetzigen Abstürze werden nun jeweils mit einem Event-ID 41 protokolliert (bei den früheren konnte ich gar nichts erkennen). Dieses ID kann natürlich alles bedeuten und ist kein Beweis für einen Hardware-Fehler. Der Bug-Check-Code ist fast immer null, einmal sah ich ein 195, zweinmal ein 25.
Ein Minidump wird nicht erstellt. Auch Bluescreens erhalte ich nicht.
Aus der Vorgeschichte heraus, würde ich behaupten, dass das initiale Problem (faules Gerät) nicht behoben wurde. Die Abstürze sind nun aber klar anders und nicht mehr beweisbar hardwareabhängig: Zumindest bootet der Server nun wieder. Andererseits wurde das letzte Memory-Dump im Februrar geschrieben. Auch Bluescreens erhalte ich keine (das System wurde so eingestellt, dass der Server bei einem Bluescreen nicht automatisch hochfahrt, damit dieser erfasst werden könnte).
Ich bin kein Fachmann und wirklich ratlos und sehr dankbar um jede Meinung. Wie würdet ihr vorgehen?
Wie kann ich zum Beispiel das Event-ID 41 eingrenzen. Wie kann ich herausfinden, ob ein Software- oder Hardware-Fehler vorliegt?
Auf das 4. Mainboard habe ich ehrlich gar keine Lust. Da der Server mittlerweile fast ausgeweidet wurde, habe ich kein Vertrauen auf weitere Reparaturen. Ich fühle mich so ziemlich ausgeliefert....
Vielen Dank für eure Tipps.
Martin
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 205000
Url: https://administrator.de/forum/server-dell-poweredge-t310-zweitmeinung-software-hardware-fehler-205000.html
Ausgedruckt am: 13.05.2025 um 20:05 Uhr
13 Kommentare
Neuester Kommentar
Zitat von @Hitman4021:
ich würde mir ein Ersatzgerät von einem anderen Hersteller (IBM, HP) besorgen
Yep, ich empfehle einen ProLiant ich würde mir ein Ersatzgerät von einem anderen Hersteller (IBM, HP) besorgen
BTW: hat das Teil redundante Strömlinge? Hängt eine USV davor? Eventuell gibt es ja Spannungsschwankungen, die irgendwo nicht abgefangen werden können ...
LG, Thomas
Welche Prozessoren sind verbaut? Ich hatte eine sehr aehnliche Prozedur bei einem R610, der etwa genauso alt ist wie dein T310:
3 Mainboards, 2 RAID Kontroller, die iDRAC, der komplette RAM wurden getauscht.
Zum Schluss dann die Prozessoren... Nachdem ich wiedermal sehr unentspannt angerufen habe, hat sich der Techniker den DSET Report betreffs der Prozzessoren angeschuat und festgestellt, anhand einer ID (die ich leider nicht kenne) das die Prozessoren aus einer bekannt defekten Charge kamen.
Bei mir verbaute Prozessoren: Xeon E5645
Gruss,
ana-mp
3 Mainboards, 2 RAID Kontroller, die iDRAC, der komplette RAM wurden getauscht.
Zum Schluss dann die Prozessoren... Nachdem ich wiedermal sehr unentspannt angerufen habe, hat sich der Techniker den DSET Report betreffs der Prozzessoren angeschuat und festgestellt, anhand einer ID (die ich leider nicht kenne) das die Prozessoren aus einer bekannt defekten Charge kamen.
Bei mir verbaute Prozessoren: Xeon E5645
Gruss,
ana-mp
Hi,
ich würde dann eher auch auf einen anderen Hersteller zurück greifen. Das ganze evtl. als Virtualisierung laufen lassen um in einem Fehlerfall die Hostmaschine zu wechseln.
Ich kann nur HP empfehlen.
Wenn das alles umgezogen ist, dann nochmal "sauber" um den Dell kümmern. - Support bemühen, Druck machen. Etwas sagen, wie extra Dell gekauft weil super Support usw. nen bisschen "honig um den Mund schmieren" und so Druck ausüben. ggf noch sagen, dass man keinen Dell weiter empfehlen kann?
P.S.: Mein Laptop ist ein Dell, da war der Support eigenltich ok. -> kam zwar etwas verspätet, aber der Typ hat alles ordenltich gemacht. (Display Tausch)
Gruß
ich würde dann eher auch auf einen anderen Hersteller zurück greifen. Das ganze evtl. als Virtualisierung laufen lassen um in einem Fehlerfall die Hostmaschine zu wechseln.
Ich kann nur HP empfehlen.
Wenn das alles umgezogen ist, dann nochmal "sauber" um den Dell kümmern. - Support bemühen, Druck machen. Etwas sagen, wie extra Dell gekauft weil super Support usw. nen bisschen "honig um den Mund schmieren" und so Druck ausüben. ggf noch sagen, dass man keinen Dell weiter empfehlen kann?
P.S.: Mein Laptop ist ein Dell, da war der Support eigenltich ok. -> kam zwar etwas verspätet, aber der Typ hat alles ordenltich gemacht. (Display Tausch)
Gruß
Ich möchte auch nichts Grundsätzliches gegen den Support sagen, zumindest die Leute an der Basis verhielten sich korrekt
und freundlich, die machen das schon recht, sie sind halt an Weisungen und Direktiven gebunden....
und freundlich, die machen das schon recht, sie sind halt an Weisungen und Direktiven gebunden....
Ich denke so etwas gibt es bei jedem Hersteller irgendwo.
Wie gesagt, ich würde die Maschine nachehr auf einer VM laufen lassen. Dann hast du später weniger ärger und kannst dann die Vm auf jeden x-belibigen PC laufen lassen wenn es sein muss - dann halt langsamer, aber man kann weiter arbeiten. UNd ich denke mal, dass ist am wichtigsten.
HP, Dell und Fujitsu bieten sogar fertige ESXi-System an, bzw. die als Embedded (Internet USB-Stick). In der Fa. haben wir Fujitsu Maschine mit ESXi auf einer Storage, zuahuse habe ich einen HP mit vmware. Alle Maschinen rennen.
Aber das nur so am Rande
Ich denke mal, du solltest Dell nochmal ran lassen, erklärst ihnen alles und dann sollen die nochmal einen Vorschlag machen. Kannst ihnen ja sagen, dass sie das Gerät tauschen könnten (als Vorschlag).
Gruß
Ja, seit dem die Prozessoren beide getauscht wurden (Techniker war 2x da, beim ersten mal war einer der Prozessoren DoA) laueft die Maschine einwandfrei. Zwischendurch wurde auch versucht das Problem auf das Betriebssystem zu schieben, das konnte aber schnell abgewuergt werden weil im beisein des Technikers die Maschine zweimal im BIOS angeschmiert ist.
Das war auch das erste und bis jetzt einzige Mal das ich mit dem DELL Support unzufrieden war. Ansonsten habe ich nie solche Probleme und die Maschinen laufen einfach. Unentspannt war ich halt dabei vorallem weil die das Problem wohl in ihrer Knowledgebase stehen hatten, es aber zu Anfang immer hiess das die Prozessoren "nie beide kaputtgehen". Erst als es darum ging die ganze Maschine zu tauschen wurden da wohl Techniker mit viel Ahnung rangeholt.
Gruss,
rana-mp
Das war auch das erste und bis jetzt einzige Mal das ich mit dem DELL Support unzufrieden war. Ansonsten habe ich nie solche Probleme und die Maschinen laufen einfach. Unentspannt war ich halt dabei vorallem weil die das Problem wohl in ihrer Knowledgebase stehen hatten, es aber zu Anfang immer hiess das die Prozessoren "nie beide kaputtgehen". Erst als es darum ging die ganze Maschine zu tauschen wurden da wohl Techniker mit viel Ahnung rangeholt.
Gruss,
rana-mp