ECC Diagnostik
Moin miteinander,
ich habe mal wieder keine-Ahnung ... mit der ECC-Fehlerkorrektur.
Problembär:
ProLiant ML350p G8
In der Nacht zum Mittwoch habe ich aus dem ILO eine alert-mail bekommen: "EVENT (16 Jul 01:10): Corrected Memory Error threshold exceeded ((Processor 1, Memory Module 4))". Im Ilo selbst war der Riegel degraded. Ich habe einen case bei meinen bulgarischen Freunden aufgemacht, geht immer wieder schick und rasch (noch), und erste Reaktion: Maschine nicht auf aktuellem patchlevel, neuestes SPP einspielen bitte.
Das Windows-OS selbst hat nicht gemuckert, der eingebaute RAM wurde komplett erkannt.
In vorauseilendem Gehorsam habe ich gerade das SPP auf die Maschine gebügelt und siehe da: im ILO alles schick und grün.
Aber: in insight Diagnostik bekomme ich für den betroffenen Riegel folgenden Status:
Status: Grenzwert für korrigierbare Fehler überschritten Schwellenwert korrigierbarer Fehler überschritten
Nicht korrigierbarer Fehler: Status Keine DIMM-Fehler ermittelt
Da ich den case noch offen habe --> wer kennt sich von Euch mit diesen Stati aus? Für mich heisst das, das eine ECC-Korrektur in diesem Riegel nicht mehr erfolgen kann, also Schrott?
Irgendwie muss ich mich dem support gegenüber artikulieren, waäre lieb, wenn irgendjemand mit mehr Ahnung als ich mir das mal erklären könnte ... und eventuell mal eine Prognose über mögliche RAM-bedingte Systemabstürze bei diesem Zustand abgeben könnte.
Danke und LG, Thomas
ich habe mal wieder keine-Ahnung ... mit der ECC-Fehlerkorrektur.
Problembär:
ProLiant ML350p G8
In der Nacht zum Mittwoch habe ich aus dem ILO eine alert-mail bekommen: "EVENT (16 Jul 01:10): Corrected Memory Error threshold exceeded ((Processor 1, Memory Module 4))". Im Ilo selbst war der Riegel degraded. Ich habe einen case bei meinen bulgarischen Freunden aufgemacht, geht immer wieder schick und rasch (noch), und erste Reaktion: Maschine nicht auf aktuellem patchlevel, neuestes SPP einspielen bitte.
Das Windows-OS selbst hat nicht gemuckert, der eingebaute RAM wurde komplett erkannt.
In vorauseilendem Gehorsam habe ich gerade das SPP auf die Maschine gebügelt und siehe da: im ILO alles schick und grün.
Aber: in insight Diagnostik bekomme ich für den betroffenen Riegel folgenden Status:
Status: Grenzwert für korrigierbare Fehler überschritten Schwellenwert korrigierbarer Fehler überschritten
Nicht korrigierbarer Fehler: Status Keine DIMM-Fehler ermittelt
Da ich den case noch offen habe --> wer kennt sich von Euch mit diesen Stati aus? Für mich heisst das, das eine ECC-Korrektur in diesem Riegel nicht mehr erfolgen kann, also Schrott?
Irgendwie muss ich mich dem support gegenüber artikulieren, waäre lieb, wenn irgendjemand mit mehr Ahnung als ich mir das mal erklären könnte ... und eventuell mal eine Prognose über mögliche RAM-bedingte Systemabstürze bei diesem Zustand abgeben könnte.
Danke und LG, Thomas
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 243980
Url: https://administrator.de/forum/ecc-diagnostik-243980.html
Ausgedruckt am: 01.04.2025 um 21:04 Uhr
11 Kommentare
Neuester Kommentar
Ne, ich dachte nur, das schliesse ich mal davor aus. Vielleicht sind die sauer, weil du andere Module geeordert hast und begehen nun harakiri? ;)
Aber zur Problembehebung: Probier den Dimm einfach mal auszubauen und gegen einen funktionierenden zu tauschen, vielleicht hat sich das iDr..äh ilo nur verschluckt.
Aber zur Problembehebung: Probier den Dimm einfach mal auszubauen und gegen einen funktionierenden zu tauschen, vielleicht hat sich das iDr..äh ilo nur verschluckt.

Hallo,
eben der dafür festgelegte Grenzwert überschritten wurde.
nicht vorhanden und an dem DIMM selber sind auch keine gefunden worden.
Nicht das ich Dir den neuen RAM nicht gönne, aber anders herum würde ich
mir schon Gedanken machen.
Gruß
Dobby
Grenzwert für korrigierbare Fehler überschritten
Das heißt nur das es sich um korrigierbare Fehler handelt undeben der dafür festgelegte Grenzwert überschritten wurde.
Schwellenwert korrigierbarer Fehler überschritten
Dito.Nicht korrigierbarer Fehler: Status Keine DIMM-Fehler ermittelt
Ist doch alles tutti, denn nicht korrigierbare Fehler sind dann ja auchnicht vorhanden und an dem DIMM selber sind auch keine gefunden worden.
Nicht das ich Dir den neuen RAM nicht gönne, aber anders herum würde ich
mir schon Gedanken machen.
Gruß
Dobby

Hallo,
Überschritten werden meldet das der Controller und möchte das OS und den
Rest des Systems schützen und dann wird der RAM Riegel bzw. das Modul
degradiert bzw. deaktiviert.
Also wenn die Fehler korrigiert werden, ist ja auch immer alles in "Butter"
nur bei einer Häufung oder aber zu vielen Fehlern wird ein Alarm ausgelöst.
dort Stromschwankungen sind!
aufgefallen ist bzw. wo die Schwellen- und Grenzwerte hinterlegt sind.
sondern man hätte gemeldet das der RAM Riegel defekt ist und/oder das die Fehler nicht
hätten korrigiert werden können.
dann weg wären würde das ja die Fehlersuche auch beeinträchtigen.
Schwellenwert überschritten wurde.
Und nicht dort wo Stromquellen sind?
und was das genau für Fehler sind, ebenso natürlich was denn passiert
wenn das "degradierte" Modul in einen anderen Slot steckt.
Aber warte erst einmal ab was der Support dazu sagt wenn der sich noch einmal
meldet.
Gruß
Dobby
mir ist das von den Termini her unklar ...
Ok, und ich weiß eben nicht was ein Tremor ist!schon in der alertmail stand ja, dass der Fehler korrigiert wurde.
Also das Bios wird niemals den RAM Riegel bzw. das Modul reparieren können!Warum wird der Riegel dann degraded?
Es werden Grenz- und/oder Schwellenwerte definiert und wenn eben dieseÜberschritten werden meldet das der Controller und möchte das OS und den
Rest des Systems schützen und dann wird der RAM Riegel bzw. das Modul
degradiert bzw. deaktiviert.
Und warum merkt das OS nix davon?
HauptspeicherfehlerAlso wenn die Fehler korrigiert werden, ist ja auch immer alles in "Butter"
nur bei einer Häufung oder aber zu vielen Fehlern wird ein Alarm ausgelöst.
Nur ein schlampig programmiertes GUI?
Ne das denke ich weniger, eher schon das der Server in einer Ecke steht unddort Stromschwankungen sind!
Was wollen mir die Fehlermeldungen in insight diagnostic sagen? Reine Information?
Das ist nur von wo aus die Diagnose statt gefunden hat bzw. der Bereich im Bios dem dasaufgefallen ist bzw. wo die Schwellen- und Grenzwerte hinterlegt sind.
Funktionalität der Fehlerkorrektur ist intakt oder nicht?
Ja und zwar auf jeden Fall sogar, sonst wäre der Schwellenwert nicht überschritten wordensondern man hätte gemeldet das der RAM Riegel defekt ist und/oder das die Fehler nicht
hätten korrigiert werden können.
Letztlich sollte sich der Ram inclusive der Pufferbereiche für's ECC doch entladen
Ja das schon aber die Fehler wurden ja vorher festgestellt und wenn die Meldungendann weg wären würde das ja die Fehlersuche auch beeinträchtigen.
- warum bringt der mir die Info nach dem reboot??
Das Soft Fehler entstanden sind die Anzahl so groß war bzw. ist das der festgelegteSchwellenwert überschritten wurde.
Ich habe jetzt wirklich keinen Bock, an der Kiste rumzuopern,
Kann ich verstehen, aber eventuell etwas luftiger aufstellen bei den Temperaturen?Und nicht dort wo Stromquellen sind?
ich brauche jetzt auch nicht neuen RAM, wenn das nicht notwendig ist,
aber so richtig nachvollziehbar ist das für mich nicht ...
Es wäre natürlich schon schick zu wissen wer die Fehler verursachtaber so richtig nachvollziehbar ist das für mich nicht ...
und was das genau für Fehler sind, ebenso natürlich was denn passiert
wenn das "degradierte" Modul in einen anderen Slot steckt.
Aber warte erst einmal ab was der Support dazu sagt wenn der sich noch einmal
meldet.
Gruß
Dobby