Defekte Blocks auf SSD Raid

gelöstFrage Speichersysteme Serverhardware

Hallo zusammen,

ich habe ein kleines Problem. Ich habe einen Server laufen in einem kleinen geschlossenen Netzwerk Es ist ein HPE ProLiant DL380 Gen10 mit einem SSD Raid 5 Verbund. Nun ist beim Server folgendes aufgetreten:

Embedded RAID 1: HPE Smart Array P408i-a SR Gen10 - Configuration Required
1915 - Slot 0 Smart Array - Drive media error could not be recovered by RAID protection. Action: Back up and restore the date. Overwriting the affected block should resolve the media errors.

Aufgefallen ist es mir, da Active Backup nicht mehr sichern konnte. Also habe ich gemacht, was auf der HP Seite stand:

1. Image erstellt mit Clonezilla (ging nur damit).
2. Restore auf anderem Server probiert. Server startete Gott sei Dank.
3. Raid auf Server gelöscht, neu eingerichtet, HDDs löschen lassen.

Nach dem Neustart war der Fehler weg. Dann mit Clonezilla den Server wieder zurückgespielt und schwupps der Fehler ist wieder da. Sachen wie chkdsk etc. alles laufen lassen. SMART Status von den SSD ist aber in Ordnung.

Hat wer noch eine Idee, wie ich das Problem lösen könnte?

Lg

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 669999

Url: https://administrator.de/forum/defekte-blocks-auf-ssd-raid-669999.html

Ausgedruckt am: 31.07.2025 um 10:07 Uhr

8 Kommentare

Neuester Kommentar

Hallo,
dafür ist RAID ja eigentlich da, dass so etwas nie passieren kann.
Wenn eine SSD defekt-> rauswerfen und Benutzer informieren

Die Meldung sagt ja eindeutig "Drive Media Error".
Also wieso funktioniert das RAID nicht?

Wenn es ein logischer Fehler im Dateisystem wäre, würde der Controller davon nichts mitbekommen.

Ich würde beide SSDs unabhängig vom RAID einmal vollständig testen. Neben Smart so richtig vollschreibe und auslesen. Wenn die OK sind würde das vermutlich heissen dass der RAID-Controller defekt ist.

In kleinen Umgebungen verwende ich kein RAID mehr.
Dann lieber eine Enterprise SSD und Datensicherung.
RAID war für Festplatten gedacht. SSDs gehen viel seltener kaputt. Ich habe keinen großen Durchsatz an Serververkäufen. Aber ich hatte immer so 2-3 defekt SAS-Enterprise-HDDs pro Jahr. In den letzten 5 Jahren 0 defekte Enterprise-SATA-SSDs. Da ist das Ausfallrisiko eines RAID-Controllers ungefähr auf dem gleichen Niveau wie bei einer SSD.

Stefan

Er zeigt mir im Controller eben keine Disk als defekt an und gibt auch überall bei jeder der HDDs nen Status aus der in Ordnung ist. Das ist eben mein Problem. Vor allem kann man das nicht alles einfach so abschalten.

Moin,

In kleinen Umgebungen verwende ich kein RAID mehr.
Dann lieber eine Enterprise SSD und Datensicherung.

Sollte man aber immer in Abhängigkeit der jeweiligen Datenverfügbarkeitsanforderung prüfen. Zudem geht es auch mit einer Risikobewertung des Betreibers einher.
Wenn die letzte Sicherung Nachts lief und die SSD Abends um 21 Uhr die Grätsche macht, wäre ich froh, ein RAID zu haben. Denn die Daten der letzten 20-24h zu rekonstruieren macht auch wenig Freude bei allen Beteiligten. Und dann käme ja noch die Wiederbeschaffungszeit einer neuen, passende SSD hinzu. Wenn ich die vorrätig habe, kann ich die auch direkt verbauen.
Und wenn auf selbem Speicher auch noch das Mailarchiv liegt, welches die eingegangenen Rechnungen archiviert, wäre es dem Fiskus ggü. auch doof erklären zu müssen, dass die Rechnungen in diesem Zeitraum nicht im Archiv liegen, weil der Server die Beine hochgerissen hat…

Und ja, ein RAID ersetzt kein Backup - soll es auch nicht. Im Fokus liegt das Kompensieren von Hardwareausfällen (JBOD und RAID 0 mal ausgenommen)

@to
Beschaffe eine neue HDD und gut. Der Controller sollte dann das Rebuild selbst durchführen.
Dass der Fehler erst wieder auftauchte, nachdem du den Restore gemacht hast, könnte (nicht muss) damit zusammenhängen, dann betroffene Blöcke durch den angestiegenen Datenbestand wieder angesprochen wurden und nicht wie erwartet „funktionierten“…

Zitat von @letstryandfindout:.

Hat wer noch eine Idee, wie ich das Problem lösen könnte?

Die SSDs im RAID gegen neue austauschen.

lks

Also ich würde die SSD gegen eine neue Tauschen. Je nach Fehler sieht der Controller u.U. auch nicht alles sondern merkt es erst wenn direkt irgendwo ( Blockebene ) zugreifen will. Vielleicht ist auch der eigentliche onboard Controller der SSD defekt oder oder oder oder.

Was das Clone Image angeht so kann es unter Umständen sein das du den "defekt" mit kopiert hast und beim Restore wurde er dann wieder richtung Platte zurückgeschrieben

Hallo,

sehr wahrscheinlich ist die SSD wirklich defekt. Dass nur Daten mindestens vom Umfang des Ursprungs-Images oder Zufallsdaten den Fehler aufdecken, ist plausibel, weil Initialisierungs-Writes oder "Nullen" von SSDs in der Regel durch deren interne Kompression verkürzt werden.

Hat man Zweifel an der Aussagekraft der Meldung, so ist es sinnvoller, die Stelle als LBA-Sektor im RAID-Verbund aufzusuchen und zu beschreiben. Anschließend etwaige Daten-/Dateisystemfehler daraus korrigieren bzw. betroffene Dateien aus dem Backup wiederherstellen.

Grüße
Richard

die HP Büchsen sind ja manchmal etwas zickig - darum frage ich mal direkt:

von welchen SSDs reden wir hier?

Enterprise-HP - in der Partlist des Server geführt?
Enterprise-HP - nicht in der Partlist des Server geführt?
Enterprise-non HP?
non-Enterprise?

am besten genaues Modell und mal einen Screenshot des HP Smart Array. Merci!

LG Andi

Hallo zusammen,

ich bin euch ja noch eine Antwort schuldig. In all den 15 Jahren mit HPE Server hatte ich es noch nie, dass eine Platte defekt war ohne Angabe der LED. Aber wieder was dazu gelernt. Slot 1 gewechselt und es läuft alles wieder. Vom Backup bis hin zur Fehlermeldung die nicht mehr da ist. Danke euch allen und ein paar schöne Festtage