Defekte Blocks auf SSD Raid
Hallo zusammen,
ich habe ein kleines Problem. Ich habe einen Server laufen in einem kleinen geschlossenen Netzwerk Es ist ein HPE ProLiant DL380 Gen10 mit einem SSD Raid 5 Verbund. Nun ist beim Server folgendes aufgetreten:
Embedded RAID 1: HPE Smart Array P408i-a SR Gen10 - Configuration Required
1915 - Slot 0 Smart Array - Drive media error could not be recovered by RAID protection. Action: Back up and restore the date. Overwriting the affected block should resolve the media errors.
Aufgefallen ist es mir, da Active Backup nicht mehr sichern konnte. Also habe ich gemacht, was auf der HP Seite stand:
1. Image erstellt mit Clonezilla (ging nur damit).
2. Restore auf anderem Server probiert. Server startete Gott sei Dank.
3. Raid auf Server gelöscht, neu eingerichtet, HDDs löschen lassen.
Nach dem Neustart war der Fehler weg. Dann mit Clonezilla den Server wieder zurückgespielt und schwupps der Fehler ist wieder da. Sachen wie chkdsk etc. alles laufen lassen. SMART Status von den SSD ist aber in Ordnung.
Hat wer noch eine Idee, wie ich das Problem lösen könnte?
Lg
ich habe ein kleines Problem. Ich habe einen Server laufen in einem kleinen geschlossenen Netzwerk Es ist ein HPE ProLiant DL380 Gen10 mit einem SSD Raid 5 Verbund. Nun ist beim Server folgendes aufgetreten:
Embedded RAID 1: HPE Smart Array P408i-a SR Gen10 - Configuration Required
1915 - Slot 0 Smart Array - Drive media error could not be recovered by RAID protection. Action: Back up and restore the date. Overwriting the affected block should resolve the media errors.
Aufgefallen ist es mir, da Active Backup nicht mehr sichern konnte. Also habe ich gemacht, was auf der HP Seite stand:
1. Image erstellt mit Clonezilla (ging nur damit).
2. Restore auf anderem Server probiert. Server startete Gott sei Dank.
3. Raid auf Server gelöscht, neu eingerichtet, HDDs löschen lassen.
Nach dem Neustart war der Fehler weg. Dann mit Clonezilla den Server wieder zurückgespielt und schwupps der Fehler ist wieder da. Sachen wie chkdsk etc. alles laufen lassen. SMART Status von den SSD ist aber in Ordnung.
Hat wer noch eine Idee, wie ich das Problem lösen könnte?
Lg
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 669999
Url: https://administrator.de/forum/defekte-blocks-auf-ssd-raid-669999.html
Ausgedruckt am: 09.01.2025 um 13:01 Uhr
8 Kommentare
Neuester Kommentar
Hallo,
dafür ist RAID ja eigentlich da, dass so etwas nie passieren kann.
Wenn eine SSD defekt-> rauswerfen und Benutzer informieren
Die Meldung sagt ja eindeutig "Drive Media Error".
Also wieso funktioniert das RAID nicht?
Wenn es ein logischer Fehler im Dateisystem wäre, würde der Controller davon nichts mitbekommen.
Ich würde beide SSDs unabhängig vom RAID einmal vollständig testen. Neben Smart so richtig vollschreibe und auslesen. Wenn die OK sind würde das vermutlich heissen dass der RAID-Controller defekt ist.
In kleinen Umgebungen verwende ich kein RAID mehr.
Dann lieber eine Enterprise SSD und Datensicherung.
RAID war für Festplatten gedacht. SSDs gehen viel seltener kaputt. Ich habe keinen großen Durchsatz an Serververkäufen. Aber ich hatte immer so 2-3 defekt SAS-Enterprise-HDDs pro Jahr. In den letzten 5 Jahren 0 defekte Enterprise-SATA-SSDs. Da ist das Ausfallrisiko eines RAID-Controllers ungefähr auf dem gleichen Niveau wie bei einer SSD.
Stefan
dafür ist RAID ja eigentlich da, dass so etwas nie passieren kann.
Wenn eine SSD defekt-> rauswerfen und Benutzer informieren
Die Meldung sagt ja eindeutig "Drive Media Error".
Also wieso funktioniert das RAID nicht?
Wenn es ein logischer Fehler im Dateisystem wäre, würde der Controller davon nichts mitbekommen.
Ich würde beide SSDs unabhängig vom RAID einmal vollständig testen. Neben Smart so richtig vollschreibe und auslesen. Wenn die OK sind würde das vermutlich heissen dass der RAID-Controller defekt ist.
In kleinen Umgebungen verwende ich kein RAID mehr.
Dann lieber eine Enterprise SSD und Datensicherung.
RAID war für Festplatten gedacht. SSDs gehen viel seltener kaputt. Ich habe keinen großen Durchsatz an Serververkäufen. Aber ich hatte immer so 2-3 defekt SAS-Enterprise-HDDs pro Jahr. In den letzten 5 Jahren 0 defekte Enterprise-SATA-SSDs. Da ist das Ausfallrisiko eines RAID-Controllers ungefähr auf dem gleichen Niveau wie bei einer SSD.
Stefan
Moin,
Wenn die letzte Sicherung Nachts lief und die SSD Abends um 21 Uhr die Grätsche macht, wäre ich froh, ein RAID zu haben. Denn die Daten der letzten 20-24h zu rekonstruieren macht auch wenig Freude bei allen Beteiligten. Und dann käme ja noch die Wiederbeschaffungszeit einer neuen, passende SSD hinzu. Wenn ich die vorrätig habe, kann ich die auch direkt verbauen.
Und wenn auf selbem Speicher auch noch das Mailarchiv liegt, welches die eingegangenen Rechnungen archiviert, wäre es dem Fiskus ggü. auch doof erklären zu müssen, dass die Rechnungen in diesem Zeitraum nicht im Archiv liegen, weil der Server die Beine hochgerissen hat…
Und ja, ein RAID ersetzt kein Backup - soll es auch nicht. Im Fokus liegt das Kompensieren von Hardwareausfällen (JBOD und RAID 0 mal ausgenommen)
@to
Beschaffe eine neue HDD und gut. Der Controller sollte dann das Rebuild selbst durchführen.
Dass der Fehler erst wieder auftauchte, nachdem du den Restore gemacht hast, könnte (nicht muss) damit zusammenhängen, dann betroffene Blöcke durch den angestiegenen Datenbestand wieder angesprochen wurden und nicht wie erwartet „funktionierten“…
In kleinen Umgebungen verwende ich kein RAID mehr.
Dann lieber eine Enterprise SSD und Datensicherung.
Sollte man aber immer in Abhängigkeit der jeweiligen Datenverfügbarkeitsanforderung prüfen. Zudem geht es auch mit einer Risikobewertung des Betreibers einher.Dann lieber eine Enterprise SSD und Datensicherung.
Wenn die letzte Sicherung Nachts lief und die SSD Abends um 21 Uhr die Grätsche macht, wäre ich froh, ein RAID zu haben. Denn die Daten der letzten 20-24h zu rekonstruieren macht auch wenig Freude bei allen Beteiligten. Und dann käme ja noch die Wiederbeschaffungszeit einer neuen, passende SSD hinzu. Wenn ich die vorrätig habe, kann ich die auch direkt verbauen.
Und wenn auf selbem Speicher auch noch das Mailarchiv liegt, welches die eingegangenen Rechnungen archiviert, wäre es dem Fiskus ggü. auch doof erklären zu müssen, dass die Rechnungen in diesem Zeitraum nicht im Archiv liegen, weil der Server die Beine hochgerissen hat…
Und ja, ein RAID ersetzt kein Backup - soll es auch nicht. Im Fokus liegt das Kompensieren von Hardwareausfällen (JBOD und RAID 0 mal ausgenommen)
@to
Beschaffe eine neue HDD und gut. Der Controller sollte dann das Rebuild selbst durchführen.
Dass der Fehler erst wieder auftauchte, nachdem du den Restore gemacht hast, könnte (nicht muss) damit zusammenhängen, dann betroffene Blöcke durch den angestiegenen Datenbestand wieder angesprochen wurden und nicht wie erwartet „funktionierten“…
Die SSDs im RAID gegen neue austauschen.
lks
Also ich würde die SSD gegen eine neue Tauschen. Je nach Fehler sieht der Controller u.U. auch nicht alles sondern merkt es erst wenn direkt irgendwo ( Blockebene ) zugreifen will. Vielleicht ist auch der eigentliche onboard Controller der SSD defekt oder oder oder oder.
Was das Clone Image angeht so kann es unter Umständen sein das du den "defekt" mit kopiert hast und beim Restore wurde er dann wieder richtung Platte zurückgeschrieben
Was das Clone Image angeht so kann es unter Umständen sein das du den "defekt" mit kopiert hast und beim Restore wurde er dann wieder richtung Platte zurückgeschrieben
Hallo,
sehr wahrscheinlich ist die SSD wirklich defekt. Dass nur Daten mindestens vom Umfang des Ursprungs-Images oder Zufallsdaten den Fehler aufdecken, ist plausibel, weil Initialisierungs-Writes oder "Nullen" von SSDs in der Regel durch deren interne Kompression verkürzt werden.
Hat man Zweifel an der Aussagekraft der Meldung, so ist es sinnvoller, die Stelle als LBA-Sektor im RAID-Verbund aufzusuchen und zu beschreiben. Anschließend etwaige Daten-/Dateisystemfehler daraus korrigieren bzw. betroffene Dateien aus dem Backup wiederherstellen.
Grüße
Richard
sehr wahrscheinlich ist die SSD wirklich defekt. Dass nur Daten mindestens vom Umfang des Ursprungs-Images oder Zufallsdaten den Fehler aufdecken, ist plausibel, weil Initialisierungs-Writes oder "Nullen" von SSDs in der Regel durch deren interne Kompression verkürzt werden.
Hat man Zweifel an der Aussagekraft der Meldung, so ist es sinnvoller, die Stelle als LBA-Sektor im RAID-Verbund aufzusuchen und zu beschreiben. Anschließend etwaige Daten-/Dateisystemfehler daraus korrigieren bzw. betroffene Dateien aus dem Backup wiederherstellen.
Grüße
Richard
die HP Büchsen sind ja manchmal etwas zickig - darum frage ich mal direkt:
von welchen SSDs reden wir hier?
Enterprise-HP - in der Partlist des Server geführt?
Enterprise-HP - nicht in der Partlist des Server geführt?
Enterprise-non HP?
non-Enterprise?
am besten genaues Modell und mal einen Screenshot des HP Smart Array. Merci!
LG Andi
von welchen SSDs reden wir hier?
Enterprise-HP - in der Partlist des Server geführt?
Enterprise-HP - nicht in der Partlist des Server geführt?
Enterprise-non HP?
non-Enterprise?
am besten genaues Modell und mal einen Screenshot des HP Smart Array. Merci!
LG Andi