letstryandfindout
Goto Top

Defekte Blocks auf SSD Raid

Hallo zusammen,

ich habe ein kleines Problem. Ich habe einen Server laufen in einem kleinen geschlossenen Netzwerk Es ist ein HPE ProLiant DL380 Gen10 mit einem SSD Raid 5 Verbund. Nun ist beim Server folgendes aufgetreten:

Embedded RAID 1: HPE Smart Array P408i-a SR Gen10 - Configuration Required
1915 - Slot 0 Smart Array - Drive media error could not be recovered by RAID protection. Action: Back up and restore the date. Overwriting the affected block should resolve the media errors.

Aufgefallen ist es mir, da Active Backup nicht mehr sichern konnte. Also habe ich gemacht, was auf der HP Seite stand:

1. Image erstellt mit Clonezilla (ging nur damit).
2. Restore auf anderem Server probiert. Server startete Gott sei Dank.
3. Raid auf Server gelöscht, neu eingerichtet, HDDs löschen lassen.

Nach dem Neustart war der Fehler weg. Dann mit Clonezilla den Server wieder zurückgespielt und schwupps der Fehler ist wieder da. Sachen wie chkdsk etc. alles laufen lassen. SMART Status von den SSD ist aber in Ordnung.

Hat wer noch eine Idee, wie ich das Problem lösen könnte?

Lg

Content-ID: 669999

Url: https://administrator.de/forum/defekte-blocks-auf-ssd-raid-669999.html

Ausgedruckt am: 09.01.2025 um 13:01 Uhr

StefanKittel
StefanKittel 05.12.2024 um 09:36:10 Uhr
Goto Top
Hallo,
dafür ist RAID ja eigentlich da, dass so etwas nie passieren kann.
Wenn eine SSD defekt-> rauswerfen und Benutzer informieren

Die Meldung sagt ja eindeutig "Drive Media Error".
Also wieso funktioniert das RAID nicht?

Wenn es ein logischer Fehler im Dateisystem wäre, würde der Controller davon nichts mitbekommen.

Ich würde beide SSDs unabhängig vom RAID einmal vollständig testen. Neben Smart so richtig vollschreibe und auslesen. Wenn die OK sind würde das vermutlich heissen dass der RAID-Controller defekt ist.

In kleinen Umgebungen verwende ich kein RAID mehr.
Dann lieber eine Enterprise SSD und Datensicherung.
RAID war für Festplatten gedacht. SSDs gehen viel seltener kaputt. Ich habe keinen großen Durchsatz an Serververkäufen. Aber ich hatte immer so 2-3 defekt SAS-Enterprise-HDDs pro Jahr. In den letzten 5 Jahren 0 defekte Enterprise-SATA-SSDs. Da ist das Ausfallrisiko eines RAID-Controllers ungefähr auf dem gleichen Niveau wie bei einer SSD.

Stefan
letstryandfindout
letstryandfindout 05.12.2024 um 09:45:19 Uhr
Goto Top
Er zeigt mir im Controller eben keine Disk als defekt an und gibt auch überall bei jeder der HDDs nen Status aus der in Ordnung ist. Das ist eben mein Problem. Vor allem kann man das nicht alles einfach so abschalten.
em-pie
em-pie 05.12.2024 aktualisiert um 09:53:37 Uhr
Goto Top
Moin,

In kleinen Umgebungen verwende ich kein RAID mehr.
Dann lieber eine Enterprise SSD und Datensicherung.
Sollte man aber immer in Abhängigkeit der jeweiligen Datenverfügbarkeitsanforderung prüfen. Zudem geht es auch mit einer Risikobewertung des Betreibers einher.
Wenn die letzte Sicherung Nachts lief und die SSD Abends um 21 Uhr die Grätsche macht, wäre ich froh, ein RAID zu haben. Denn die Daten der letzten 20-24h zu rekonstruieren macht auch wenig Freude bei allen Beteiligten. Und dann käme ja noch die Wiederbeschaffungszeit einer neuen, passende SSD hinzu. Wenn ich die vorrätig habe, kann ich die auch direkt verbauen.
Und wenn auf selbem Speicher auch noch das Mailarchiv liegt, welches die eingegangenen Rechnungen archiviert, wäre es dem Fiskus ggü. auch doof erklären zu müssen, dass die Rechnungen in diesem Zeitraum nicht im Archiv liegen, weil der Server die Beine hochgerissen hat…

Und ja, ein RAID ersetzt kein Backup - soll es auch nicht. Im Fokus liegt das Kompensieren von Hardwareausfällen (JBOD und RAID 0 mal ausgenommen)


@to
Beschaffe eine neue HDD und gut. Der Controller sollte dann das Rebuild selbst durchführen.
Dass der Fehler erst wieder auftauchte, nachdem du den Restore gemacht hast, könnte (nicht muss) damit zusammenhängen, dann betroffene Blöcke durch den angestiegenen Datenbestand wieder angesprochen wurden und nicht wie erwartet „funktionierten“…
Lochkartenstanzer
Lösung Lochkartenstanzer 05.12.2024 aktualisiert um 10:23:27 Uhr
Goto Top
Zitat von @letstryandfindout:.

Hat wer noch eine Idee, wie ich das Problem lösen könnte?


Die SSDs im RAID gegen neue austauschen.

lks
Mr-Gustav
Mr-Gustav 05.12.2024 um 16:32:53 Uhr
Goto Top
Also ich würde die SSD gegen eine neue Tauschen. Je nach Fehler sieht der Controller u.U. auch nicht alles sondern merkt es erst wenn direkt irgendwo ( Blockebene ) zugreifen will. Vielleicht ist auch der eigentliche onboard Controller der SSD defekt oder oder oder oder.

Was das Clone Image angeht so kann es unter Umständen sein das du den "defekt" mit kopiert hast und beim Restore wurde er dann wieder richtung Platte zurückgeschrieben
C.R.S.
C.R.S. 05.12.2024 um 18:02:40 Uhr
Goto Top
Hallo,

sehr wahrscheinlich ist die SSD wirklich defekt. Dass nur Daten mindestens vom Umfang des Ursprungs-Images oder Zufallsdaten den Fehler aufdecken, ist plausibel, weil Initialisierungs-Writes oder "Nullen" von SSDs in der Regel durch deren interne Kompression verkürzt werden.

Hat man Zweifel an der Aussagekraft der Meldung, so ist es sinnvoller, die Stelle als LBA-Sektor im RAID-Verbund aufzusuchen und zu beschreiben. Anschließend etwaige Daten-/Dateisystemfehler daraus korrigieren bzw. betroffene Dateien aus dem Backup wiederherstellen.

Grüße
Richard
potsbits
potsbits 06.12.2024 um 01:13:23 Uhr
Goto Top
die HP Büchsen sind ja manchmal etwas zickig - darum frage ich mal direkt:

von welchen SSDs reden wir hier?

Enterprise-HP - in der Partlist des Server geführt?
Enterprise-HP - nicht in der Partlist des Server geführt?
Enterprise-non HP?
non-Enterprise?

am besten genaues Modell und mal einen Screenshot des HP Smart Array. Merci!

LG Andi
letstryandfindout
letstryandfindout 20.12.2024 um 15:44:41 Uhr
Goto Top
Hallo zusammen,

ich bin euch ja noch eine Antwort schuldig. In all den 15 Jahren mit HPE Server hatte ich es noch nie, dass eine Platte defekt war ohne Angabe der LED. Aber wieder was dazu gelernt. Slot 1 gewechselt und es läuft alles wieder. Vom Backup bis hin zur Fehlermeldung die nicht mehr da ist. Danke euch allen und ein paar schöne Festtage face-smile