sailor77
Goto Top

Ausfall mehrerer HDD im Windows Speicherpool - Keine Änderungen mehr möglich

Guten Abend,

bzw. schon guten Morgen.
Ich habe folgendes Problem mit einem Speicherpool unter Windows Server 2016 und hoffe auf Hilfe:

Zunächst zur Ausgangslage:
  • Server HP ProLiant DL360 G6 mit 2 XEON L5520 und 80 GB RAM
  • Interne Platten 4 x 146 GB HP SAS im Raid 5, 1 HotSpare
  • Zusätzlich HP StorageWorks D2700 SAS AJ941A an Smart Array P411 mit derzeit 4x 1 TB WD Red WD10JFCX als 4 x Raid 0 konfiguriert
  • Windows Server 2016 Datacenter als Hyper-V Host.
  • Die als Raid 0 konfigurierten Platten bilden einen Speicherpool mit zwei Virtuellen Laufwerken.

Das System dient nicht zu operativen Zwecken, sondern zum Testen und Lernen im Rahmen eines Fernstudiums. Auf einem der virtuellen Laufwerke sind die auf dem Server befindlichen VM's abgelegt. Das andere ist für allgemeine Daten vorgesehen, war jedoch noch recht leer.
Nachdem diese Konfiguration die letzten ca. 4 Monate problemlos gearbeitet hat ist vor zwei Tagen zunächst eine, kurz darauf eine zweite WD10JFCX mit Hardwarefehlern ausgestiegen, so zumindest der Eintrag im Log des P411. Da ich zu dem Zeitpunkt nicht zuhause war, waren bei Rückkehr zwei von vier Festplatten ausgefallen und werden von Windows als "Retired" (Veraltet) angezeigt. Somit wurde der gesamte Speicherpool in den Status "Unhealthy" gesetzt und in den OperationalStatus "Read-Only".
Da die vier Platten von WD erst vor etwa 6 Monaten gekauft wurden, war ich über den Ausfall von gleich zwei Platten etwas verwundert. Eine Prüfung mittels "Data Lifeguard Diagnostic" von WD ergab auch keine Fehler. Nach einem Neustart des Servers werden die Platten vom P411 auch wieder als fehlerfrei angezeigt. Allerdings scheitern die Versuche, die Platten wieder in den Status "Auto-Select" zu setzen, bzw. den Speicherpool wieder zu reparieren daran, dass dieser im Status "Read-Only" verharrt, obgleich das Flag entsprechend gesetzt ist. Sprich, der Befehl

Get-StoragePool -HealthStatus Unhealthy | set-storagepool -isreadonly $false

brachte nicht den gewünschten Erfolg. Der Versuch die Laufwerke mittels
Set-PhysicalDisk -Usage AutoSelect

wieder ans Laufen zu bekommen scheitert mit dem Hinweis, dass der Speicherpool schreibgeschützt ist. Somit stellt sich die Lage wie folgt dar:

PS C:\Users\Administrator.FF-SH> get-storagepool

FriendlyName OperationalStatus HealthStatus IsPrimordial IsReadOnly
------------ ----------------- ------------ ------------ ----------
Primordial   OK                Healthy      True         False
das01        Read-only         Unhealthy    False        False


PS C:\Users\Administrator.FF-SH> get-physicaldisk

FriendlyName      SerialNumber     CanPool OperationalStatus        HealthStatus Usage            Size
------------      ------------     ------- -----------------        ------------ -----            ----
HP LOGICAL VOLUME 500143801176F760 False   OK                       Healthy      Auto-Select  273.4 GB
HP LOGICAL VOLUME PACCT9SZ2AYN     False   {Failed Media, IO Error} Unhealthy    Retired     931.25 GB
HP LOGICAL VOLUME PACCT9SZ2AYN     False   OK                       Healthy      Auto-Select 931.25 GB
HP LOGICAL VOLUME PACCT9SZ2AYN     False   {Failed Media, IO Error} Unhealthy    Retired     931.25 GB
HP LOGICAL VOLUME PACCT9SZ2AYN     False   OK                       Healthy      Auto-Select 931.25 GB
Da ich auch nach längerem Suchen keine weitern Ansatzpunkte finden konnte hoffe ich auf eure Unterstützung. Wie gesagt waren auf dem Laufwerk zwar keine Daten, deren Verlust kritisch wäre, allerdings wäre das komplette Wiederherstellen der diversen VM's inklusive aller Einstellungen recht zeitintensiv. Darüber hinaus fürchte ich, dass derzeit auch der Versuch, den Speicherpool als Ganzes zu löschen an dem Schreibschutz scheitern würde.

Vielen Dank im Voraus und ein schönes Wochenende,

Marcus

Content-Key: 346093

Url: https://administrator.de/contentid/346093

Ausgedruckt am: 28.03.2024 um 17:03 Uhr

Mitglied: keine-ahnung
keine-ahnung 12.08.2017 um 10:45:07 Uhr
Goto Top
Moin,
IMHO muss man sich bei dem Versuch, ein OS auf einem dafür nicht vorgesehenen Blech zu betreiben, auf Überraschungen einstellen face-smile?

LG, Thomas
Mitglied: 133883
133883 12.08.2017 aktualisiert um 11:38:27 Uhr
Goto Top
Du betreibst ein Hardware konfiguriertes Raid 0 mit 4 Platten als Unterbau eines Storage Pools?? Das ist das dümmste was man bei der Verwendung von Storage-Pools überhaupt machen kann. Das du hier Probleme bekommst war abzusehen.
Raid 0 = eine Platte weg = Daten weg = no resiliency

Gruß
Mitglied: Penny.Cilin
Penny.Cilin 12.08.2017 um 11:37:26 Uhr
Goto Top
Moin,

ich fürchte Du wirst nicht viel Hilfe bekommen, weil Dein DL360 G6 unterstützt maximal Windows Server 2012 R2.
Supportmatrix HP

Zudem Du hast die 4 Festplatten der HP StorageWorks D2700 als RAID 0 konfiguriert.
Ich gehe davon aus, über den RAID Controller.

Einen Speicherpool konfiguriert man doch direkt im Disk Management des Betriebssystems, oder irre ich mich?
Mitglied: Sailor77
Sailor77 12.08.2017 um 14:09:21 Uhr
Goto Top
Moin,

und vielen Dank für die Antworten.

Zitat von @keine-ahnung:

IMHO muss man sich bei dem Versuch, ein OS auf einem dafür nicht vorgesehenen Blech zu betreiben, auf Überraschungen einstellen face-smile?

Dies ist sicher richtig und nicht zu bestreiten, aber

Zitat von @Sailor77:
Das System dient nicht zu operativen Zwecken, sondern zum Testen und Lernen im Rahmen eines Fernstudiums.

und die Hardware konnte ich gerade günstig bekommen. Insofern war ich mir durchaus bewusst, dass mit Überraschungen zu rechnen ist.

Zitat von @133883:

Du betreibst ein Hardware konfiguriertes Raid 0 mit 4 Platten als Unterbau eines Storage Pools?? Das ist das dümmste was man bei der Verwendung von Storage-Pools überhaupt machen kann. Das du hier Probleme bekommst war abzusehen.

Zitat von @Penny.Cilin:

Zudem Du hast die 4 Festplatten der HP StorageWorks D2700 als RAID 0 konfiguriert.
Ich gehe davon aus, über den RAID Controller.

Einen Speicherpool konfiguriert man doch direkt im Disk Management des Betriebssystems, oder irre ich mich?

Möglicherweise habe ich mich falsch ausgedrückt, das Prinzip des Speicherpools falsch verstanden oder auch irgendetwas falsch konfiguriert.
Mein Verständnis ist, dass bei einem Windows Speicherpool mehrere einzelne, auch unterschiedliche physikalische Laufwerke zu einem Verbund zusammengefasst werden, der über Raid-ähnliche Eigenschaften verfügt. Die Konfiguration als Raid 0 im HW RAID Controller habe ich nur gemacht, damit Windows die Festplatten überhaupt "sieht". Sollte es hier eine andere Möglichkeit geben, so habe ich sie nicht gefunden.

Für mich scheint es momentan aber so zu sein, dass es ein Problem auf HW-Ebene gab und Windows die Platten dann intern "abgeschaltet" hat. Da dies bei zwei Platten passiert ist, aber nur der Ausfall von einer hätte kompensiert werden können läuft nun der ganze Pool nicht mehr korrekt. Daher denke ich, dass wenn es möglich wäre, die Platten wieder online zu schalten, der ganze Pool funktionieren sollte. Dies ist aufgrund des Schreibschutz momentan jedoch nicht möglich, der sich aber auch nicht abschalten lässt.
Eine Beschreibung dieses Problems habe ich auch bei Google gefunden, leider aber keine Lösung dazu.

Gruß,

Marcus
Mitglied: C.R.S.
C.R.S. 12.08.2017 um 18:47:20 Uhr
Goto Top
Hallo,

Zitat von @Sailor77:

Mein Verständnis ist, dass bei einem Windows Speicherpool mehrere einzelne, auch unterschiedliche physikalische Laufwerke zu einem Verbund zusammengefasst werden, der über Raid-ähnliche Eigenschaften verfügt. Die Konfiguration als Raid 0 im HW RAID Controller habe ich nur gemacht, damit Windows die Festplatten überhaupt "sieht". Sollte es hier eine andere Möglichkeit geben, so habe ich sie nicht gefunden.

normalerweise konfiguriert man die als Pass-Through. Aber gut möglich, dass ein "RAID" pro Platte auf dem Controller als Workaround nötig ist. Du hast halt dann das Problem, dass jede mögliche Firmware-Inkompatibilität zwischen Controller und Festplatte im OS zum Tragen kommt. Daran ist immer als erstes zu denken, wenn gesunde Platten vom Controller ausgeworfen werden. Wenn du im Controller NCQ abschalten kannst, würde das eine Fehlerquelle beseitigen (auf Geschwindigkeit ist das alles ersichtlich nicht ausgelegt).
Haben die logischen Laufwerke des RAID-Controllers, die immerhin mit identischen Seriennummern versehen sind, denn unterscheidbare Bus-Adressen? Sonst macht Storage Spaces lustige Sachen: Storage Spaces: Datenträger mit identischer ID nicht in der GUI verwaltbar

Für mich scheint es momentan aber so zu sein, dass es ein Problem auf HW-Ebene gab und Windows die Platten dann intern "abgeschaltet" hat. Da dies bei zwei Platten passiert ist, aber nur der Ausfall von einer hätte kompensiert werden können läuft nun der ganze Pool nicht mehr korrekt.

Wenn der Pool unter die Resilienz abgefallen ist, ist er nicht zu retten und muss gelöscht werden. Der ist nur noch online, um (potenziell inkonsistente) Daten davon ziehen zu können.

Grüße
Richard