spunkmeyer
Goto Top

Raid5 - Schritte nach Festplattenausfall und Rebuild der Hotspare

Hallo, ich sitze hier an meinem eigentlich freien Wochenende vor einem Server, der mich seit Stunden anpiepst und bitte dringend um Hilfe.

Hallo,

bevor ich mein Leid klage, lieber vorweg die Frage(n):

Was muss ich nach nach Ausfall einer Festplatte im RAID 5 einem Rebuilt der Hotspare machen ?
Neustart?
Konsistenz (Parity?) überprüfen?
defekte Platte nach dem Rebuilt der Hotspare tauschen während der Server noch läuft?
oder vermeindlich defekte Platte tauschen nachdem ich den Server heruntergefahren habe?

Bei 2 baugleichen (bis auf die Controler) Win2003 Servern sollte ich den Controler und die Festplatten tauschen bzw in den ansonsten baugleichen anderen Server verbauen. Gesagt, getan.
Nach dem Umstecken der Platten und des Controlers und dem Hochfahren des Servers (Win 2003 Domänencontroler) hat die Controlersoftware "Global Array Manager" den Controler auch gefunden. Leider hat der Manager eine Festplatte als defekt markiert und sogleich einen Rebuilt der Hotspare angefangen.

Das Raid/der Controller und die Festplatten waren vorher (in dem anderen Server) in Ordnung, weshalb ich jetzt nicht zwingend an einen Plattenfehler glauben mag. Aber egal, ich habe ja noch die getauschten Festplatten, die auch baugleich sind und bis vorhin auch fehlerfrei liefen, nur mit anderem Raid/Inhalt.

Ich habe von Raid's nicht wirklich Ahnung, bin auf einer Reise und habe, als Gefallen sozusagen, den Job des Tausches von Controller und Festplatten in einem Außenstandort meines Arbeitgebers übernommen, da ich in der Nähe war. Ich habe mich blenden lassen, dass die mitgebrachte Hardware ja funktioniert und "nur" 1 zu 1 in den anderen Server einzubauen ist. Meinen Kollegen erreiche ich leider nicht, so dass mir nur das Netz bleibt (so lange der Server noch läuft).

Nun habe ich mich versucht in die RAID5 - Klamotte(n) einzulesen, während des Rebuilds hatte ich genug Zeit, aber bin ganz verwirrt.

2 Sachen habe ich gelesen, die mich stutzig machen, so daß ich mich im Moment nix traue:

1. Nach einem Ausfall einer Platte und des Rebuilts der Hotspare ist die Konsistenz (Parity?) des Raids evetuell defekt!? Das könne dazu führen, dass der Server nach Neustart nicht mehr hochfährt oder sich Fehler in zukünftige Sicherungen einschleichen... Wie kann ich das (Konsistenz / Parity) überprüfen?

2. Und nun muss ja noch die defekte Platte ausgetauscht werden. Ich kann einfach eine des Mitgebrachten Servers nehmen (Baugleich), hab aber gelesen, dass soll unbedingt im laufenden Betrieb gemacht werden !? Ist für mich indsofern logisch, dass ja auf dieser Platte Info's für ein anderes Raid sind und damit wohl beim booten alles durcheinander kommen könnte... Stimmt das? Und sollte ich trotzdem vorher neu starten?


Nun bin ich total verunsichert, und trau mich nicht den Server einfach mal neu zu starten, die Platte auszutauschen oder ähnliches...

Was muss ich nach dem Rebuilt der Hotspare tun??

PS: Während des Rebulits habe ich noch schnell ein NTBackup auf eine verbaute IDE-Platte angeschoben.

Danke.

Content-ID: 119713

Url: https://administrator.de/contentid/119713

Ausgedruckt am: 24.11.2024 um 22:11 Uhr

bartlebi
bartlebi 04.07.2009 um 04:06:08 Uhr
Goto Top
Ich kenne das Dilemma mit Raid 5 bzw. Raid 10 aus einigen dramatischen Momenten.
Also, eines ist jetzt bei dem Austausch ganz wichtig.
Finger weg vom Ausschaltknopf.

Bei einem Raid5 kann grundsätzlich eine Festplatte ausfallen und der Server könnte auch mit vier oder zwei Platten noch laufen, weil die Paratität auf alle Platten verteilt läuft. Es gibt Raid5 mit drei Platten.

Da die Controller oft eine Festplatte aufgrund von Kleinigkeiten wie exakter Umdrehung und Syncronisation mit den anderen Platten auf das exakteste abstimmen, kommen dies Effekte zustande, das eine Platte als defekt markiert wird, obwohl diese noch funktioniert.

Eines muss allerdings stimmen, dass der Controller und die anderen Platten sicher laufen, nicht das zwischenzeitlich eine andere Platte sich auch abgemeldet hat.

Vorraussgesetzt, Du hast einen Markenserver wie HP, IBM etc. sind alle auf Hotplugin ausglegt.
Du kannst die Platte im heißen Betrieb ziehen.
Kurz sehen, dass der Controller, diese auch als entfernt markiert hat und dann die andere, aber wirklich baugleiche einsetzen.

Je nach Größe, dauert die Anpassung allerdings etwas länger.
Kommt aber wirklich auf den Server an.

Nach dem Rebuilt und der sicheren Anzeige des Controllers, kannst Du den Server neu durchstarten. Du brauchst Dir keine Gedanken über heimliche Fehler etc. machen. Der Controller ist in diesem Fall maßgebend.

Tip, für die Zukunft: Immer eine extra Hotspare-Platte mitlaufen lassen, die springt dann automatisch ein.

Im übrigen ist dieses Thema schon sehr ausführlich in diesem Forum behandelt worden.
Spunkmeyer
Spunkmeyer 04.07.2009 um 10:17:41 Uhr
Goto Top
Moin,

und vielen Dank für die Antwort. Hab mich auch noch ein wenig weiter in Raid-Geschten reingelesen. Gestern hatte ich sozusagen im Affekt diesen Thread geöffnet.

Zwischenzeitlich ist das Raid wiederhergestellt und die ursprünglich als defekt/"dead" markierte Festplatte ausgetauscht. Die Austauschplatte dient nun als neue HotSpare.

Irgendwas scheint mit dem Win-Tool "Global Array-Manager" nicht hinzuhauen, die neue Hotspare zu bestimmen ging nur über das Controller Bios und auch sonst geht mit dem Tool nicht viel.

Soweit ist das nun alles schick.

Ich bin nun am überlegen, auf Controller-Bios-Ebene einen Konsistenzcheck zu machen. Ich befürchte allerdings zum einen, dass der seeeehr lange dauert (Raid 5 , 5 Platten, 1 Hotspare), was meinen eigentlichen Urlaub noch mehr verkürzen würde.
Zum anderen befürchte ich, dass wenn Fehler gefunden werden, der Controller dann auch gleich das Raid nicht mehr mag... Oder stellen die Controller (bei augenscheinlich funktionierendem Raid) die Konstistenz dann automatisch wieder her?

Danke und Gruß
Spunkmeyer
Spunkmeyer
Spunkmeyer 04.07.2009 um 13:06:24 Uhr
Goto Top
Die Controllersoftware hat Fehler in der Datenintigrität gefunden.
An eine Reperatur mag ich nicht mehr glauben. Ich werde nun mit Acronis und NTBackup Finale Sicherungen ziehen und den Kram in einem frischen Raid wiederherstellen.

Vielen Dank nochmal für die nächtliche Hilfe / Anwort.