HP SATA-RAID Proliant ML310 G5 Problem
Im RAID ist aktuelle eine Festplatte ausgefallen.
Hallo zusammen,
ich habe bei einem Kunden folgendes Problem. Er hat einen HP Proliant ML310 G5 Server auf welchem Windows 2003 als primärer DC läuft. Auf diesem System sind zwei HDDs eingebunden, welche über den HP SATA Raid-Controller zu einem Raid 1 zusammengeschaltet sind. Nun ist eine HDD des Raid ausgefallen. Ich habe diese ersetzt und das Rebuild des Raid angestoßen. Dies läuft bis 99% durch, dann bricht der HP Storage Manager ab und meldet einen "Bad Block" auf dem noch funktionierenden Laufwerk. Ich habe bisher keien Möglichkeit gefunden das Rebuilding des Raid unter Ignorierung des Blockfehlers fortzusetzen. Daher Frage Nummer 1, kennt jemand hierfür eine Möglichkeit?
Sollte ein Rebuilding in diesem Fall grundsätzlich nicht möglich sein, sehe ich eine weitere Möglichkeit das System zu retten. Von dem System wird jede Nacht mit Acronis True Image Echo Server 8.163 ein Image erstellt. Nun habe ich mir überlegt, dass ich den Server ganz herunterfahre, die noch funktionsfähige Platte ausbaue und durch eine neue ersetze. Anschließend ein neues Raid konfiguriere und in dies dann per Acronis Notfall-CD das Image der Systempartition einspiele. Das sollte soweit ja gehen. Was ist aber, wenn es dabei zu Problemen kommt also das OS danach z.B. nicht booten will. Kann ich dann ohne weiteres die Platten mit dem neuen Array entfernen und erstmal die alte noch lauffähige Platte wieder einbauen und von dieser boote. Der Server ist der einzigste den der Kunde hat.
Hier noch einige Infos zur Hardware:
- HP SATA Onboard Raidcontroller
- 2 HP SATA HDDs
OS:
Win2003 Server als primärer DC.
Bin für jede Hilfe dankbar. Beiß mir an dem Problem seit Mittwoch schon die Zähne aus.
Gruß
Stefan
Hallo zusammen,
ich habe bei einem Kunden folgendes Problem. Er hat einen HP Proliant ML310 G5 Server auf welchem Windows 2003 als primärer DC läuft. Auf diesem System sind zwei HDDs eingebunden, welche über den HP SATA Raid-Controller zu einem Raid 1 zusammengeschaltet sind. Nun ist eine HDD des Raid ausgefallen. Ich habe diese ersetzt und das Rebuild des Raid angestoßen. Dies läuft bis 99% durch, dann bricht der HP Storage Manager ab und meldet einen "Bad Block" auf dem noch funktionierenden Laufwerk. Ich habe bisher keien Möglichkeit gefunden das Rebuilding des Raid unter Ignorierung des Blockfehlers fortzusetzen. Daher Frage Nummer 1, kennt jemand hierfür eine Möglichkeit?
Sollte ein Rebuilding in diesem Fall grundsätzlich nicht möglich sein, sehe ich eine weitere Möglichkeit das System zu retten. Von dem System wird jede Nacht mit Acronis True Image Echo Server 8.163 ein Image erstellt. Nun habe ich mir überlegt, dass ich den Server ganz herunterfahre, die noch funktionsfähige Platte ausbaue und durch eine neue ersetze. Anschließend ein neues Raid konfiguriere und in dies dann per Acronis Notfall-CD das Image der Systempartition einspiele. Das sollte soweit ja gehen. Was ist aber, wenn es dabei zu Problemen kommt also das OS danach z.B. nicht booten will. Kann ich dann ohne weiteres die Platten mit dem neuen Array entfernen und erstmal die alte noch lauffähige Platte wieder einbauen und von dieser boote. Der Server ist der einzigste den der Kunde hat.
Hier noch einige Infos zur Hardware:
- HP SATA Onboard Raidcontroller
- 2 HP SATA HDDs
OS:
Win2003 Server als primärer DC.
Bin für jede Hilfe dankbar. Beiß mir an dem Problem seit Mittwoch schon die Zähne aus.
Gruß
Stefan
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 152761
Url: https://administrator.de/contentid/152761
Ausgedruckt am: 22.11.2024 um 10:11 Uhr
14 Kommentare
Neuester Kommentar
Hallo Stefan,
willkommen im Club. Ich vermute, daß auch der ML 310 mit einem "integrierten" Raidcontroller daher kommt?? nvidia??
Da habe ich mir hier: ProLiant ML115 (Soft)raid1 auflösen möglich? auch schon den Hals verbreitert ... Nach meiner - etwas laienhaften - Meinung ist es sicherer, komplett auf diese raid-Lösung zu verzichten. Ich hatte damals - allerdings mit True Image 9.1 - probehalber den SBS auf eine andere Maschine ohne raid rückgesichert, dies schien mir gelungen. Allerdings habe ich das Dingens dann nicht mehr angepaßt und "stress-getestet", da sich mein Problem mit dem nvidia-raid mittels firmware-upgrade - zumindest bis heute - erledigt hatten. Trotzdem gehe ich von Zeit zu Zeit ganz nahe an den Server heran, um zu prüfen, ob ich das Ticken des Zeitzünders schon wieder hören kann ...
Sobald das Ding wieder zickt, tausche ich die Maschine komplett aus - HP kommt mir dann nicht wieder in die Praxis.
Ich würde Dir tatsächlich empfehlen - so noch möglich - aktuelle firmware und die Treiber des "controllers" nach Imagesicherung auch mit der defekten Platte einzuspielen und die Platte danach noch einmal gegen eine neue auszutauschen - was das Ergebnis angeht, wird man sehen. Du brauchst dann die Woche zumindest keinen Lotto-Schein mehr zu kaufen ....
Gruß, Thomas
willkommen im Club. Ich vermute, daß auch der ML 310 mit einem "integrierten" Raidcontroller daher kommt?? nvidia??
Da habe ich mir hier: ProLiant ML115 (Soft)raid1 auflösen möglich? auch schon den Hals verbreitert ... Nach meiner - etwas laienhaften - Meinung ist es sicherer, komplett auf diese raid-Lösung zu verzichten. Ich hatte damals - allerdings mit True Image 9.1 - probehalber den SBS auf eine andere Maschine ohne raid rückgesichert, dies schien mir gelungen. Allerdings habe ich das Dingens dann nicht mehr angepaßt und "stress-getestet", da sich mein Problem mit dem nvidia-raid mittels firmware-upgrade - zumindest bis heute - erledigt hatten. Trotzdem gehe ich von Zeit zu Zeit ganz nahe an den Server heran, um zu prüfen, ob ich das Ticken des Zeitzünders schon wieder hören kann ...
Sobald das Ding wieder zickt, tausche ich die Maschine komplett aus - HP kommt mir dann nicht wieder in die Praxis.
Ich würde Dir tatsächlich empfehlen - so noch möglich - aktuelle firmware und die Treiber des "controllers" nach Imagesicherung auch mit der defekten Platte einzuspielen und die Platte danach noch einmal gegen eine neue auszutauschen - was das Ergebnis angeht, wird man sehen. Du brauchst dann die Woche zumindest keinen Lotto-Schein mehr zu kaufen ....
Gruß, Thomas
Hallo,
boote die Kiste normal ins Windows ohne ein Rebuild.
Starte Scandisk mit beiden Optionen angehakt, bestätige die folgende Frage
mit "Ja" und Reboote die Kiste.
Lass Scandisk durchlaufen (geht Kaffee trinken, Mittagessen, hol dir eine Zeitung,
ließ etwas über C++... Das dauert nun eine ganze Weile).
Danach sollte Scandisk irgendwann einen Übersichtsbildschirm zeigen mit einer
Zusammenfassung über den Datenträger und mit Sicherheit auch Bytes in Fehlerhaften
Sektoren...
Danach reboote die Kiste bzw. das wird sie selbst tun.
Fahre sie nach erfolgreichem Bootvorgang wieder sauber herunter bzw. starte neu und
rebuilde dein Raid.
Sollte imho nun funktionieren da nun die Fehlerhaften Sektoren in der Platte als Bad
eingetragen, und Spare Sektoren zur Verfügung gestellt worden sind und dein Raid
nun diese auslesen sollte statt der kapputten beim Rebuild.
Ist das Rebuild fertig, boote und schau obs tut danach die Kiste gleich wieder herunterfahren
und auch die 1. Platte austauschen denn die wird als nächstes das zeitliche segnen und
wieder rebuilden.
Mfg.
boote die Kiste normal ins Windows ohne ein Rebuild.
Starte Scandisk mit beiden Optionen angehakt, bestätige die folgende Frage
mit "Ja" und Reboote die Kiste.
Lass Scandisk durchlaufen (geht Kaffee trinken, Mittagessen, hol dir eine Zeitung,
ließ etwas über C++... Das dauert nun eine ganze Weile).
Danach sollte Scandisk irgendwann einen Übersichtsbildschirm zeigen mit einer
Zusammenfassung über den Datenträger und mit Sicherheit auch Bytes in Fehlerhaften
Sektoren...
Danach reboote die Kiste bzw. das wird sie selbst tun.
Fahre sie nach erfolgreichem Bootvorgang wieder sauber herunter bzw. starte neu und
rebuilde dein Raid.
Sollte imho nun funktionieren da nun die Fehlerhaften Sektoren in der Platte als Bad
eingetragen, und Spare Sektoren zur Verfügung gestellt worden sind und dein Raid
nun diese auslesen sollte statt der kapputten beim Rebuild.
Ist das Rebuild fertig, boote und schau obs tut danach die Kiste gleich wieder herunterfahren
und auch die 1. Platte austauschen denn die wird als nächstes das zeitliche segnen und
wieder rebuilden.
Mfg.
Das geht generell.
Da wohl in diesem Fall die 2. Platte aus dem Raid1 komplett tot war und
ersetzt wurde, die 1. Platte wohl ebenfalls fehlerhafte Sektoren aufweißt.
Scandisk mit beiden angehakten Optionen (untere reicht, aber in so einem
Fall würde ich natürlich auch das Dateisystem auf Fehler prüfen) nach
fehlerhaften Sektoren auf der kompletten Plattenoberfläche sucht und diese
ggf. in der Internen Fehlertabelle einträgt. Die Platte wird dann angewiesen
diese Sektoren auszuklammern und Spare-Sektoren dafür bereit zu stellen.
Im Oberen Fall sieht das etwa so aus:
Platte mit Raid1 und Kapazität X soll kopiert bzw. rebuildet werden.
Dazu geht der Kontroller her und ließt jeden Sektor nacheinander aus und kopiert
den Inhalt auf die 2. Platte. Befindet sich in Sektor (Hausnummer) 5000 z.B. ein Defekt,
meldet der Controller (und jedes OS das dort Daten lesen/schreiben möchte) einen Fehler.
Scandisk lässt also bei Erkennung dieses fehlerhaften Sektors diesen ausklammern und
einen Ersatzsektor auf der Platte dafür einsetzen. Beim nächsten Zugriff auf Sektor 5000
greift die Platte dann z.B. auf Sektor 999959 irgendwas (ebenfalls erfundene Hausnummer)
zu und gibt die Daten als die von Sektor 5000 zurück.
Da ein Kopieren fehlerhafter Sektoren nicht möglich ist, muss man in solch einem Fall der Platte
halt erstmal mitteilen das dort kapputte Sektoren liegen und diese ersetzen lassen damit der Controller
später die Ersatzsektoren hernimmt statt der originalen.
Allerdings... Und nun kommt der Haken:
Das ganze funktioniert nur auf Dateisystem Ebene. Löscht man die Partition oder wiped die Platte mit 0en
aus, so gehen diese Software seitigen Korrekturen verloren. Da die Software Raid Controller aber meißt auf
der Basis ihrer Virtuellen Laufwerksebene arbeiten lesen sie diese Ersatzsektoren mit.
Geht man runter auf die Hardware ohne Dateisystem Berücksichtigung, siehts minimal anders aus.
An dieser Stelle sollte man die div. Tools der Plattenhersteller nehmen und mit diesen eine Diagnose durchführen.
Finden diese fehlerhafte Sektoren werden die Spare Sektoren "richtig" umgebogen auf Hardware Ebene in der
Tabelle der Platte. Die Scandisk Variante ist also u.U. nur von zeiweiser Dauer, wäre hier aber der 1. Ansatz zur
Lösung des Problems da Du die im Moment noch "funktionierende" Platte ohnehin schnellmöglich austauschen
solltest nach dem 1. Erfolgreichen Rebuild auf die Neue Platte.
Mfg.
Da wohl in diesem Fall die 2. Platte aus dem Raid1 komplett tot war und
ersetzt wurde, die 1. Platte wohl ebenfalls fehlerhafte Sektoren aufweißt.
Scandisk mit beiden angehakten Optionen (untere reicht, aber in so einem
Fall würde ich natürlich auch das Dateisystem auf Fehler prüfen) nach
fehlerhaften Sektoren auf der kompletten Plattenoberfläche sucht und diese
ggf. in der Internen Fehlertabelle einträgt. Die Platte wird dann angewiesen
diese Sektoren auszuklammern und Spare-Sektoren dafür bereit zu stellen.
Im Oberen Fall sieht das etwa so aus:
Platte mit Raid1 und Kapazität X soll kopiert bzw. rebuildet werden.
Dazu geht der Kontroller her und ließt jeden Sektor nacheinander aus und kopiert
den Inhalt auf die 2. Platte. Befindet sich in Sektor (Hausnummer) 5000 z.B. ein Defekt,
meldet der Controller (und jedes OS das dort Daten lesen/schreiben möchte) einen Fehler.
Scandisk lässt also bei Erkennung dieses fehlerhaften Sektors diesen ausklammern und
einen Ersatzsektor auf der Platte dafür einsetzen. Beim nächsten Zugriff auf Sektor 5000
greift die Platte dann z.B. auf Sektor 999959 irgendwas (ebenfalls erfundene Hausnummer)
zu und gibt die Daten als die von Sektor 5000 zurück.
Da ein Kopieren fehlerhafter Sektoren nicht möglich ist, muss man in solch einem Fall der Platte
halt erstmal mitteilen das dort kapputte Sektoren liegen und diese ersetzen lassen damit der Controller
später die Ersatzsektoren hernimmt statt der originalen.
Allerdings... Und nun kommt der Haken:
Das ganze funktioniert nur auf Dateisystem Ebene. Löscht man die Partition oder wiped die Platte mit 0en
aus, so gehen diese Software seitigen Korrekturen verloren. Da die Software Raid Controller aber meißt auf
der Basis ihrer Virtuellen Laufwerksebene arbeiten lesen sie diese Ersatzsektoren mit.
Geht man runter auf die Hardware ohne Dateisystem Berücksichtigung, siehts minimal anders aus.
An dieser Stelle sollte man die div. Tools der Plattenhersteller nehmen und mit diesen eine Diagnose durchführen.
Finden diese fehlerhafte Sektoren werden die Spare Sektoren "richtig" umgebogen auf Hardware Ebene in der
Tabelle der Platte. Die Scandisk Variante ist also u.U. nur von zeiweiser Dauer, wäre hier aber der 1. Ansatz zur
Lösung des Problems da Du die im Moment noch "funktionierende" Platte ohnehin schnellmöglich austauschen
solltest nach dem 1. Erfolgreichen Rebuild auf die Neue Platte.
Mfg.
Würde ich wie gesagt an erster Stelle probieren mit Scandisk.
Bricht der Rebuild dann trotzdem ab, schau nach was für Platten das sind und
lade dir beim entsprechenden Hersteller die Diagnostik Tools herunter, sollten
relativ einfach zu finden sein, zumindst bei WD und Seagate ist das kein Problem.
Wenn du Glück hast, reicht Scandisk aus und die Kiste läuft nach danach wieder.
Wenn nicht hast du halt 2-3h Zeit verschenkt und musst mit den Tools ran ;)
Wünsche dir viel Erfolg.
Mfg.
Bricht der Rebuild dann trotzdem ab, schau nach was für Platten das sind und
lade dir beim entsprechenden Hersteller die Diagnostik Tools herunter, sollten
relativ einfach zu finden sein, zumindst bei WD und Seagate ist das kein Problem.
Wenn du Glück hast, reicht Scandisk aus und die Kiste läuft nach danach wieder.
Wenn nicht hast du halt 2-3h Zeit verschenkt und musst mit den Tools ran ;)
Wünsche dir viel Erfolg.
Mfg.
Hi !
Das Tool nennt sich Seatools, für WD Platten nennt es sich Lifeguard Diagnostics, für Hitachi Drive Fitness Test und bei Samsung gibt es mehrere Tools...Jetzt sag aber nicht Du bist der Admin des Servers oder ein externer Service'ler, denn der sollte alle diese Tools (eigentlich) in- und auswendig kennen oder Du bist ganz schön "mutig"... :-P
Das Tool nennt sich Seatools, für WD Platten nennt es sich Lifeguard Diagnostics, für Hitachi Drive Fitness Test und bei Samsung gibt es mehrere Tools...Jetzt sag aber nicht Du bist der Admin des Servers oder ein externer Service'ler, denn der sollte alle diese Tools (eigentlich) in- und auswendig kennen oder Du bist ganz schön "mutig"... :-P