Fehler Disk ID 7 Fehlerhafter Block raid 5 system
Guten Tag zusammen,
langsam bin ich etwas am verzweifeln.
System: Microsoft Windows Server 2003 SP2
Exchange Server
Raid 5 System - MegaRaid SAS 8308ELP
Seit einen Systemabsturz erscheint immer wieder in der Ereignissanzeige folgendes: Disk Fehler ID: 7
Fehlerhafter Block bei Gerät \Device\Harddisk1
lässt mich vermuten das eine der Platten einen defekt hat. Leider finde ich im Array Manager keinerlei Fehler. Daher weiß ich nicht welche Platte ausgetauscht werden müsste. chkdsk hat auch keine Ergebnisse gebracht.
Ein weiteres Problem ist vermutlich dadruch entstanden, Fehler Code 7011 Service Control Manager - Zeitberschreitung (30000 ms) beim Warten auf eine Transaktionsrckmeldung von Dienst NtFrs. - Dies hat bewirkt das das System für wenige Minuten komplett eingefrohren ist und die Verbindungen in Outlook getrennt wurden. Habe das aber behoben indem ich die Zeit für eine Zeitüberschreibung in der Registry erhöht habe.
Kann mir jemand erklären wie ich herrausfinde welche der drei Platten einen defekt hat. Wäre dann wohl der schönste weg diese einfach auszutauschen.
Viel Dank schonmal,
André
langsam bin ich etwas am verzweifeln.
System: Microsoft Windows Server 2003 SP2
Exchange Server
Raid 5 System - MegaRaid SAS 8308ELP
Seit einen Systemabsturz erscheint immer wieder in der Ereignissanzeige folgendes: Disk Fehler ID: 7
Fehlerhafter Block bei Gerät \Device\Harddisk1
lässt mich vermuten das eine der Platten einen defekt hat. Leider finde ich im Array Manager keinerlei Fehler. Daher weiß ich nicht welche Platte ausgetauscht werden müsste. chkdsk hat auch keine Ergebnisse gebracht.
Ein weiteres Problem ist vermutlich dadruch entstanden, Fehler Code 7011 Service Control Manager - Zeitberschreitung (30000 ms) beim Warten auf eine Transaktionsrckmeldung von Dienst NtFrs. - Dies hat bewirkt das das System für wenige Minuten komplett eingefrohren ist und die Verbindungen in Outlook getrennt wurden. Habe das aber behoben indem ich die Zeit für eine Zeitüberschreibung in der Registry erhöht habe.
Kann mir jemand erklären wie ich herrausfinde welche der drei Platten einen defekt hat. Wäre dann wohl der schönste weg diese einfach auszutauschen.
Viel Dank schonmal,
André
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 152118
Url: https://administrator.de/contentid/152118
Ausgedruckt am: 23.11.2024 um 05:11 Uhr
9 Kommentare
Neuester Kommentar
Hi
da scheint keine direkt defekt zu sein (sonst muß dein Kontroller anspringen, er kann ja durch N+1 den Fehler auf einer HD beheben, egal wie viel), sondern dein Kontroller meldet keinen Fehler/Daten zurück (evtl meldet die HD auch keinen Fehler und gibt Mülldaten zurück; das hatte ich mit Seagate und Fujitsu HDs einmal in unterschiedlichen ICP Vortex Controllern) und wird dann vom OS als defekt (Block) erkannt. Solche Fehler kenne ich eigentlich nur von unserem Areca und Highpoint Kontrollern, bei denen dann meist ein BSOD folgt; Was passiert wenn du einen chkdsk /r anwirfst?
Alternativ: nimm die HDs offline raus und teste sie einzeln mit den Herstellertools oder fast besser mit einem dummen ddrescue /dev/sdx /dev/null; die mit Fehlern dann im Offline noch rausnehmen und durch eine Fehlerfreie ersetzen
Gruß
Sam
da scheint keine direkt defekt zu sein (sonst muß dein Kontroller anspringen, er kann ja durch N+1 den Fehler auf einer HD beheben, egal wie viel), sondern dein Kontroller meldet keinen Fehler/Daten zurück (evtl meldet die HD auch keinen Fehler und gibt Mülldaten zurück; das hatte ich mit Seagate und Fujitsu HDs einmal in unterschiedlichen ICP Vortex Controllern) und wird dann vom OS als defekt (Block) erkannt. Solche Fehler kenne ich eigentlich nur von unserem Areca und Highpoint Kontrollern, bei denen dann meist ein BSOD folgt; Was passiert wenn du einen chkdsk /r anwirfst?
Alternativ: nimm die HDs offline raus und teste sie einzeln mit den Herstellertools oder fast besser mit einem dummen ddrescue /dev/sdx /dev/null; die mit Fehlern dann im Offline noch rausnehmen und durch eine Fehlerfreie ersetzen
Gruß
Sam
Wie viele BadBlocks meldet denn dein chkdsk (kannst du im Eventlog-System-winlogon nachsehen)? Die Probleme die ich in der Richtung kenne stammen alle von einem Fehlverhalten HD/Controller her: wenn der Kontroller bei x sek keine Daten bekommen hat (HD) muß er die HD entweder deaktivieren oder den Block markieren/austauschen. Dein OS sollte nur bei nicht wiederherstellbaren Blöcken (von 3 members im R5 also zwei gleichzeitig Bad). Bisher entspricht es meiner Erfahrung wenn die HDs nicht den Richtlinien folgen, sprich vom (controller) Hersteller auch nicht dafür erlaubt sind; da hatte ich selbst schon ein Array aus 16 Hds bei der am Tag so zwei ausfielen und ich erst nach dem Wechsel der alten Marke (SGT) auf die neue (HIT) keine Ausfälle in JAhren vermelden mußte; Problematisch war dabei eher das die HD einwandfrei im Test und Verhalten war aber mit dem Timing des Controllers (Areca) gar nicht zurecht kam.
Gruß
Sam
Gruß
Sam
Hi
ja das ist die Windowsbezeichnunng für die erste Logische HD; das ist die OS Ansicht, sprich dein R5 Array ist damit gemeint. Bei einem Hardware RAID soll das OS auch nichts davon sehen (transparent); wenn dann muß dein Kontroller das sehen (entgegen meiner teils schlechten Erfahrung mit bestimmten Kombinationen).
An Deiner Stelle (mußte das ja auch schon öfters durchgehen), würde ich folgendes machen:
a) Treiber im OS auf Stand bringen
b) Firmware im Kontroller auf Stand bringen
c) SMART Werte auslesen+HD's einzeln (offline) mittels ddrescue 1:1kopieren um auf Lesefehler zu stoßen; danach SMART erneut auslesen und vergleichen. [sofern du drei HDs nur hast kannst du sie ja alle parallel testen; bei 10 oder 15k HDs geht das ja innerhalb einer Stunde]
d) sofern die HDs in Ordnung sind solltest du asap einen anderen Kontroller angehen und solange möglich ein Image von der jetzigen Inst ziehen (HDs wieder online).
Solltest du eine def HD finden, kannst du sie mit der R5 Rebuild Funktion ersetzen, zur Not (lesefehler auf zweiter dazu) kannst du immer noch ein Image mittels ddrescue erstellen.
Wenn alle Stricke reißen: ich lebe von solchen Fällen. Vermutlich ist es aber ein simpler Bug im Kontroller (SMART Werte lügen nur selten)
Gruß
Sam
ja das ist die Windowsbezeichnunng für die erste Logische HD; das ist die OS Ansicht, sprich dein R5 Array ist damit gemeint. Bei einem Hardware RAID soll das OS auch nichts davon sehen (transparent); wenn dann muß dein Kontroller das sehen (entgegen meiner teils schlechten Erfahrung mit bestimmten Kombinationen).
An Deiner Stelle (mußte das ja auch schon öfters durchgehen), würde ich folgendes machen:
a) Treiber im OS auf Stand bringen
b) Firmware im Kontroller auf Stand bringen
c) SMART Werte auslesen+HD's einzeln (offline) mittels ddrescue 1:1kopieren um auf Lesefehler zu stoßen; danach SMART erneut auslesen und vergleichen. [sofern du drei HDs nur hast kannst du sie ja alle parallel testen; bei 10 oder 15k HDs geht das ja innerhalb einer Stunde]
d) sofern die HDs in Ordnung sind solltest du asap einen anderen Kontroller angehen und solange möglich ein Image von der jetzigen Inst ziehen (HDs wieder online).
Solltest du eine def HD finden, kannst du sie mit der R5 Rebuild Funktion ersetzen, zur Not (lesefehler auf zweiter dazu) kannst du immer noch ein Image mittels ddrescue erstellen.
Wenn alle Stricke reißen: ich lebe von solchen Fällen. Vermutlich ist es aber ein simpler Bug im Kontroller (SMART Werte lügen nur selten)
Gruß
Sam