Raid Controller meldet Fehler, HDD Diagnose meldet nichts
Hallo,
Vorab:
ca. 3 Jahre alter Intel XEON Server
Intel SRCSAS144E Raid Controller
Western Digital Raptor mit 150GB
Unrecoverable medium error during recovery
ich hab ein Problem bei dem ich aktuell nicht mehr weiter komme, am Wochenende habe ich nach und nach eine HDD aus dem Raid 5 (mit Hot Spare) herausgenommen und diese ganz normal am PC mit den WD Data Lifeguard Diagnostic und Active Hard Disk Monior mehrfach geprüft und so. Dabei sind meines Erachtens nach keine nennenswerten Fehler auf allen 3 Platten aufgefallen, klar sind die Platten schon etwas gelaufen, die SMART Werte lagen aber alle im grünen Bereich und DLG hat nichts gemeldet!
Gestern schien alles noch recht gut zu laufen, nur heute spinnt der Controller komplett rum, extrem viele Meldungen "Unrecoverable medium error during recovery" auf ALLEN 3 HDDs!
Vorhin habe ich mal Data Lifeguard Diagnostic auf das Raid5 losgelassen und dort wurden dann auch tatsächlich fehlerhafte Sektoren gefunden, was bei den Einzeltest nicht der Fall war.
Spricht das nun eher dafür, dass der Controller eine Macke hat oder das alle HDDs tatsächlich eine Vielzahl an defekten Sektoren haben?
Mein Problem ist nun auch folgendes: Der Server der Probs macht ist der DC mit Unternehmensdaten und die Backups laufen in der letzten Zeit natürlich mit Fehlern durch! Ein neuer 2. Server (ENDLICH!) ist bestellt, nur das bringt mir JETZT gerade leider nichts. Ich habe keine Lust, dass der Server abraucht bevor der neue seine Funktion übernehmen kann.
Was kann ich noch tun? Wie gehe ich am besten vor?
Gruß
Vorab:
ca. 3 Jahre alter Intel XEON Server
Intel SRCSAS144E Raid Controller
Western Digital Raptor mit 150GB
Unrecoverable medium error during recovery
ich hab ein Problem bei dem ich aktuell nicht mehr weiter komme, am Wochenende habe ich nach und nach eine HDD aus dem Raid 5 (mit Hot Spare) herausgenommen und diese ganz normal am PC mit den WD Data Lifeguard Diagnostic und Active Hard Disk Monior mehrfach geprüft und so. Dabei sind meines Erachtens nach keine nennenswerten Fehler auf allen 3 Platten aufgefallen, klar sind die Platten schon etwas gelaufen, die SMART Werte lagen aber alle im grünen Bereich und DLG hat nichts gemeldet!
Gestern schien alles noch recht gut zu laufen, nur heute spinnt der Controller komplett rum, extrem viele Meldungen "Unrecoverable medium error during recovery" auf ALLEN 3 HDDs!
Vorhin habe ich mal Data Lifeguard Diagnostic auf das Raid5 losgelassen und dort wurden dann auch tatsächlich fehlerhafte Sektoren gefunden, was bei den Einzeltest nicht der Fall war.
Spricht das nun eher dafür, dass der Controller eine Macke hat oder das alle HDDs tatsächlich eine Vielzahl an defekten Sektoren haben?
Mein Problem ist nun auch folgendes: Der Server der Probs macht ist der DC mit Unternehmensdaten und die Backups laufen in der letzten Zeit natürlich mit Fehlern durch! Ein neuer 2. Server (ENDLICH!) ist bestellt, nur das bringt mir JETZT gerade leider nichts. Ich habe keine Lust, dass der Server abraucht bevor der neue seine Funktion übernehmen kann.
Was kann ich noch tun? Wie gehe ich am besten vor?
Gruß
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 141536
Url: https://administrator.de/contentid/141536
Ausgedruckt am: 25.11.2024 um 16:11 Uhr
7 Kommentare
Neuester Kommentar
Hi
die WD Diagnoistics sind leider sehr eng mit Fehlern bestückt, sprich melden auch nur wenn die HD bereits sich nicht mehr meldet. Evtl hast du Timeouts was weder im SMART noch auf der HD selbst protokolliert wird, dein Kontroller (Vermutlich ein ICP Abkömmling) merkt das aber sehr kritisch. Zum Test könntest du die DFT von Hitachi nehmen welche auch andere testen (advanced Test). Leider habe ich die letzten 15 Jahre kein Glück mehr mit WD gehabt (aber viele Hundert davon im Einsatz aufgrund der Geschwindigkeit) und bin immer wieder begeistert wie zuverlässig meine Hitachis dagegen laufen (sind in den selben Rechnern als Backup HD drinnen). Die Velociraptor ist auch mit einem 10% Grundausschuß bei uns verzeichnet...
Eine Lösung wäre (gibt einige Artikel hier dazu) mit ddrescue einen 1:1 Clone von der def HD zu ziehen, Elektronik tauschen (dein Controller merkt sonst den Tausch) und mal sehen was drescue an Lesefehlern meldete.
Gruß
Sam
die WD Diagnoistics sind leider sehr eng mit Fehlern bestückt, sprich melden auch nur wenn die HD bereits sich nicht mehr meldet. Evtl hast du Timeouts was weder im SMART noch auf der HD selbst protokolliert wird, dein Kontroller (Vermutlich ein ICP Abkömmling) merkt das aber sehr kritisch. Zum Test könntest du die DFT von Hitachi nehmen welche auch andere testen (advanced Test). Leider habe ich die letzten 15 Jahre kein Glück mehr mit WD gehabt (aber viele Hundert davon im Einsatz aufgrund der Geschwindigkeit) und bin immer wieder begeistert wie zuverlässig meine Hitachis dagegen laufen (sind in den selben Rechnern als Backup HD drinnen). Die Velociraptor ist auch mit einem 10% Grundausschuß bei uns verzeichnet...
Eine Lösung wäre (gibt einige Artikel hier dazu) mit ddrescue einen 1:1 Clone von der def HD zu ziehen, Elektronik tauschen (dein Controller merkt sonst den Tausch) und mal sehen was drescue an Lesefehlern meldete.
Gruß
Sam
Hi
ich habe selbst einmal eine HD für IBM mit entwickelt (S0633 ums genau zu nehmen), bzw lassen und die war verschriehen wegen hoher Ausfälle [so rund 80% im ersten Jahr](welche aber alle wegen fehlender Kühlung und damit Temperaturen weit über 50°C verursacht wurden). Meine beiden uralt Modelle laufen/liefen bei mir immer ohne Probleme. Es kommt immer drauf an welche Serie und wie man sie betreibt. Unsere Raptoren sind einfach vom Speed notwendig aber die Ausfallsrate ist halt auch entsprechend hoch (bei 150 Rechnern mit 300Stück), was man halt über die Menge sieht. Leider findet nicht die WDDIags den Fehler sondern RAID und DFT
Gruß
Sam
ich habe selbst einmal eine HD für IBM mit entwickelt (S0633 ums genau zu nehmen), bzw lassen und die war verschriehen wegen hoher Ausfälle [so rund 80% im ersten Jahr](welche aber alle wegen fehlender Kühlung und damit Temperaturen weit über 50°C verursacht wurden). Meine beiden uralt Modelle laufen/liefen bei mir immer ohne Probleme. Es kommt immer drauf an welche Serie und wie man sie betreibt. Unsere Raptoren sind einfach vom Speed notwendig aber die Ausfallsrate ist halt auch entsprechend hoch (bei 150 Rechnern mit 300Stück), was man halt über die Menge sieht. Leider findet nicht die WDDIags den Fehler sondern RAID und DFT
Gruß
Sam
Hi
Ich kenne es genau umgekehrt: selbe HD, selbe P/N, selbe Revision und auf jeden Fall selbe Firmware um maximale Gleichheit zu haben. Leider ist das heute selbst beim Hersteller schon schwierig das selbe eingeschickte Bauteil wieder zu bekommen; große Arrayhersteller wie Infortrend oder HP lagern die HDs am Anfang ein und verkaufen sie dann Jahre später teuer weiter. Naja seitdem die Normung in Sachen Latenzzeit, Busarbitrierung, LBA Sektorierung, ... sehr durchgreifend läuft und die Hersteller sich sogar an die Größen halten (drei 80GB HDs von zwei Herstellern und drei unterschiedliche LBA Anzahl) ist dies denke ich nur noch eine Frage der unterschiedlichen Reaktionszeiten. Das Grundkonzept der Symetrie, gerade bei R0/1/2 bliebt aber immer noch sinnig.
Gruß
Sam
Ich kenne es genau umgekehrt: selbe HD, selbe P/N, selbe Revision und auf jeden Fall selbe Firmware um maximale Gleichheit zu haben. Leider ist das heute selbst beim Hersteller schon schwierig das selbe eingeschickte Bauteil wieder zu bekommen; große Arrayhersteller wie Infortrend oder HP lagern die HDs am Anfang ein und verkaufen sie dann Jahre später teuer weiter. Naja seitdem die Normung in Sachen Latenzzeit, Busarbitrierung, LBA Sektorierung, ... sehr durchgreifend läuft und die Hersteller sich sogar an die Größen halten (drei 80GB HDs von zwei Herstellern und drei unterschiedliche LBA Anzahl) ist dies denke ich nur noch eine Frage der unterschiedlichen Reaktionszeiten. Das Grundkonzept der Symetrie, gerade bei R0/1/2 bliebt aber immer noch sinnig.
Gruß
Sam