NAS Boxen mit Software-Raid und Auflösung des Raid-Verbund, z.b. Thecus N4200pro
Rechercheergebnis und Erfahrungsbericht zu einer Thecus N4200pro Nas-Box mit Software-Raid unter Linux nach Ausfall einer Festplatte
Dieser Bericht bezieht sich auf NAS-Boxen von Thecus in der Klasse 4000-5000 uä, die nicht mittels Hardware-Raid-Controller funktionieren, sondern als Software-Raid unter Linux aufgebaut sind.
Nach Ausfall meines Raid-Verbunds nach einigen Monaten Laufzeit hier das Ergebnis meiner Recherchen:
Meine Box habe ich als Raid-5 mit 4 Disks eingerichtet.
Nach 3 Monaten Betrieb meldete die Box, dass eine Festplatte schadhaft sei und der Raid Verbund "degraded" sei, d.h. die schadhafte
Platte müsse ersetzt werden, damit der Raid Verbund wieder in den sicheren Betrieb gehen könne.
Diagnoseinformationen liefert die Box nicht. Die einzige Meldung in den Logs lautet "I/O disk error in Slot2".
Eine Suche im Netz ergab sehr viele Treffer, in denen es meist darum ging, dass in vielen Fällen die Platten nicht schadhaft sind, sondern folgende Probleme bestehen könnten:
-Der Slot in dem die Platte hängt, produziert Fehler. Ursache hierfür sind lose oder kaputte Sata-Kabel/Stecker, kalte Löststellen am Mainboard etc.
-Software Raid sind sehr fragil. Wie es scheint reagieren die Nas-Boxen sehr empfindlich auf die Antwortzeit der Festplatten. Reagiert die Platte einmal nicht schnell genug, wird sie aus dem Raid geworfen und
als schadhaft markiert. Das Nas bindet diese Platte dann nicht mehr ein. Festplatten, die nicht für Serverbetrieb ("Dauerläufer") ausgelegt sind, haben keine definierte Antwortzeit, wenn sie einen fehlerhaften Sektor gefunden haben - sie markieren den Sektor als fehlerhaft und suchen einen Ersatzsektor hierfür, während dieser Zeit gehen sie "offline". Wenn während dieser Zeit eine Anfrage vom Nas kommt, antworten sie nicht schnell genug und das Nas wirft sie aus dem Raid-Verbund. Bei WD heißt das Feature der definierten Antwortzeit "TLER". Aber auch Platten mit TLER haben Probleme, es scheint, dass die Antwortzeit von TLER zu hoch eingestellt sein könnte. Die Nas Box hat dazu keine Einstellungsmöglichkeiten.
-WD-Green Platten sind generell ungeeignet für NAS-Betrieb (kein Wunder). Sie schalten sich nach sehr kurzer Zeit von selbst in den Ruhezustand. Das Nas kriegt dies nicht mit und weckt diese Platten durch seine Anfragen ständig wieder auf. Es scheint, dass die Platten dadurch in kurzer Zeit (Wochen, Monate) überbeansprucht werden und ausfallen können. Weiters erscheint es möglich, dass dieses Aufwachen zu lange dauert und die Platte dann aus dem Raid-Verbund fliegt.
-Festplatten, die in der Liste der unterstützten Festplatten gelistet sind, werden später vom Hersteller als problematisch erkannt und aus der Liste wieder rausgenommen oder Firmware-Updates des Nas
machen die Box inkompatibel zu bestimmten Platten.
-Einschicken der Nas-Box ist meistens nicht erfolgversprechend, da die Fehler schwer zu reproduzieren sind bzw. anscheinend nicht lange genug getestet wird. Auch ist die Support-Prozedur, die der User durchführen soll, bevor er einschicken darf, aufwendig - es muss ausgeschlossen werden, dass die Platte schadhaft ist, dazu verlangt der Hersteller mehrfache Raid-Initialisierung mit jeweiligem Wechsel der Slots durch den User, was aufgrund der langen Initialisierungsdauer eines Raid mehrere Tage in Anspruch nimmt.
Beispiel-Links zu diesen Themen:
http://www.thecus.com/forum/viewtopic.php?f=34&t=1428
http://forum.thecus.com/viewtopic.php?f=11&t=1245
http://forum.thecus.com/viewtopic.php?f=20&t=1030
In meinem Fall habe ich die betroffene Platte (Hitachi Deskstar 7K2000, vom Hersteller als geeignete Platte bezeichnet) ausgebaut und an einem PC mit dem Hitachi-Diagnosetool getestet. Das hat keinerlei Fehler gefunden - weder Smart-Fehler, noch Fehler beim Testen. Da das Testtool auch die Fehler-Logs der Platte abfragt, habe ich mir einen kompletten Oberflächenscan gespart - wäre eine Bad-Sector-Reallocation-Prozedur passiert, hätte das Log einen Eintrag gehabt.
Mit dem Hitachi-Tool habe ich dann die Platte neu initialisiert und dann wieder in den alten Slot im Nas eingebaut. Das Nas hat die Festplatte als neu erkannt und den Raid Verbund ohne Probleme wieder aufgebaut.
Der Verbund funktioniert zur Zeit (2 Tage), aber das Vertrauen ist zerstört - das NAS wird jetzt auf externe Platten gesichert, was nicht der Sinn der Sache ist.. Letztstand ist also, dass mir in 10 Jahren noch keine externe Einzelfestplatte eingegangen ist, aber das NAS nach nur 3 Monaten Fehler produziert..
Dieser Bericht bezieht sich auf NAS-Boxen von Thecus in der Klasse 4000-5000 uä, die nicht mittels Hardware-Raid-Controller funktionieren, sondern als Software-Raid unter Linux aufgebaut sind.
Nach Ausfall meines Raid-Verbunds nach einigen Monaten Laufzeit hier das Ergebnis meiner Recherchen:
Meine Box habe ich als Raid-5 mit 4 Disks eingerichtet.
Nach 3 Monaten Betrieb meldete die Box, dass eine Festplatte schadhaft sei und der Raid Verbund "degraded" sei, d.h. die schadhafte
Platte müsse ersetzt werden, damit der Raid Verbund wieder in den sicheren Betrieb gehen könne.
Diagnoseinformationen liefert die Box nicht. Die einzige Meldung in den Logs lautet "I/O disk error in Slot2".
Eine Suche im Netz ergab sehr viele Treffer, in denen es meist darum ging, dass in vielen Fällen die Platten nicht schadhaft sind, sondern folgende Probleme bestehen könnten:
-Der Slot in dem die Platte hängt, produziert Fehler. Ursache hierfür sind lose oder kaputte Sata-Kabel/Stecker, kalte Löststellen am Mainboard etc.
-Software Raid sind sehr fragil. Wie es scheint reagieren die Nas-Boxen sehr empfindlich auf die Antwortzeit der Festplatten. Reagiert die Platte einmal nicht schnell genug, wird sie aus dem Raid geworfen und
als schadhaft markiert. Das Nas bindet diese Platte dann nicht mehr ein. Festplatten, die nicht für Serverbetrieb ("Dauerläufer") ausgelegt sind, haben keine definierte Antwortzeit, wenn sie einen fehlerhaften Sektor gefunden haben - sie markieren den Sektor als fehlerhaft und suchen einen Ersatzsektor hierfür, während dieser Zeit gehen sie "offline". Wenn während dieser Zeit eine Anfrage vom Nas kommt, antworten sie nicht schnell genug und das Nas wirft sie aus dem Raid-Verbund. Bei WD heißt das Feature der definierten Antwortzeit "TLER". Aber auch Platten mit TLER haben Probleme, es scheint, dass die Antwortzeit von TLER zu hoch eingestellt sein könnte. Die Nas Box hat dazu keine Einstellungsmöglichkeiten.
-WD-Green Platten sind generell ungeeignet für NAS-Betrieb (kein Wunder). Sie schalten sich nach sehr kurzer Zeit von selbst in den Ruhezustand. Das Nas kriegt dies nicht mit und weckt diese Platten durch seine Anfragen ständig wieder auf. Es scheint, dass die Platten dadurch in kurzer Zeit (Wochen, Monate) überbeansprucht werden und ausfallen können. Weiters erscheint es möglich, dass dieses Aufwachen zu lange dauert und die Platte dann aus dem Raid-Verbund fliegt.
-Festplatten, die in der Liste der unterstützten Festplatten gelistet sind, werden später vom Hersteller als problematisch erkannt und aus der Liste wieder rausgenommen oder Firmware-Updates des Nas
machen die Box inkompatibel zu bestimmten Platten.
-Einschicken der Nas-Box ist meistens nicht erfolgversprechend, da die Fehler schwer zu reproduzieren sind bzw. anscheinend nicht lange genug getestet wird. Auch ist die Support-Prozedur, die der User durchführen soll, bevor er einschicken darf, aufwendig - es muss ausgeschlossen werden, dass die Platte schadhaft ist, dazu verlangt der Hersteller mehrfache Raid-Initialisierung mit jeweiligem Wechsel der Slots durch den User, was aufgrund der langen Initialisierungsdauer eines Raid mehrere Tage in Anspruch nimmt.
Beispiel-Links zu diesen Themen:
http://www.thecus.com/forum/viewtopic.php?f=34&t=1428
http://forum.thecus.com/viewtopic.php?f=11&t=1245
http://forum.thecus.com/viewtopic.php?f=20&t=1030
In meinem Fall habe ich die betroffene Platte (Hitachi Deskstar 7K2000, vom Hersteller als geeignete Platte bezeichnet) ausgebaut und an einem PC mit dem Hitachi-Diagnosetool getestet. Das hat keinerlei Fehler gefunden - weder Smart-Fehler, noch Fehler beim Testen. Da das Testtool auch die Fehler-Logs der Platte abfragt, habe ich mir einen kompletten Oberflächenscan gespart - wäre eine Bad-Sector-Reallocation-Prozedur passiert, hätte das Log einen Eintrag gehabt.
Mit dem Hitachi-Tool habe ich dann die Platte neu initialisiert und dann wieder in den alten Slot im Nas eingebaut. Das Nas hat die Festplatte als neu erkannt und den Raid Verbund ohne Probleme wieder aufgebaut.
Der Verbund funktioniert zur Zeit (2 Tage), aber das Vertrauen ist zerstört - das NAS wird jetzt auf externe Platten gesichert, was nicht der Sinn der Sache ist.. Letztstand ist also, dass mir in 10 Jahren noch keine externe Einzelfestplatte eingegangen ist, aber das NAS nach nur 3 Monaten Fehler produziert..
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 167097
Url: https://administrator.de/contentid/167097
Ausgedruckt am: 23.11.2024 um 02:11 Uhr