HPE warnt vor SSD-Ausfällen
Hier eine vielleicht nützliche information für die Nutzer von HPE Servern und Speichersystemen.
https://www.heise.de/newsticker/meldung/HPE-warnt-vor-SSD-Ausfaellen-459 ...
/Thomas
https://www.heise.de/newsticker/meldung/HPE-warnt-vor-SSD-Ausfaellen-459 ...
/Thomas
Please also mark the comments that contributed to the solution of the article
Content-ID: 519040
Url: https://administrator.de/contentid/519040
Printed on: December 3, 2024 at 23:12 o'clock
10 Comments
Latest comment
Das ist ein Fehler in den Smart-Werten. Sobald der Wert für "Power-On-Count" einen Wert von 2^15 erreicht, gibt es einen Buffer-Overflow der die Firmware zerstört. Wenn sich die SMART-Werte bei einem Neustart reseten würden, würden die ihre Funktion verfehlen 😆
Ist übrigens ein Grund wieso ich SAS-Controller hasse, die einem nicht die SMART-Werte anzeigen!
Ich weiß noch wie ich um 2013 mit ein paar Kollegen über den Sinn von RAIDs diskutiert hatte. Die habe mein Argument, dass ja üblicher Weise die Datenträger alle die gleiche Laufzeit und Beanspruchung hinter sich haben, nicht verstanden. Ist ja nicht so, als wären solche Fehler schon öfters vorgekommen 🙄. Besonders bei Systemen mit vielen Datenträgern dauert ein Rebuild entsprechend lange und schups steigt ein weiterer Datenträger aus 😉. Aber in diesem Fall erspart man sich viel Mühe und Nerven. Man kann direkt getrost zum Backup greifen da das System schlicht tot ist und das redundante System kurz darauf folgt 😊
Ist übrigens ein Grund wieso ich SAS-Controller hasse, die einem nicht die SMART-Werte anzeigen!
Ich weiß noch wie ich um 2013 mit ein paar Kollegen über den Sinn von RAIDs diskutiert hatte. Die habe mein Argument, dass ja üblicher Weise die Datenträger alle die gleiche Laufzeit und Beanspruchung hinter sich haben, nicht verstanden. Ist ja nicht so, als wären solche Fehler schon öfters vorgekommen 🙄. Besonders bei Systemen mit vielen Datenträgern dauert ein Rebuild entsprechend lange und schups steigt ein weiterer Datenträger aus 😉. Aber in diesem Fall erspart man sich viel Mühe und Nerven. Man kann direkt getrost zum Backup greifen da das System schlicht tot ist und das redundante System kurz darauf folgt 😊
Zitat von @anteNope:
[...]Besonders bei Systemen mit vielen Datenträgern dauert ein Rebuild entsprechend lange und schups steigt ein weiterer Datenträger aus 😉. [...]
[...]Besonders bei Systemen mit vielen Datenträgern dauert ein Rebuild entsprechend lange und schups steigt ein weiterer Datenträger aus 😉. [...]
Nööö. Würde ich so nicht unterschreiben. Gerade moderne Storage Systeme bestimmen den Raid Level selbst und dynamisch. Und umso mehr Platten um so besser und schneller der Rebuild. 2 defekte Platten zu verkraften ist jetzt auch kein Hexenwerk. Gerade bei vielen Platten. Da kommt es auf die eine Platte auch nicht mehr an. Ich leg bei mir nichtmals nen Raid Volume an. Da werden nur HDDs reingesteckt und die LUNs angelegt. Fertig. Der sucht sich sogar die Hotspares selbst aus.
Dafür habe ich den Satz "Aber wir haben doch RAID!?" zu oft gehört. Wo der RAID-Controller meint die HDD sei noch "okay" obwohl sich im inneren die Köpfe längst ins Material fräsen. Wo dann der Controller meint ein Rebuild auf besagter HDD zu machen und kurz drauf das System einen Hard-Reset hinlegt und dann "plötzlich" zwei HDDs (von 4) als "failure expected" markiert werden während die Konfiguration als "foreign" deklariert wird.
Um dann, wenn man das Volumen importiert, DIREKT und ohne Nachfrage den Rebuild startet, auf den gleichen verf***ten Datenträgern. Gut, dass man während dieser Zeit ein vollständiges Backup ziehen konnte. Denn der DELL-Techniker (wegen Wartungsvertrag MUSSTE unbedingt einer von DELL, die Platten tauschen) hat dann dem System ins Nirvana katapultiert, als er die nicht ganz kaputte Platte (statt jener aus Kernschrott) als erstes gezogen hat. Genial!! 🤣
So ein Full-Auto-System ist natürlich etwas feines, wenn es korrekt die Werte interpretiert und keine DELL-Logik anwendet.
"Defekt erwartet":
So lange mir ein Controller keine SMART-Werte präsentiert, traue ich dem nur so weit wie ich den werfen kann ...
Um dann, wenn man das Volumen importiert, DIREKT und ohne Nachfrage den Rebuild startet, auf den gleichen verf***ten Datenträgern. Gut, dass man während dieser Zeit ein vollständiges Backup ziehen konnte. Denn der DELL-Techniker (wegen Wartungsvertrag MUSSTE unbedingt einer von DELL, die Platten tauschen) hat dann dem System ins Nirvana katapultiert, als er die nicht ganz kaputte Platte (statt jener aus Kernschrott) als erstes gezogen hat. Genial!! 🤣
So ein Full-Auto-System ist natürlich etwas feines, wenn es korrekt die Werte interpretiert und keine DELL-Logik anwendet.
"Defekt erwartet":
So lange mir ein Controller keine SMART-Werte präsentiert, traue ich dem nur so weit wie ich den werfen kann ...
Das sieht aus wie "Bremsstaub" auf dem Gehäuse.
Ach quatsch, dass aussen ist der Beschleunigungsstreifen für erhöhte IOPs
Danke für die Info Thomas. Wir hatten das per Warnmeldung von einem Kooperationspartner erhalten und gleich sämtliche Systeme untersucht, die davon betroffen sein könnten. Wir haben einige davon in Nutzung gehabt, glücklicherweise keines der in der Liste genannten Modelle. Nachdem wir durch zeitintensive Recherche alles protokolliert und dingfest gemacht hatten, rechneten wir spasseshalber mal nach. Die Zeit hätten wir überschritten, die SSD-Platten wären quasi schon futsch zum Glück waren das ja nicht die Problemodelle, aber trotzdem ein unbehagliches Gefühl.