th0mka
Goto Top

HPE warnt vor SSD-Ausfällen

Hier eine vielleicht nützliche information für die Nutzer von HPE Servern und Speichersystemen.
https://www.heise.de/newsticker/meldung/HPE-warnt-vor-SSD-Ausfaellen-459 ...

/Thomas

Content-ID: 519040

Url: https://administrator.de/contentid/519040

Ausgedruckt am: 04.11.2024 um 22:11 Uhr

Ex0r2k16
Ex0r2k16 27.11.2019 um 09:12:21 Uhr
Goto Top
Was aus dem Artikel irgendwie nicht hervorgeht: Wird der Counter bei nem SAN Restart resettet?
anteNope
anteNope 27.11.2019 aktualisiert um 09:38:48 Uhr
Goto Top
Das ist ein Fehler in den Smart-Werten. Sobald der Wert für "Power-On-Count" einen Wert von 2^15 erreicht, gibt es einen Buffer-Overflow der die Firmware zerstört. Wenn sich die SMART-Werte bei einem Neustart reseten würden, würden die ihre Funktion verfehlen 😆
Ist übrigens ein Grund wieso ich SAS-Controller hasse, die einem nicht die SMART-Werte anzeigen!

Ich weiß noch wie ich um 2013 mit ein paar Kollegen über den Sinn von RAIDs diskutiert hatte. Die habe mein Argument, dass ja üblicher Weise die Datenträger alle die gleiche Laufzeit und Beanspruchung hinter sich haben, nicht verstanden. Ist ja nicht so, als wären solche Fehler schon öfters vorgekommen 🙄. Besonders bei Systemen mit vielen Datenträgern dauert ein Rebuild entsprechend lange und schups steigt ein weiterer Datenträger aus 😉. Aber in diesem Fall erspart man sich viel Mühe und Nerven. Man kann direkt getrost zum Backup greifen da das System schlicht tot ist und das redundante System kurz darauf folgt 😊
Ex0r2k16
Ex0r2k16 27.11.2019 um 09:44:31 Uhr
Goto Top
Zitat von @anteNope:
[...]Besonders bei Systemen mit vielen Datenträgern dauert ein Rebuild entsprechend lange und schups steigt ein weiterer Datenträger aus 😉. [...]

Nööö. Würde ich so nicht unterschreiben. Gerade moderne Storage Systeme bestimmen den Raid Level selbst und dynamisch. Und umso mehr Platten um so besser und schneller der Rebuild. 2 defekte Platten zu verkraften ist jetzt auch kein Hexenwerk. Gerade bei vielen Platten. Da kommt es auf die eine Platte auch nicht mehr an. Ich leg bei mir nichtmals nen Raid Volume an. Da werden nur HDDs reingesteckt und die LUNs angelegt. Fertig. Der sucht sich sogar die Hotspares selbst aus.
anteNope
anteNope 27.11.2019 aktualisiert um 10:16:14 Uhr
Goto Top
Dafür habe ich den Satz "Aber wir haben doch RAID!?" zu oft gehört. Wo der RAID-Controller meint die HDD sei noch "okay" obwohl sich im inneren die Köpfe längst ins Material fräsen. Wo dann der Controller meint ein Rebuild auf besagter HDD zu machen und kurz drauf das System einen Hard-Reset hinlegt und dann "plötzlich" zwei HDDs (von 4) als "failure expected" markiert werden während die Konfiguration als "foreign" deklariert wird.

Um dann, wenn man das Volumen importiert, DIREKT und ohne Nachfrage den Rebuild startet, auf den gleichen verf***ten Datenträgern. Gut, dass man während dieser Zeit ein vollständiges Backup ziehen konnte. Denn der DELL-Techniker (wegen Wartungsvertrag MUSSTE unbedingt einer von DELL, die Platten tauschen) hat dann dem System ins Nirvana katapultiert, als er die nicht ganz kaputte Platte (statt jener aus Kernschrott) als erstes gezogen hat. Genial!! 🤣

So ein Full-Auto-System ist natürlich etwas feines, wenn es korrekt die Werte interpretiert und keine DELL-Logik anwendet.

"Defekt erwartet":
img_3828

So lange mir ein Controller keine SMART-Werte präsentiert, traue ich dem nur so weit wie ich den werfen kann ...
Dilbert-MD
Dilbert-MD 27.11.2019 um 11:44:07 Uhr
Goto Top
Zitat von @anteNope:
"Defekt erwartet":
img_3828

Das sieht aus wie "Bremsstaub" auf dem Gehäuse.
anteNope
anteNope 27.11.2019 um 11:51:50 Uhr
Goto Top
img_3828
Das sieht aus wie "Bremsstaub" auf dem Gehäuse.

Sehr treffend, denn die Köpfe haben als Bremsbacken auf den Scheiben gedient 😅
Ex0r2k16
Ex0r2k16 27.11.2019 um 11:55:51 Uhr
Goto Top
Zitat von @anteNope:
Sehr treffend, denn die Köpfe haben als Bremsbacken auf den Scheiben gedient 😅

Ach quatsch, dass aussen ist der Beschleunigungsstreifen für erhöhte IOPs
jenni
jenni 27.11.2019 aktualisiert um 12:46:21 Uhr
Goto Top
naja... HP halt...

scheint mir mehr eine künstliche Beschneidung der Lebenszeit einer SSD zu sein...

Edit: nur doof, dass man sich verrechnet hat und die Platten nach 2 hoch 15 Stunden defekt gehen und nciht nach 5 Jahren und einen Tag...
ein Schelm wer böses dabei denkt...
Th0mKa
Th0mKa 27.11.2019 um 13:42:34 Uhr
Goto Top
Zitat von @Ex0r2k16:

Was aus dem Artikel irgendwie nicht hervorgeht: Wird der Counter bei nem SAN Restart resettet?

Nein, die Daten sind nach Ablauf des Counters weg. Also GANZ weg...

/Thomas
panguu
panguu 02.12.2019 um 14:04:17 Uhr
Goto Top
Danke für die Info Thomas. Wir hatten das per Warnmeldung von einem Kooperationspartner erhalten und gleich sämtliche Systeme untersucht, die davon betroffen sein könnten. Wir haben einige davon in Nutzung gehabt, glücklicherweise keines der in der Liste genannten Modelle. Nachdem wir durch zeitintensive Recherche alles protokolliert und dingfest gemacht hatten, rechneten wir spasseshalber mal nach. Die Zeit hätten wir überschritten, die SSD-Platten wären quasi schon futsch face-smile zum Glück waren das ja nicht die Problemodelle, aber trotzdem ein unbehagliches Gefühl.