Nov 26, 2019

6454

HPE warnt vor SSD-Ausfällen

Hier eine vielleicht nützliche information für die Nutzer von HPE Servern und Speichersystemen.
https://www.heise.de/newsticker/meldung/HPE-warnt-vor-SSD-Ausfaellen-459 ...

/Thomas

Please also mark the comments that contributed to the solution of the article

Content-Key: 519040

Url: https://administrator.de/contentid/519040

Printed on: May 1, 2024 at 09:05 o'clock

10 Comments

Latest comment

Was aus dem Artikel irgendwie nicht hervorgeht: Wird der Counter bei nem SAN Restart resettet?

Das ist ein Fehler in den Smart-Werten. Sobald der Wert für "Power-On-Count" einen Wert von 2^15 erreicht, gibt es einen Buffer-Overflow der die Firmware zerstört. Wenn sich die SMART-Werte bei einem Neustart reseten würden, würden die ihre Funktion verfehlen 😆
Ist übrigens ein Grund wieso ich SAS-Controller hasse, die einem nicht die SMART-Werte anzeigen!

Ich weiß noch wie ich um 2013 mit ein paar Kollegen über den Sinn von RAIDs diskutiert hatte. Die habe mein Argument, dass ja üblicher Weise die Datenträger alle die gleiche Laufzeit und Beanspruchung hinter sich haben, nicht verstanden. Ist ja nicht so, als wären solche Fehler schon öfters vorgekommen 🙄. Besonders bei Systemen mit vielen Datenträgern dauert ein Rebuild entsprechend lange und schups steigt ein weiterer Datenträger aus 😉. Aber in diesem Fall erspart man sich viel Mühe und Nerven. Man kann direkt getrost zum Backup greifen da das System schlicht tot ist und das redundante System kurz darauf folgt 😊

Zitat von @anteNope:
[...]Besonders bei Systemen mit vielen Datenträgern dauert ein Rebuild entsprechend lange und schups steigt ein weiterer Datenträger aus 😉. [...]

Nööö. Würde ich so nicht unterschreiben. Gerade moderne Storage Systeme bestimmen den Raid Level selbst und dynamisch. Und umso mehr Platten um so besser und schneller der Rebuild. 2 defekte Platten zu verkraften ist jetzt auch kein Hexenwerk. Gerade bei vielen Platten. Da kommt es auf die eine Platte auch nicht mehr an. Ich leg bei mir nichtmals nen Raid Volume an. Da werden nur HDDs reingesteckt und die LUNs angelegt. Fertig. Der sucht sich sogar die Hotspares selbst aus.

Dafür habe ich den Satz "Aber wir haben doch RAID!?" zu oft gehört. Wo der RAID-Controller meint die HDD sei noch "okay" obwohl sich im inneren die Köpfe längst ins Material fräsen. Wo dann der Controller meint ein Rebuild auf besagter HDD zu machen und kurz drauf das System einen Hard-Reset hinlegt und dann "plötzlich" zwei HDDs (von 4) als "failure expected" markiert werden während die Konfiguration als "foreign" deklariert wird.

Um dann, wenn man das Volumen importiert, DIREKT und ohne Nachfrage den Rebuild startet, auf den gleichen verf***ten Datenträgern. Gut, dass man während dieser Zeit ein vollständiges Backup ziehen konnte. Denn der DELL-Techniker (wegen Wartungsvertrag MUSSTE unbedingt einer von DELL, die Platten tauschen) hat dann dem System ins Nirvana katapultiert, als er die nicht ganz kaputte Platte (statt jener aus Kernschrott) als erstes gezogen hat. Genial!! 🤣

So ein Full-Auto-System ist natürlich etwas feines, wenn es korrekt die Werte interpretiert und keine DELL-Logik anwendet.

"Defekt erwartet":

So lange mir ein Controller keine SMART-Werte präsentiert, traue ich dem nur so weit wie ich den werfen kann ...

Zitat von @anteNope:
"Defekt erwartet":

Das sieht aus wie "Bremsstaub" auf dem Gehäuse.

Sehr treffend, denn die Köpfe haben als Bremsbacken auf den Scheiben gedient 😅

Zitat von @anteNope:
Sehr treffend, denn die Köpfe haben als Bremsbacken auf den Scheiben gedient 😅

Ach quatsch, dass aussen ist der Beschleunigungsstreifen für erhöhte IOPs

naja... HP halt...

scheint mir mehr eine künstliche Beschneidung der Lebenszeit einer SSD zu sein...

Edit: nur doof, dass man sich verrechnet hat und die Platten nach 2 hoch 15 Stunden defekt gehen und nciht nach 5 Jahren und einen Tag...
ein Schelm wer böses dabei denkt...

Zitat von @Ex0r2k16:

Was aus dem Artikel irgendwie nicht hervorgeht: Wird der Counter bei nem SAN Restart resettet?

Nein, die Daten sind nach Ablauf des Counters weg. Also GANZ weg...

/Thomas

Danke für die Info Thomas. Wir hatten das per Warnmeldung von einem Kooperationspartner erhalten und gleich sämtliche Systeme untersucht, die davon betroffen sein könnten. Wir haben einige davon in Nutzung gehabt, glücklicherweise keines der in der Liste genannten Modelle. Nachdem wir durch zeitintensive Recherche alles protokolliert und dingfest gemacht hatten, rechneten wir spasseshalber mal nach. Die Zeit hätten wir überschritten, die SSD-Platten wären quasi schon futsch

zum Glück waren das ja nicht die Problemodelle, aber trotzdem ein unbehagliches Gefühl.

German Information Storage systems Hardware

Hotly discussed

End of availability for classic Teams clientDani - 2 Comments

Ubuntu 24.04 LTS Noble Numbat availableFrank

Developer diary: Release 6.1admtech