thecritter
Goto Top

Samsung QVO nutzt SLC-Cache nicht mehr

Hallo,

wir haben in der Firma 8TB Samsung QVO-SSDs in einem Ceph-Cluster genutzt. Grund, wir benötigten ein Datengrab und die Server haben nur 2,5'' Einschübe. Das man per Ceph dann keine Performance-Wunder erwarten kann, ist klar.
Ich weiß das da der interne Cache der SSDs abgeschaltet wird. Leider passierte es aber das nach ein paar Wochen in diesem Pool die Schreirate auf 20MB/Sek eingebrochen ist. Das es an diesen 8TB-SSDs lag sah man mit iotop das bei diesen Platten immer nahe 100% anzeigte. Das seltsame ist das die 4TB QVO SSDs die sich in dem gleichen Pool befinden dieses Problem nicht haben. Nebenbei bemerkt hingen alle SSDs an Raidcontrollern die kein Discard/Trim unterstützen.

Diese 8TB SSDs habe ich dann aus dem Pool entfernt um die lokal an einem Server weiternutzen zu wollen der keinen Raidcontroller besitzt. Die SSDs wurden also an den Chipsatz angeschlossen und Trim/Discard Befehle kommen durch. Ich bin jetzt davon ausgegangen das ich die SSDs damit wieder refreshen kann. Die Schreibrate bei zwei der drei SSDs lag aber trotzdem nur bei ca 160MB/sec. Es sollte nach dem trimmen aber 500MB/sec sein. Bei einer der SSDs erreichte ich auch 500MB/sec, aber nach 75GB brach sie ein und lässt sich auch nicht wieder reaktivieren, schreibt also auch nur mit ca 160MB/sec. Das deutet darauf hin das der SLC-Cache voll ist. Ich habe schon alle möglichen Discards ausprobiert. Mit Partition/ext4, fstrim angewendet, das ganze auch ohne Partition, sondern direkt das FS auf die Platte. Nix, nur maximal 160MB/sec. Reset über hdparm wird abgewiesen. Brachte also auch nichts.

Hat jemand noch eine Idee?

Vielen Dank schon mal

Nachtrag: SMART-Werte sind ok. Es werden nur 2-4% Wearout bei diesen SSDs angezeigt

Content-Key: 667189

Url: https://administrator.de/contentid/667189

Printed on: July 27, 2024 at 12:07 o'clock

Member: psannz
psannz May 31, 2021 at 08:13:45 (UTC)
Goto Top
Sers,

läuft das (OSD) Journal auch auf den QVOs?

Grüße,
Philip
Member: TheCritter
TheCritter May 31, 2021 updated at 08:28:09 (UTC)
Goto Top
Ja, bei den 4TBs auch jetzt noch, aber ich hatte es bevor ich die 8TBs aus dem Ceph entfernt hatte auch mal auf jeweils eine andere 1TB SSD die nicht so das Problem hatte ausgelagert gehabt. Es wurde besser, aber es war nicht ideal. Daher dachte ich das ich die einfach als lokale SSDs an einem Server ohne Raidcontroller besser nutzen kann.
Aber wie gesagt, das Hauptproblem ist nicht das Ceph, sondern das sich die SSDs nicht mehr wie (fast) neue SSDs anfühlen.
Member: psannz
psannz May 31, 2021 updated at 09:06:04 (UTC)
Goto Top
QLC SSDs sind per se nicht auf Writes ausgelegt, auch dann nicht, wenn sie einen "SLC Cache" Anteil mitbringen.
Das Journal puffert alle Writes bevor sie auf das OSD selbst geschrieben werden. Bedeutet, wenn Journal und OSD auf demselben Datenträger liegen, was zu einer Write Amplification führt. Sprich, mehrere echte Writes je logischen Write.
Lager das Journal lieber auf eine Write optimierte SSD aus, oder zumindest einer für mixed use. Dabei bitte die Abhängigkeiten zwischen OSD und Journal nicht vergessen!

Hast du dir die Hardware Recommendations schon durchgelesen?

Die 75GB sehen nach "SLC Cache voll" aus. Firmware aktuell? Das Verschieben der Daten vom SLC in den QLC Bereich sollte die SSD von selbst erledigen.

:edit: Allgemein scheint die Performance der 8TB Version der "870 QVO" problematisch zu sein: https://www.storagereview.com/review/samsung-870-qvo-sata-ssd-review-8tb
Member: TheCritter
TheCritter May 31, 2021 at 09:25:14 (UTC)
Goto Top
Das mit dem Ceph ist mir schon klar. Wir nutzen ja auch die PM-Serie von Samsung für Daten mit denen gearbeitet wird. So wie der jetzt läuft ist auch alles erwartungsgemäß.

Diese 8TBs sind aber schon seit Tagen leer mit discard Option gemoutet und bessern sich aber nicht. So als ob die keine Lust haben den SLC-Cache frei zu räumen. Firmware ist tatsächlich nicht die Aktuelle, wobei ich aber keine History finde was verbessert wurde.