Samsung QVO nutzt SLC-Cache nicht mehr
Hallo,
wir haben in der Firma 8TB Samsung QVO-SSDs in einem Ceph-Cluster genutzt. Grund, wir benötigten ein Datengrab und die Server haben nur 2,5'' Einschübe. Das man per Ceph dann keine Performance-Wunder erwarten kann, ist klar.
Ich weiß das da der interne Cache der SSDs abgeschaltet wird. Leider passierte es aber das nach ein paar Wochen in diesem Pool die Schreirate auf 20MB/Sek eingebrochen ist. Das es an diesen 8TB-SSDs lag sah man mit iotop das bei diesen Platten immer nahe 100% anzeigte. Das seltsame ist das die 4TB QVO SSDs die sich in dem gleichen Pool befinden dieses Problem nicht haben. Nebenbei bemerkt hingen alle SSDs an Raidcontrollern die kein Discard/Trim unterstützen.
Diese 8TB SSDs habe ich dann aus dem Pool entfernt um die lokal an einem Server weiternutzen zu wollen der keinen Raidcontroller besitzt. Die SSDs wurden also an den Chipsatz angeschlossen und Trim/Discard Befehle kommen durch. Ich bin jetzt davon ausgegangen das ich die SSDs damit wieder refreshen kann. Die Schreibrate bei zwei der drei SSDs lag aber trotzdem nur bei ca 160MB/sec. Es sollte nach dem trimmen aber 500MB/sec sein. Bei einer der SSDs erreichte ich auch 500MB/sec, aber nach 75GB brach sie ein und lässt sich auch nicht wieder reaktivieren, schreibt also auch nur mit ca 160MB/sec. Das deutet darauf hin das der SLC-Cache voll ist. Ich habe schon alle möglichen Discards ausprobiert. Mit Partition/ext4, fstrim angewendet, das ganze auch ohne Partition, sondern direkt das FS auf die Platte. Nix, nur maximal 160MB/sec. Reset über hdparm wird abgewiesen. Brachte also auch nichts.
Hat jemand noch eine Idee?
Vielen Dank schon mal
Nachtrag: SMART-Werte sind ok. Es werden nur 2-4% Wearout bei diesen SSDs angezeigt
wir haben in der Firma 8TB Samsung QVO-SSDs in einem Ceph-Cluster genutzt. Grund, wir benötigten ein Datengrab und die Server haben nur 2,5'' Einschübe. Das man per Ceph dann keine Performance-Wunder erwarten kann, ist klar.
Ich weiß das da der interne Cache der SSDs abgeschaltet wird. Leider passierte es aber das nach ein paar Wochen in diesem Pool die Schreirate auf 20MB/Sek eingebrochen ist. Das es an diesen 8TB-SSDs lag sah man mit iotop das bei diesen Platten immer nahe 100% anzeigte. Das seltsame ist das die 4TB QVO SSDs die sich in dem gleichen Pool befinden dieses Problem nicht haben. Nebenbei bemerkt hingen alle SSDs an Raidcontrollern die kein Discard/Trim unterstützen.
Diese 8TB SSDs habe ich dann aus dem Pool entfernt um die lokal an einem Server weiternutzen zu wollen der keinen Raidcontroller besitzt. Die SSDs wurden also an den Chipsatz angeschlossen und Trim/Discard Befehle kommen durch. Ich bin jetzt davon ausgegangen das ich die SSDs damit wieder refreshen kann. Die Schreibrate bei zwei der drei SSDs lag aber trotzdem nur bei ca 160MB/sec. Es sollte nach dem trimmen aber 500MB/sec sein. Bei einer der SSDs erreichte ich auch 500MB/sec, aber nach 75GB brach sie ein und lässt sich auch nicht wieder reaktivieren, schreibt also auch nur mit ca 160MB/sec. Das deutet darauf hin das der SLC-Cache voll ist. Ich habe schon alle möglichen Discards ausprobiert. Mit Partition/ext4, fstrim angewendet, das ganze auch ohne Partition, sondern direkt das FS auf die Platte. Nix, nur maximal 160MB/sec. Reset über hdparm wird abgewiesen. Brachte also auch nichts.
Hat jemand noch eine Idee?
Vielen Dank schon mal
Nachtrag: SMART-Werte sind ok. Es werden nur 2-4% Wearout bei diesen SSDs angezeigt
Please also mark the comments that contributed to the solution of the article
Content-ID: 667189
Url: https://administrator.de/contentid/667189
Printed on: December 4, 2024 at 02:12 o'clock
4 Comments
Latest comment
QLC SSDs sind per se nicht auf Writes ausgelegt, auch dann nicht, wenn sie einen "SLC Cache" Anteil mitbringen.
Das Journal puffert alle Writes bevor sie auf das OSD selbst geschrieben werden. Bedeutet, wenn Journal und OSD auf demselben Datenträger liegen, was zu einer Write Amplification führt. Sprich, mehrere echte Writes je logischen Write.
Lager das Journal lieber auf eine Write optimierte SSD aus, oder zumindest einer für mixed use. Dabei bitte die Abhängigkeiten zwischen OSD und Journal nicht vergessen!
Hast du dir die Hardware Recommendations schon durchgelesen?
Die 75GB sehen nach "SLC Cache voll" aus. Firmware aktuell? Das Verschieben der Daten vom SLC in den QLC Bereich sollte die SSD von selbst erledigen.
:edit: Allgemein scheint die Performance der 8TB Version der "870 QVO" problematisch zu sein: https://www.storagereview.com/review/samsung-870-qvo-sata-ssd-review-8tb
Das Journal puffert alle Writes bevor sie auf das OSD selbst geschrieben werden. Bedeutet, wenn Journal und OSD auf demselben Datenträger liegen, was zu einer Write Amplification führt. Sprich, mehrere echte Writes je logischen Write.
Lager das Journal lieber auf eine Write optimierte SSD aus, oder zumindest einer für mixed use. Dabei bitte die Abhängigkeiten zwischen OSD und Journal nicht vergessen!
Hast du dir die Hardware Recommendations schon durchgelesen?
Die 75GB sehen nach "SLC Cache voll" aus. Firmware aktuell? Das Verschieben der Daten vom SLC in den QLC Bereich sollte die SSD von selbst erledigen.
:edit: Allgemein scheint die Performance der 8TB Version der "870 QVO" problematisch zu sein: https://www.storagereview.com/review/samsung-870-qvo-sata-ssd-review-8tb