mysticfoxde
Goto Top

SOPHOS - XG(S) - SSD-Lebensdauer prüfen

Moin Zusammen,

dank der SSD’s sind nicht nur Clients oder Server, sondern auch die SGW’s diverser Hersteller etwas flinker geworden. ๐Ÿ˜
Leider hält so eine SSD ja bekanntlich nicht unendlich. Diese Tatsache hat aber Sophos und auch andere SGW-Hersteller glaube ich nicht so ganz auf ihrem Schirm, denn ich habe bisher noch nie bei einem SGW eine entsprechende Warnung gesehen, dass die eingebaute SSD bald den Geist aufgeben könnte. ๐Ÿ˜”

Dabei ist es nicht so, dass die Informationen der SSD nicht so einfach ausgelesen werden können, im Gegenteil, mit dem folgenden Einzeiler bekommt ihr ratz fatz bei einer Sophos XG/XGS …

smartctl -x /dev/sda | grep Endurance

… die Lebensdauer der eingebauten SSD zurück geliefert. ๐Ÿ˜‰

ssd lifetime


Die im oberen Beispiel gezeigte SSD ist z.B. aktuell nur zu 2% verbraucht.
Sollte hier jedoch ein Wert von > 80 erscheinen, kann ich nur empfehlen die entsprechende Appliance so schnell wie möglich austauschen zu lassen, da diese wie gesagt, ohne jegliche Vorwarnung in den nächsten Monaten von jetzt auf naher, eh den Geist aufgibt!

Und wenn man in einem solchen Fall kein HA Cluster hat, steht der Laden ratz fatz für ein paar Tage und man verliert zudem sämtliche Daten auf dem laufenden SGW wie z.B. Logs aber auch die Mails, die noch in der Quarantäne und oder der Mailqueue zwischenhängen. ๐Ÿ˜ฌ

Das Letztere geschieht übrigens auch bei einem HA Cluster, da weder die Mailqueue noch die Quarantäne, zwischen den Nodes synchronisiert werden. ๐Ÿ˜ญ
Das zuletzt genannte ist übrigens nicht nur ein Problem bei Sophos, sondern ist z.B. bei Fortigates 1:1 genau dasselbe.

Es gibt übrigens eine ganz schnelle Variante, eine ausgefallene Sophos XG(S) wieder zum Leben zu erwecken, aber, solltet ihr das folgende ohne die Absprache mit dem Sophos Support machen, so erlischt die Garantie für die entsprechende Appliance!

Um eine durch SSD defekt ausgefallene Sophos XGS (Display leuchtet zwar aber zeigt nichts an) wieder zum Leben zu erwecken, muss man lediglich die in dem Gerät verbaute SSD gegen eine gleichwertige oder grössere tauschen und die Appliance mit USB Stick neu bespielen.

Aber, wie gesagt, ohne Absprache mit dem Hersteller, erlischt bei einem solchen Eingriff augenblicklich die Gerätegarantie!

So, ich hoffe nun, dass ihr beim Prüfen eurer Appliances, keinen allzu grossen Schock bekommt.

Und ja, auch ganz wichtig, bei einem HA-Cluster bitte die Lebensdauer der SSD auf alle Nodes und nicht nur dem aktiven prüfen. ๐Ÿ˜‰

Gruss Alex

Content-Key: 73763751381

Url: https://administrator.de/contentid/73763751381

Printed on: February 21, 2024 at 06:02 o'clock

Member: beidermachtvongreyscull
beidermachtvongreyscull Dec 03, 2023 at 10:39:04 (UTC)
Goto Top
Danke für Deine Mühe, Alex!

Ein schönes Wochenende wünsche ich Dir.

VG
Andreas
Member: watIsLos
watIsLos Dec 04, 2023 at 08:06:53 (UTC)
Goto Top
Moin Alex,

Vielen Dank für den Tipp, da wäre ich nicht drauf gekommen!
Member: DerMaddin
DerMaddin Dec 04, 2023 at 10:41:29 (UTC)
Goto Top
In meinem Fall hat die M.2 SSD den Wert 178 (maximal möglich 255). Die XGS ist zwei Jahre alt und die verbaute ADATA IM23164 SSD hat bereits 17 TBW erreicht laut SMART Attribut #241. Jedoch glaube ich den Werten nicht, da ich auch das hier sehen kann...

m.2

Aufgrund fehlender smartctl DB-Einträge und fehlerhafter Angabe, dass es eine 2.5" SSD sein soll, können die Werte auch falsch interpretiert worden sein.

@MysticFoxDE wie alt ist eure XGS2300, wieviel TBW und was für eine SSD ist drin?
Member: Tobi-2001
Tobi-2001 Dec 04, 2023 at 11:43:01 (UTC)
Goto Top
@DerMaddin
@MysticFoxDE

Das heißt wenn ich über den Befehl (smartctl -x /dev/sda | grep Endurance) ein Wert von 67 auslese, das es dann doch nicht so schlimm ist? Da der maximal Wert bei 255 liegt?
Member: DerMaddin
DerMaddin Dec 04, 2023 at 12:21:10 (UTC)
Goto Top
So zumindest in der Theorie. Das alles sind statistische Werte die mathematisch errechnet werden. Habe dazu einen interessanten Artikel gefunden:

https://www.ni.com/de/support/documentation/supplemental/12/understandin ...

Leider finde ich keine TBW-Angaben zu meiner SSD in der XGS, ADATA schreibt nur MTBF, was nun nicht sehr aussagekräftig ist. Laut den Rechenbeispielen im Artikel, komme ich aber auch ca. 26 TBW, was auch den 178 Wert halbwegs erklären könnte. Ist aber alles wirklich nur Statistik.
Member: MysticFoxDE
MysticFoxDE Dec 04, 2023 at 17:29:43 (UTC)
Goto Top
Moin @Tobi-2001,

Das heißt wenn ich über den Befehl (smartctl -x /dev/sda | grep Endurance) ein Wert von 67 auslese, das es dann doch nicht so schlimm ist? Da der maximal Wert bei 255 liegt?

wenn bei dir an der rot markierten Stelle wo in dem folgenden Screenshot ...
ssd lifetime
... eine "2" steht, die "67" dargestellt werden, dann bedeutet das, dass die Lebensdauer der SSD dieser Appliance,
bereits schon zu 67% verbraucht ist.

Gruss Alex
Member: MysticFoxDE
MysticFoxDE Dec 05, 2023 at 06:43:57 (UTC)
Goto Top
Moin @DerMaddin,

In meinem Fall hat die M.2 SSD den Wert 178

das sieht alles andere als gut aus. ๐Ÿ˜ฌ

(maximal möglich 255)

ja, er kann theoretisch bis 255 klettern weil dieser in einem zweistelligen Hex-Wert gespeichert wird.
Aber, laut diversen Dokus die ich bisher gelesen habe und auch der folgenden hier …

https://linux.die.net/man/8/smartctl

…, bedeutet 0, dass die SSD komplett unverbraucht ist und 100 bedeutet, dass diese so gut wie Tod ist.

Die XGS ist zwei Jahre alt und die verbaute ADATA IM23164 SSD hat bereits 17 TBW erreicht laut

Theoretisch sollte diese SSD mit ihren ca. 3000 Schreibzyklen auch etwa 75TB durchhalten.
Aber, die max. TBW angaben der SSD-Hersteller, würde ich nicht zu sehr auf die Goldwaage legen.
Das Problem hierbei ist, dass diese nur dann zutreffen, wenn die Daten auf die SSD auch immer „pagesizealigned“, sprich in 8k oder 16k grossen „Schnipseln“ draufgeschrieben oder aktualisiert werden.

Weitere Details zu diesem Thema, findest du in der folgenden, sehr umfangreichen Doku.

https://www.flashmemorysummit.com/English/Collaterals/Proceedings/2012/2 ...

Die ist auch nicht schlecht.
https://codecapsule.com/2014/02/12/coding-for-ssds-part-3-pages-blocks-a ...

Die, XGS schreibt die Daten auf ihre SSD aber alles andere als „pagesizealigned“, zumindest hat sie das in den vorherigen Versionen nicht wirklich gut gemacht.
Denn insbesondere beim Aktualisieren/Schreiben der ganzen Logs, wurden oft nur Schnipsel von unter einem Kilobyte auf die SSD geschrieben. Dadurch altert die SSD jedoch viel schneller.๐Ÿ˜”

Sprich, wenn man auf eine SSD deren Pagesize 8K beträgt, ständig nur mit 1K draufschreibt, dann hält diese SSD auch nur ~1/8, der vom Hersteller angegebenen TBW.

In den meisten anderen Fällen, bei Clients oder Server, sind die schreibenden Zugriffe auch grösser wie die Pagesize, weshalb dort die TBW Angaben auch eher zutreffen.
Bei SGW‘s, die ständig kleine Fitzelchen auf die SSD schreiben, währe ich mit der TBW jedoch sehr vorsichtig.

Und noch eins, die SMART Werte der SSD‘s sind leider nicht normiert. ๐Ÿ˜ญ
Bei manchen SSD Herstellern, wie z.B. Intel, wird die Lebensdauer der SSD per SMART z.B. umgekehrt dargestellt. Sprich, bei einer Intel SSD Bedeutet 100, dass die SSD quasi neu ist und 0, dass sie quasi Tod ist.

Gruss Alex
Member: MysticFoxDE
MysticFoxDE Dec 05, 2023 at 12:36:10 (UTC)
Goto Top
Moin @DerMaddin,

@MysticFoxDE wie alt ist eure XGS2300,

wir betreuen diverse, die meisten davon sind aber 1-2 Jahre alt, weil wir bei vielen Kunden in den letzten Jahren die Hardware erneuert haben.

Die folgende ...

adata im2s3168 smart joda n1

ist z.B. schon 15394 Stunden, respektive 15394/24= 641,41 Tage online.

wieviel TBW

Wenn man dem "Total_LBAs_Written" Wert dieser SSD glauben kann, dann hat die SSD aus dem oberen Screenshot bereits 39320691999 LBA's a 512B geschrieben, sprich, hat schon 42111128312 / 2 / 1024 / 1024 / 1024 = 19,61 TBW auf dem Buckel.

und was für eine SSD ist drin?

Ich habe soeben einige XG(S) durchgeschaut, die wir betreuen und bei allen ist die folgende SSD verbaut.

adata im2s3168

Oh, ich glaube ich sehe gerade einen viel besseren Indikator für einen Defekt der ADATA SSD's. ๐Ÿ˜

Mit dem folgenden Befehl ...

smartctl -x /dev/sda | grep Unused_Rsvd_Blk_Cnt_Tot

.. kannst du die Anzahl der Reserveblöcke, die die entsprechende (ADATA) SSD noch übrig hat, abrufen.

unused_rsvd_blk_cnt_tot

Das bedeutet, dass die SSD aus dem oberen Beispiel, noch 4976 Blöcke übrig, was angenommen deren Pagesize von 8K und unter der Annahme, dass 128 Pages dieser SSD einen Block ergeben, einer noch übrig gebliebenen Reservekapazität von ... 4976 Blöcke * 128 Pages * 8K / 1024 / 1024 = 4,859 GByte entspricht.

Die Kapazität ist jedoch nicht wichtig, diese habe ich nur der Vollständigkeit halber mal ausgerechnet.
Viel wichtiger ist die Anzahl der Reserveblöcke und auch deren Veränderung.

Wenn sich dieser Wert bereits im Zweistelligen Bereich befindet, dann ist höchste Vorsicht geboten!
Denn dann stehen der SSD nur noch weniges Reserveblöcke zur Verfügung, um die bereits zu Tode geschriebenen Blöcke der "produktiven" Speicherkapazität zu ersetzen.

Sprich, sobald dieser Wert 0 erreicht, ist die entsprechende SSD nur noch einen Augenblick von Ihrem Tod entfernt!

Gruss Alex
Member: watIsLos
watIsLos Dec 06, 2023 updated at 09:00:12 (UTC)
Goto Top
Moin Alex,

also der Befehl funktioniert bei uns nicht:

smartctl -x /dev/sda | grep Unused_Rsvd_Blk_Cnt_Tot

Dieser geht:

smartctl -x /dev/sda | grep Endurance


Wir haben eine Sophos SG-230
Member: MysticFoxDE
MysticFoxDE Dec 06, 2023 updated at 09:12:35 (UTC)
Goto Top
Moin @watIsLos,

also der Befehl funktioniert bei uns nicht:

smartctl -x /dev/sda | grep Unused_Rsvd_Blk_Cnt_Tot

Dann führ mal ...

smartctl -x /dev/sda

... aus und poste bitte die Ausgabe.
Das sollte alles was per SMART von der SSD abrufbar ist, eigentlich ausspucken.

Dieser geht:

smartctl -x /dev/sda | grep Endurance

Und was kommt dabei raus?

Gruss Alex
Member: watIsLos
watIsLos Dec 06, 2023, updated at Dec 07, 2023 at 13:40:46 (UTC)
Goto Top
@MysticFoxDE

smartctl 6.3 2015-02-08 r4039 [x86_64-linux-3.12.74-0.434058663.g1ba2494.rb7-smp                              64] (SUSE RPM)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Intel 530 Series SSDs
Device Model:     INTEL SSDSC2BW120A4
Firmware Version: DC32
User Capacity:    120,034,123,776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Dec  6 10:16:39 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM level is:     254 (maximum performance)
Rd look-ahead is: Enabled
Write cache is:   Enabled
ATA Security is:  Disabled, frozen [SEC2]
Wt Cache Reorder: Unavailable

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

General SMART Values:
Offline data collection status:  (0x05) Offline data collection activity
                                        was aborted by an interrupting command f                              rom host.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (  33) The self-test routine was interrupted
                                        by the host with a hard or soft reset.
Total time to complete Offline
data collection:                ( 2930) seconds.
Offline data collection
capabilities:                    (0x7f) SMART execute Offline immediate.
                                        Auto Offline data collection on/off supp                              ort.
                                        Abort Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  48) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x0025) SCT Status supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  5 Reallocated_Sector_Ct   -O--CK   100   100   000    -    0
  9 Power_On_Hours_and_Msec -O--CK   100   100   000    -    14184h+08m+32.060s
 12 Power_Cycle_Count       -O--CK   100   100   000    -    25
170 Available_Reservd_Space PO--CK   001   001   010    NOW  0
171 Program_Fail_Count      -O--CK   100   100   000    -    0
172 Erase_Fail_Count        -O--CK   100   100   000    -    0
174 Unexpect_Power_Loss_Ct  -O--CK   100   100   000    -    14
183 SATA_Downshift_Count    -O--CK   100   100   000    -    8
184 End-to-End_Error        PO--CK   100   100   090    -    0
187 Uncorrectable_Error_Cnt -O--CK   100   100   000    -    0
190 Airflow_Temperature_Cel -O--CK   026   049   000    -    26 (Min/Max 19/49)
192 Power-Off_Retract_Count -O--CK   100   100   000    -    14
199 UDMA_CRC_Error_Count    -O--CK   100   100   000    -    0
225 Host_Writes_32MiB       -O--CK   100   100   000    -    2523546
226 Workld_Media_Wear_Indic -O--CK   100   100   000    -    65535
227 Workld_Host_Reads_Perc  -O--CK   100   100   000    -    31
228 Workload_Minutes        -O--CK   100   100   000    -    65535
232 Available_Reservd_Space PO--CK   001   001   010    NOW  0
233 Media_Wearout_Indicator -O--CK   030   030   000    -    0
241 Host_Writes_32MiB       -O--CK   100   100   000    -    2523546
242 Host_Reads_32MiB        -O--CK   100   100   000    -    1172920
249 NAND_Writes_1GiB        -O--CK   100   100   000    -    297087
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x04       GPL,SL  R/O      1  Device Statistics log
0x06           SL  R/O      1  SMART self-test log
0x07       GPL     R/O      1  Extended self-test log
0x09           SL  R/W      1  Selective self-test log
0x10       GPL     R/O      1  NCQ Command Error log
0x11       GPL,SL  R/O      1  SATA Phy Event Counters
0x30       GPL,SL  R/O     16  IDENTIFY DEVICE data log
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log
0xb7       GPL,SL  VS      16  Device vendor specific log
0xe0       GPL,SL  R/W      1  SCT Command/Status
0xe1       GPL,SL  R/W      1  SCT Data Transfer

SMART Extended Comprehensive Error Log (GP Log 0x03) not supported

SMART Error Log not supported

SMART Extended Self-test Log Version: 0 (1 sectors)
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA                              _of_first_error
# 1  Offline             Interrupted (host reset)      10%     12860         -
# 2  Offline             Interrupted (host reset)      10%     10771         -
# 3  Offline             Interrupted (host reset)      10%     10771         -
# 4  Offline             Interrupted (host reset)      10%     10771         -
# 5  Offline             Interrupted (host reset)      10%     10554         -
# 6  Offline             Interrupted (host reset)      10%     10543         -
# 7  Offline             Interrupted (host reset)      10%     10267         -
# 8  Offline             Interrupted (host reset)      10%      9713         -
# 9  Offline             Interrupted (host reset)      10%      7625         -
#10  Offline             Interrupted (host reset)      10%      7625         -
#11  Offline             Interrupted (host reset)      10%      7625         -
#12  Offline             Interrupted (host reset)      10%      4075         -
#13  Offline             Interrupted (host reset)      10%      3909         -
#14  Offline             Interrupted (host reset)      10%      1565         -
#15  Offline             Interrupted (host reset)      10%      1338         -
#16  Offline             Interrupted (host reset)      10%       110         -
#17  Offline             Interrupted (host reset)      10%        31         -
#18  Offline             Interrupted (host reset)      10%        31         -
#19  Offline             Interrupted (host reset)      10%        24         -

SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been ru                              n
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Status Version:                  3
SCT Version (vendor specific):       0 (0x0000)
SCT Support Level:                   1
Device State:                        Active (0)
Current Temperature:                    26 Celsius
Power Cycle Min/Max Temperature:     19/49 Celsius
Lifetime    Min/Max Temperature:     19/72 Celsius
Under/Over Temperature Limit Count:   0/0

SCT Temperature History Version:     0 (Unknown, should be 2)
Temperature Sampling Period:         1 minute
Temperature Logging Interval:        10 minutes
Min/Max recommended Temperature:      0/ 0 Celsius
Min/Max Temperature Limit:            0/ 0 Celsius
Temperature History Size (Index):    0 (413)
Temperature History is empty

SCT Error Recovery Control command not supported

Device Statistics (GP Log 0x04)
Page Offset Size         Value  Description
  1  =====  =                =  == General Statistics (rev 2) ==
  1  0x008  4               31  Lifetime Power-On Resets
  1  0x010  4            14186  Power-on Hours
  1  0x018  6     165401514110  Logical Sectors Written
  1  0x028  6      76885315478  Logical Sectors Read
  4  =====  =                =  == General Errors Statistics (rev 1) ==
  4  0x008  4                0  Number of Reported Uncorrectable Errors
  4  0x010  4              450  Resets Between Cmd Acceptance and Completion
  5  =====  =                =  == Temperature Statistics (rev 1) ==
  5  0x008  1               26  Current Temperature
  5  0x010  1               25  Average Short Term Temperature
  5  0x018  1               26  Average Long Term Temperature
  5  0x020  1               49  Highest Temperature
  5  0x028  1               25  Lowest Temperature
  5  0x030  1               45  Highest Average Short Term Temperature
  5  0x038  1               25  Lowest Average Short Term Temperature
  5  0x040  1               28  Highest Average Long Term Temperature
  5  0x048  1               25  Lowest Average Long Term Temperature
  5  0x050  4                0  Time in Over-Temperature
  5  0x058  1               70  Specified Maximum Operating Temperature
  5  0x060  4                0  Time in Under-Temperature
  5  0x068  1                0  Specified Minimum Operating Temperature
  6  =====  =                =  == Transport Statistics (rev 1) ==
  6  0x008  4              450  Number of Hardware Resets
  6  0x010  4               15  Number of ASR Events
  6  0x018  4                0  Number of Interface CRC Errors
  7  =====  =                =  == Solid State Device Statistics (rev 1) ==
  7  0x008  1               61  Percentage Used Endurance Indicator

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  2            0  Command failed due to ICRC error
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2            0  R_ERR response for host-to-device data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            0  R_ERR response for host-to-device non-data FIS
0x0008  2            0  Device-to-host non-data FIS retries
0x0009  2            1  Transition from drive PhyRdy to drive PhyNRdy
0x000a  2           17  Device-to-host register FISes sent due to a COMRESET
0x000f  2            0  R_ERR response for host-to-device data FIS, CRC
0x0010  2            0  R_ERR response for host-to-device data FIS, non-CRC
0x0012  2            0  R_ERR response for host-to-device non-data FIS, CRC
0x0013  2            0  R_ERR response for host-to-device non-data FIS, non-CRC
0x0002  2            0  R_ERR response for data FIS
0x0005  2            0  R_ERR response for non-data FIS
0x000b  2            0  CRC errors within host-to-device FIS
0x000d  2            0  Non-CRC errors within host-to-device FIS
Member: MysticFoxDE
MysticFoxDE Dec 07, 2023 at 22:10:01 (UTC)
Goto Top
Moin @watIsLos,

Model Family:     Intel 530 Series SSDs
Device Model:     INTEL SSDSC2BW120A4
Firmware Version: DC32
User Capacity:    120,034,123,776 bytes [120 GB]

OK, das ist die erste Intel SSD, sie ich in einer Sophos sehe. ๐Ÿ™ƒ

9 Power_On_Hours_and_Msec -O--CK   100   100   000    -    14184h+08m+32.060s

Kann es sein, dass die diese Appliance noch keine 2 Jahre im Betrieb ist?

 1  0x018  6     165401514110  Logical Sectors Written

Die hat schon ~77 TBW auf dem Buckel, das ist bei der "Belastungscharakteristik" ganz schön viel für diesen SSD Typ. ๐Ÿ˜ฌ

Und laut der folgenden Angabe ...

  7  0x008  1               61  Percentage Used Endurance Indicator

... ist diese geschätzt, bereits schon zu 61% verbraucht.
Der letzten Angabe kann man jedoch nicht wirklich vertrauen, denn es gibt seitens keinem der Hersteller eine Garantie, dass die entsprechende SSD, bis 100% wirklich durchhält. Auf der anderen Seite, kann man pauschal auch nicht sagen, dass die SSD bei erreichen von 100%, wirklich defekt ist. ๐Ÿ˜”

Bei unseren Kunden sind aufgrund von defekten SSD's, in den letzten Jahren jedoch leider schon einige SG/XG Appliances ausgefallen und dem Letzt hat es auch unsere eigene erwischt, daher auch der Beitrag. ๐Ÿ˜ญ

Gruss Alex
Member: watIsLos
watIsLos Dec 08, 2023 at 07:41:34 (UTC)
Goto Top
Moin Alex,

wir haben ein HA-Cluster läuft seit 7 Jahren, ohne Probleme.
Spätestens in zwei Jahren hat sich mit Sophos SG ja eh erlegt. Ich habe aber schon Kontakt aufgenommen das wir noch Backup Geräte bekommen, also die gleichen Modelle falls eines direkt mal abschmiert.

Du Schreibst das Du das schon erlebt hast, waren das auch SG Geräte mit Intel SSD, oder andere?
Member: MysticFoxDE
MysticFoxDE Dec 08, 2023 at 08:30:16 (UTC)
Goto Top
Moin @watIsLos,

wir haben ein HA-Cluster läuft seit 7 Jahren, ohne Probleme.

da scheint die "smartctl" auf dem Pinguin der XG aber einen ordentlichen Schuss zu haben, denn die sagt, dass die SSD bisher weniger als 2 Jahre gelaufen ist. ๐Ÿ™ƒ

Die meisten der HA-Cluster bei den Kunden, laufen auch ohne Probleme und bei einem HA Cluster,
ist der Schaden, mal abgesehen von dem Verlust der Mails in der Queue oder Quarantäne, ja auch recht überschaubar. Bei einer Singleappliance, so wie das meistens bei den kleineren installiert wird, ist das Risiko und auch der Schaden, bei einem Ausfall jedoch viel höher. Und gerade die kleinen Appliances, haben eher das Problem, weil in diesen meist kleine SSD's verbaut sind, die eh nicht viele TBW's durchhalten. ๐Ÿ˜”
Oder man loggt bei den grossen zu exzessiv, so wie es bei unseren Installationen meistens der Fall ist. ๐Ÿคช


Du Schreibst das Du das schon erlebt hast, waren das auch SG Geräte mit Intel SSD, oder andere?

Es sind bisher schon überwiegend die älteren SG Appliances weggeflogen, aber ich meine, dass es mittlerweile auch ein paar XG Appliances erwischt hat. Das miese dabei ist, uns ist das ganze nun zwei mal ein paar Monate vor dem eh geplanten Hardwaretausch passiert. ๐Ÿ˜ญ
Bisher waren bei uns übrigens immer ADATA SSD's in den Appliances drin, daher war ich von deiner Intel auch sehr überrascht.

Gruss Alex
Member: watIsLos
watIsLos Dec 08, 2023 at 08:36:11 (UTC)
Goto Top
Ja, das ergab die Auswertung, ich gehe davon auch aus das da Intel SSD drin sind.

Kurze Frage, könnte ich die SSD von einer SG einfach ausbauen -> dann Klonen und die neue SSD einfach wieder einbauen und gut ist, oder muss man hier was beachten?
Member: DerMaddin
DerMaddin Dec 08, 2023 at 08:51:31 (UTC)
Goto Top
Ausgehend von dem Beitrag ist es möglich, allerdings bei XG(S), aber wenn es da geht warum sollte es bei SG nicht gehen.
Member: watIsLos
watIsLos Dec 08, 2023 updated at 09:08:58 (UTC)
Goto Top
@DerMaddin

Gut dann wäre ja hier die einfachste Methode einfach die SSD zu spiegeln und eine neue einzubauen.

Muss es außerdem eine identische Festplatte sein, also gleiches Modell mit gleicher Größe, oder ist das egal?
Nicht das da irgend eine Software oder Mechanismus das noch überprüft?!

Im Moment ist ja die Intel 120GB SSD drin, die würde ich dann gegen eine Samsung EVO 870 ersetzen.
Member: DerMaddin
DerMaddin Dec 08, 2023 at 09:50:08 (UTC)
Goto Top
Ich denke nicht, dass es das gleiche Modell/Größe sein muss. Es muss halt durch die Hardware unterstützt werden. In meinem Fall muss es zwingend eine M.2 SATA SSD sein, da kein PCIe "gesprochen" wird. Somit schränkt es die Auswahl enorm ein.
Member: MysticFoxDE
MysticFoxDE Dec 08, 2023 at 10:09:20 (UTC)
Goto Top
Moin @watIsLos,

Gut dann wäre ja hier die einfachste Methode einfach die SSD zu spiegeln und eine neue einzubauen.

das mit dem Spiegeln, haben wir noch nicht versucht, da die SSD's der entsprechenden Geräten ja schon defekt waren.

Muss es außerdem eine identische Festplatte sein, also gleiches Modell mit gleicher Größe, oder ist das egal?

Unserer Erfahrung nach, muss die SSD lediglich die gleiche Schnittstelle und mindestens dieselbe Grösse haben.
Wir haben auch schon mal ne 800GB SSD in eine Appliance verbaut, weil sonst nichts anderes greifbar war. ๐Ÿ™ƒ

Im Moment ist ja die Intel 120GB SSD drin, die würde ich dann gegen eine Samsung EVO 870 ersetzen.

Sollte gehen.

Gruss Alex
Member: watIsLos
watIsLos Dec 08, 2023 updated at 10:10:03 (UTC)
Goto Top
Bei unserem SG-230 kann es eigentlich nur eine herkömliche SSD sein, von daher habe ich eine große Auswahl.
Ich probiere es die Tage aus und werde berichten.
Member: MysticFoxDE
MysticFoxDE Dec 08, 2023 at 15:26:56 (UTC)
Goto Top
Moin @watIsLos,

Bei unserem SG-230 kann es eigentlich nur eine herkömliche SSD sein, von daher habe ich eine große Auswahl.
Ich probiere es die Tage aus und werde berichten.

jap, da ist eine normale 2,5" SATA SSD drin.

Gruss Alex
Member: watIsLos
watIsLos Dec 10, 2023 updated at 14:40:09 (UTC)
Goto Top
@MysticFoxDE

Schlechte Neuigkeiten...

Das SSD klonen ist komplett gescheitert.

Ich habe zwei mal die Original Intel SSD gespiegelt, einmal mit Acronis und einmal mit Clonezilla.
Beide haben mir gesagt das das spiegeln erfolgreich war und beide Festplatten booten nicht korrekt!

Dazu kommt noch das die Original Platte nicht mehr bootet, wenn ich diese Einbaue kommt diese Meldung:
Wenn ich die gespiegelte Samsung Platte nehme und einbauen kommt die gleiche Meldung (beides wurde über Clonezilla gespiegelt)

intel


Die Platte die mit Acronis, per GPT geklont wurde kommt schon weiter aber da gibt es die Meldung:

123

Beide Varianten laden nicht das Sophos UTM System, die Firewall bleibt Offline.
Also einfach Klonen und einbauen ist hier nicht... hätte mir den Sonntag auch anders vorgestellt.
Member: MysticFoxDE
MysticFoxDE Dec 10, 2023 at 14:54:45 (UTC)
Goto Top
Moin @watIsLos,

Schlechte Neuigkeiten...

Das SSD klonen ist komplett gescheitert.

ich habe bisher auch noch nie versucht die bestehende SSD zu klonen, da diese überhaupt nicht mehr ansprechbar waren.

Um die Appliances nach einem Ausfall der SSD wieder zum Leben zu erwecken, habe ich lediglich die deffekte SSD's gegen eine funktionierende getauscht und anschliessend die entsprechende Appliance per Stick neu installiert und danach das letzte Backup draufgehauen.

Gruss Alex
Member: watIsLos
watIsLos Dec 10, 2023 updated at 15:09:01 (UTC)
Goto Top
Hi Alex,

Ich habe in meinem Leben gefühlte 1000 Backups gemacht, egal ob mit Acronis oder Clonezilla.
Das dabei die Originalplatte nicht mehr richtig bootet habe ich noch nie erlebt.

Blöd nur, dass es jetzt bei einer so wichtigen Festplatte wie der Firewall nicht funktioniert.

Wir haben einen HA-Cluster, die andere Firewall läuft jetzt primär. Am Montag werde ich versuchen die UTM per Stick zurückzusetzen und neu zu installieren, Backup einspielen und gut ist... Mehr Überraschungen kann ich im Moment nicht gebrauchen.
Member: MysticFoxDE
MysticFoxDE Dec 10, 2023 at 15:16:16 (UTC)
Goto Top
Moin @watIsLos,

Ich habe in meinem Leben gefühlte 1000 Backups gemacht, egal ob mit Acronis oder Clonezilla.
Das dabei die Originalplatte nicht mehr richtig bootet habe ich noch nie erlebt.

Blöd nur, dass es jetzt bei einer so wichtigen Festplatte wie der Firewall nicht funktioniert.

oh ja, dass nun auch die Original SSD nicht mehr funktioniert, habe ich irgendwie übersehen. ๐Ÿ˜ฌ
Das ist echt blöd und nein, ich habe dafür momentan leider keine Erklärung. ๐Ÿ˜”

Gruss Alex
Member: watIsLos
watIsLos Dec 11, 2023 at 13:14:12 (UTC)
Goto Top
Abschließend...

Ich habe die Festplatte formatiert und per USB Stick die Sophos UTM installiert, Backup importiert und gut wars.
Ging fast genauso schnell, nur im Gegensatz zum Klonen hat es funktioniert!

Also besser nicht Klonen, sondern direkt installieren!
Member: DerMaddin
DerMaddin Dec 12, 2023 at 11:24:16 (UTC)
Goto Top
Ich habe mal aus Interesse eine alte SG115w aufgeschraubt und war in doppelter Hinsicht erstaunt. Einerseits sehe ich, dass RAM, Wifi-Modul und M.2 SSD mit Lack "gesichert" sind. Scheinbar eine Maßnahme, um sich bei Garantieansprüchen versichern zu können, dass der Kunde nichts verändert hat, andererseits ist bereits eine der vier Schrauben mit Sicherungslack und mit einem "Warranty Void" Aufkleber versehen.

Dann aber sehe ich auch eine ADATA SSD IM2S3134N-064G und was laut den Specs zu Tage kommt, erstaunt mich sehr. MLC und kein TLC Flash-Typ. Also wesentlich langlebiger. Scheint so als wäre das geplante Obsoleszenz.

screenshot 2023-12-12 105230

Wollte unsere XGS nicht aufschrauben, da noch in Garantie und Support aber weiß jemand, ob bei den XGS auch so mit Lack "gesichert" ist?
Member: MysticFoxDE
MysticFoxDE Dec 12, 2023 at 12:17:11 (UTC)
Goto Top
Moin @DerMaddin,

Ich habe mal aus Interesse eine alte SG115w aufgeschraubt und war in doppelter Hinsicht erstaunt. Einerseits sehe ich, dass RAM, Wifi-Modul und M.2 SSD mit Lack "gesichert" sind. Scheinbar eine Maßnahme, um sich bei Garantieansprüchen versichern zu können, dass der Kunde nichts verändert hat, andererseits ist bereits eine der vier Schrauben mit Sicherungslack und mit einem "Warranty Void" Aufkleber versehen.

daher auch mein Hinweis, dass man vor dem Umbau, diesen unbedingt mit dem Support des Hersteller abstimmen sollte, sonst erlischt die Garantie.

Dann aber sehe ich auch eine ADATA SSD IM2S3134N-064G und was laut den Specs zu Tage kommt, erstaunt mich sehr. MLC und kein TLC Flash-Typ. Also wesentlich langlebiger.

Daher war ich ja auch so erstaunt darüber, dass @watIsLos in seiner Appliance eine Intel 530 er verbaut hatte, denn die Speicherzellen dieser SSD's, halten im vergleich zu den Adata SSD's, mit ihren ~ 10.000 Schreibzyklen mehr als dreimal so lange.

Scheint so als wäre das geplante Obsoleszenz.

Ich denke eher, dass das Richtung "aus Unwissenheit an der falschen Ecke gespart", geht. ๐Ÿ˜”

Wollte unsere XGS nicht aufschrauben, da noch in Garantie und Support aber weiß jemand, ob bei den XGS auch so mit Lack "gesichert" ist?

Kann mich nicht dran erinnern, dass die 2.5" SSD's die wir bisher getauscht haben (=> SG 210), irgendwie zusätzlich gesichert waren.

Gruss Alex