mysticfoxde
Goto Top

SOPHOS - XG(S) - SSD-Lebensdauer prüfen

Moin Zusammen,

dank der SSD’s sind nicht nur Clients oder Server, sondern auch die SGW’s diverser Hersteller etwas flinker geworden. 😁
Leider hält so eine SSD ja bekanntlich nicht unendlich. Diese Tatsache hat aber Sophos und auch andere SGW-Hersteller glaube ich nicht so ganz auf ihrem Schirm, denn ich habe bisher noch nie bei einem SGW eine entsprechende Warnung gesehen, dass die eingebaute SSD bald den Geist aufgeben könnte. 😔

Dabei ist es nicht so, dass die Informationen der SSD nicht so einfach ausgelesen werden können, im Gegenteil, mit dem folgenden Einzeiler bekommt ihr ratz fatz bei einer Sophos XG/XGS …

smartctl -x /dev/sda | grep Endurance

… die Lebensdauer der eingebauten SSD zurück geliefert. 😉

ssd lifetime


Die im oberen Beispiel gezeigte SSD ist z.B. aktuell nur zu 2% verbraucht.
Sollte hier jedoch ein Wert von > 80 erscheinen, kann ich nur empfehlen die entsprechende Appliance so schnell wie möglich austauschen zu lassen, da diese wie gesagt, ohne jegliche Vorwarnung in den nächsten Monaten von jetzt auf naher, eh den Geist aufgibt!

Und wenn man in einem solchen Fall kein HA Cluster hat, steht der Laden ratz fatz für ein paar Tage und man verliert zudem sämtliche Daten auf dem laufenden SGW wie z.B. Logs aber auch die Mails, die noch in der Quarantäne und oder der Mailqueue zwischenhängen. 😬

Das Letztere geschieht übrigens auch bei einem HA Cluster, da weder die Mailqueue noch die Quarantäne, zwischen den Nodes synchronisiert werden. 😭
Das zuletzt genannte ist übrigens nicht nur ein Problem bei Sophos, sondern ist z.B. bei Fortigates 1:1 genau dasselbe.

Es gibt übrigens eine ganz schnelle Variante, eine ausgefallene Sophos XG(S) wieder zum Leben zu erwecken, aber, solltet ihr das folgende ohne die Absprache mit dem Sophos Support machen, so erlischt die Garantie für die entsprechende Appliance!

Um eine durch SSD defekt ausgefallene Sophos XGS (Display leuchtet zwar aber zeigt nichts an) wieder zum Leben zu erwecken, muss man lediglich die in dem Gerät verbaute SSD gegen eine gleichwertige oder grössere tauschen und die Appliance mit USB Stick neu bespielen.

Aber, wie gesagt, ohne Absprache mit dem Hersteller, erlischt bei einem solchen Eingriff augenblicklich die Gerätegarantie!

So, ich hoffe nun, dass ihr beim Prüfen eurer Appliances, keinen allzu grossen Schock bekommt.

Und ja, auch ganz wichtig, bei einem HA-Cluster bitte die Lebensdauer der SSD auf alle Nodes und nicht nur dem aktiven prüfen. 😉

Gruss Alex

Content-ID: 73763751381

Url: https://administrator.de/contentid/73763751381

Ausgedruckt am: 21.11.2024 um 09:11 Uhr

beidermachtvongreyscull
beidermachtvongreyscull 03.12.2023 um 11:39:04 Uhr
Goto Top
Danke für Deine Mühe, Alex!

Ein schönes Wochenende wünsche ich Dir.

VG
Andreas
watIsLos
watIsLos 04.12.2023 um 09:06:53 Uhr
Goto Top
Moin Alex,

Vielen Dank für den Tipp, da wäre ich nicht drauf gekommen!
DerMaddin
DerMaddin 04.12.2023 um 11:41:29 Uhr
Goto Top
In meinem Fall hat die M.2 SSD den Wert 178 (maximal möglich 255). Die XGS ist zwei Jahre alt und die verbaute ADATA IM23164 SSD hat bereits 17 TBW erreicht laut SMART Attribut #241. Jedoch glaube ich den Werten nicht, da ich auch das hier sehen kann...

m.2

Aufgrund fehlender smartctl DB-Einträge und fehlerhafter Angabe, dass es eine 2.5" SSD sein soll, können die Werte auch falsch interpretiert worden sein.

@MysticFoxDE wie alt ist eure XGS2300, wieviel TBW und was für eine SSD ist drin?
Tobi-2001
Tobi-2001 04.12.2023 um 12:43:01 Uhr
Goto Top
@DerMaddin
@MysticFoxDE

Das heißt wenn ich über den Befehl (smartctl -x /dev/sda | grep Endurance) ein Wert von 67 auslese, das es dann doch nicht so schlimm ist? Da der maximal Wert bei 255 liegt?
DerMaddin
DerMaddin 04.12.2023 um 13:21:10 Uhr
Goto Top
So zumindest in der Theorie. Das alles sind statistische Werte die mathematisch errechnet werden. Habe dazu einen interessanten Artikel gefunden:

https://www.ni.com/de/support/documentation/supplemental/12/understandin ...

Leider finde ich keine TBW-Angaben zu meiner SSD in der XGS, ADATA schreibt nur MTBF, was nun nicht sehr aussagekräftig ist. Laut den Rechenbeispielen im Artikel, komme ich aber auch ca. 26 TBW, was auch den 178 Wert halbwegs erklären könnte. Ist aber alles wirklich nur Statistik.
MysticFoxDE
MysticFoxDE 04.12.2023 um 18:29:43 Uhr
Goto Top
Moin @Tobi-2001,

Das heißt wenn ich über den Befehl (smartctl -x /dev/sda | grep Endurance) ein Wert von 67 auslese, das es dann doch nicht so schlimm ist? Da der maximal Wert bei 255 liegt?

wenn bei dir an der rot markierten Stelle wo in dem folgenden Screenshot ...
ssd lifetime
... eine "2" steht, die "67" dargestellt werden, dann bedeutet das, dass die Lebensdauer der SSD dieser Appliance,
bereits schon zu 67% verbraucht ist.

Gruss Alex
MysticFoxDE
MysticFoxDE 05.12.2023 um 07:43:57 Uhr
Goto Top
Moin @DerMaddin,

In meinem Fall hat die M.2 SSD den Wert 178

das sieht alles andere als gut aus. 😬

(maximal möglich 255)

ja, er kann theoretisch bis 255 klettern weil dieser in einem zweistelligen Hex-Wert gespeichert wird.
Aber, laut diversen Dokus die ich bisher gelesen habe und auch der folgenden hier …

https://linux.die.net/man/8/smartctl

…, bedeutet 0, dass die SSD komplett unverbraucht ist und 100 bedeutet, dass diese so gut wie Tod ist.

Die XGS ist zwei Jahre alt und die verbaute ADATA IM23164 SSD hat bereits 17 TBW erreicht laut

Theoretisch sollte diese SSD mit ihren ca. 3000 Schreibzyklen auch etwa 75TB durchhalten.
Aber, die max. TBW angaben der SSD-Hersteller, würde ich nicht zu sehr auf die Goldwaage legen.
Das Problem hierbei ist, dass diese nur dann zutreffen, wenn die Daten auf die SSD auch immer „pagesizealigned“, sprich in 8k oder 16k grossen „Schnipseln“ draufgeschrieben oder aktualisiert werden.

Weitere Details zu diesem Thema, findest du in der folgenden, sehr umfangreichen Doku.

https://www.flashmemorysummit.com/English/Collaterals/Proceedings/2012/2 ...

Die ist auch nicht schlecht.
https://codecapsule.com/2014/02/12/coding-for-ssds-part-3-pages-blocks-a ...

Die, XGS schreibt die Daten auf ihre SSD aber alles andere als „pagesizealigned“, zumindest hat sie das in den vorherigen Versionen nicht wirklich gut gemacht.
Denn insbesondere beim Aktualisieren/Schreiben der ganzen Logs, wurden oft nur Schnipsel von unter einem Kilobyte auf die SSD geschrieben. Dadurch altert die SSD jedoch viel schneller.😔

Sprich, wenn man auf eine SSD deren Pagesize 8K beträgt, ständig nur mit 1K draufschreibt, dann hält diese SSD auch nur ~1/8, der vom Hersteller angegebenen TBW.

In den meisten anderen Fällen, bei Clients oder Server, sind die schreibenden Zugriffe auch grösser wie die Pagesize, weshalb dort die TBW Angaben auch eher zutreffen.
Bei SGW‘s, die ständig kleine Fitzelchen auf die SSD schreiben, währe ich mit der TBW jedoch sehr vorsichtig.

Und noch eins, die SMART Werte der SSD‘s sind leider nicht normiert. 😭
Bei manchen SSD Herstellern, wie z.B. Intel, wird die Lebensdauer der SSD per SMART z.B. umgekehrt dargestellt. Sprich, bei einer Intel SSD Bedeutet 100, dass die SSD quasi neu ist und 0, dass sie quasi Tod ist.

Gruss Alex
MysticFoxDE
MysticFoxDE 05.12.2023 um 13:36:10 Uhr
Goto Top
Moin @DerMaddin,

@MysticFoxDE wie alt ist eure XGS2300,

wir betreuen diverse, die meisten davon sind aber 1-2 Jahre alt, weil wir bei vielen Kunden in den letzten Jahren die Hardware erneuert haben.

Die folgende ...

adata im2s3168 smart joda n1

ist z.B. schon 15394 Stunden, respektive 15394/24= 641,41 Tage online.

wieviel TBW

Wenn man dem "Total_LBAs_Written" Wert dieser SSD glauben kann, dann hat die SSD aus dem oberen Screenshot bereits 39320691999 LBA's a 512B geschrieben, sprich, hat schon 42111128312 / 2 / 1024 / 1024 / 1024 = 19,61 TBW auf dem Buckel.

und was für eine SSD ist drin?

Ich habe soeben einige XG(S) durchgeschaut, die wir betreuen und bei allen ist die folgende SSD verbaut.

adata im2s3168

Oh, ich glaube ich sehe gerade einen viel besseren Indikator für einen Defekt der ADATA SSD's. 😁

Mit dem folgenden Befehl ...

smartctl -x /dev/sda | grep Unused_Rsvd_Blk_Cnt_Tot

.. kannst du die Anzahl der Reserveblöcke, die die entsprechende (ADATA) SSD noch übrig hat, abrufen.

unused_rsvd_blk_cnt_tot

Das bedeutet, dass die SSD aus dem oberen Beispiel, noch 4976 Blöcke übrig, was angenommen deren Pagesize von 8K und unter der Annahme, dass 128 Pages dieser SSD einen Block ergeben, einer noch übrig gebliebenen Reservekapazität von ... 4976 Blöcke * 128 Pages * 8K / 1024 / 1024 = 4,859 GByte entspricht.

Die Kapazität ist jedoch nicht wichtig, diese habe ich nur der Vollständigkeit halber mal ausgerechnet.
Viel wichtiger ist die Anzahl der Reserveblöcke und auch deren Veränderung.

Wenn sich dieser Wert bereits im Zweistelligen Bereich befindet, dann ist höchste Vorsicht geboten!
Denn dann stehen der SSD nur noch weniges Reserveblöcke zur Verfügung, um die bereits zu Tode geschriebenen Blöcke der "produktiven" Speicherkapazität zu ersetzen.

Sprich, sobald dieser Wert 0 erreicht, ist die entsprechende SSD nur noch einen Augenblick von Ihrem Tod entfernt!

Gruss Alex
watIsLos
watIsLos 06.12.2023 aktualisiert um 10:00:12 Uhr
Goto Top
Moin Alex,

also der Befehl funktioniert bei uns nicht:

smartctl -x /dev/sda | grep Unused_Rsvd_Blk_Cnt_Tot

Dieser geht:

smartctl -x /dev/sda | grep Endurance


Wir haben eine Sophos SG-230
MysticFoxDE
MysticFoxDE 06.12.2023 aktualisiert um 10:12:35 Uhr
Goto Top
Moin @watIsLos,

also der Befehl funktioniert bei uns nicht:

smartctl -x /dev/sda | grep Unused_Rsvd_Blk_Cnt_Tot

Dann führ mal ...

smartctl -x /dev/sda

... aus und poste bitte die Ausgabe.
Das sollte alles was per SMART von der SSD abrufbar ist, eigentlich ausspucken.

Dieser geht:

smartctl -x /dev/sda | grep Endurance

Und was kommt dabei raus?

Gruss Alex
watIsLos
watIsLos 06.12.2023, aktualisiert am 07.12.2023 um 14:40:46 Uhr
Goto Top
@MysticFoxDE

smartctl 6.3 2015-02-08 r4039 [x86_64-linux-3.12.74-0.434058663.g1ba2494.rb7-smp                              64] (SUSE RPM)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Intel 530 Series SSDs
Device Model:     INTEL SSDSC2BW120A4
Firmware Version: DC32
User Capacity:    120,034,123,776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Dec  6 10:16:39 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM level is:     254 (maximum performance)
Rd look-ahead is: Enabled
Write cache is:   Enabled
ATA Security is:  Disabled, frozen [SEC2]
Wt Cache Reorder: Unavailable

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

General SMART Values:
Offline data collection status:  (0x05) Offline data collection activity
                                        was aborted by an interrupting command f                              rom host.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (  33) The self-test routine was interrupted
                                        by the host with a hard or soft reset.
Total time to complete Offline
data collection:                ( 2930) seconds.
Offline data collection
capabilities:                    (0x7f) SMART execute Offline immediate.
                                        Auto Offline data collection on/off supp                              ort.
                                        Abort Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  48) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x0025) SCT Status supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  5 Reallocated_Sector_Ct   -O--CK   100   100   000    -    0
  9 Power_On_Hours_and_Msec -O--CK   100   100   000    -    14184h+08m+32.060s
 12 Power_Cycle_Count       -O--CK   100   100   000    -    25
170 Available_Reservd_Space PO--CK   001   001   010    NOW  0
171 Program_Fail_Count      -O--CK   100   100   000    -    0
172 Erase_Fail_Count        -O--CK   100   100   000    -    0
174 Unexpect_Power_Loss_Ct  -O--CK   100   100   000    -    14
183 SATA_Downshift_Count    -O--CK   100   100   000    -    8
184 End-to-End_Error        PO--CK   100   100   090    -    0
187 Uncorrectable_Error_Cnt -O--CK   100   100   000    -    0
190 Airflow_Temperature_Cel -O--CK   026   049   000    -    26 (Min/Max 19/49)
192 Power-Off_Retract_Count -O--CK   100   100   000    -    14
199 UDMA_CRC_Error_Count    -O--CK   100   100   000    -    0
225 Host_Writes_32MiB       -O--CK   100   100   000    -    2523546
226 Workld_Media_Wear_Indic -O--CK   100   100   000    -    65535
227 Workld_Host_Reads_Perc  -O--CK   100   100   000    -    31
228 Workload_Minutes        -O--CK   100   100   000    -    65535
232 Available_Reservd_Space PO--CK   001   001   010    NOW  0
233 Media_Wearout_Indicator -O--CK   030   030   000    -    0
241 Host_Writes_32MiB       -O--CK   100   100   000    -    2523546
242 Host_Reads_32MiB        -O--CK   100   100   000    -    1172920
249 NAND_Writes_1GiB        -O--CK   100   100   000    -    297087
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x04       GPL,SL  R/O      1  Device Statistics log
0x06           SL  R/O      1  SMART self-test log
0x07       GPL     R/O      1  Extended self-test log
0x09           SL  R/W      1  Selective self-test log
0x10       GPL     R/O      1  NCQ Command Error log
0x11       GPL,SL  R/O      1  SATA Phy Event Counters
0x30       GPL,SL  R/O     16  IDENTIFY DEVICE data log
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log
0xb7       GPL,SL  VS      16  Device vendor specific log
0xe0       GPL,SL  R/W      1  SCT Command/Status
0xe1       GPL,SL  R/W      1  SCT Data Transfer

SMART Extended Comprehensive Error Log (GP Log 0x03) not supported

SMART Error Log not supported

SMART Extended Self-test Log Version: 0 (1 sectors)
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA                              _of_first_error
# 1  Offline             Interrupted (host reset)      10%     12860         -
# 2  Offline             Interrupted (host reset)      10%     10771         -
# 3  Offline             Interrupted (host reset)      10%     10771         -
# 4  Offline             Interrupted (host reset)      10%     10771         -
# 5  Offline             Interrupted (host reset)      10%     10554         -
# 6  Offline             Interrupted (host reset)      10%     10543         -
# 7  Offline             Interrupted (host reset)      10%     10267         -
# 8  Offline             Interrupted (host reset)      10%      9713         -
# 9  Offline             Interrupted (host reset)      10%      7625         -
#10  Offline             Interrupted (host reset)      10%      7625         -
#11  Offline             Interrupted (host reset)      10%      7625         -
#12  Offline             Interrupted (host reset)      10%      4075         -
#13  Offline             Interrupted (host reset)      10%      3909         -
#14  Offline             Interrupted (host reset)      10%      1565         -
#15  Offline             Interrupted (host reset)      10%      1338         -
#16  Offline             Interrupted (host reset)      10%       110         -
#17  Offline             Interrupted (host reset)      10%        31         -
#18  Offline             Interrupted (host reset)      10%        31         -
#19  Offline             Interrupted (host reset)      10%        24         -

SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been ru                              n
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Status Version:                  3
SCT Version (vendor specific):       0 (0x0000)
SCT Support Level:                   1
Device State:                        Active (0)
Current Temperature:                    26 Celsius
Power Cycle Min/Max Temperature:     19/49 Celsius
Lifetime    Min/Max Temperature:     19/72 Celsius
Under/Over Temperature Limit Count:   0/0

SCT Temperature History Version:     0 (Unknown, should be 2)
Temperature Sampling Period:         1 minute
Temperature Logging Interval:        10 minutes
Min/Max recommended Temperature:      0/ 0 Celsius
Min/Max Temperature Limit:            0/ 0 Celsius
Temperature History Size (Index):    0 (413)
Temperature History is empty

SCT Error Recovery Control command not supported

Device Statistics (GP Log 0x04)
Page Offset Size         Value  Description
  1  =====  =                =  == General Statistics (rev 2) ==
  1  0x008  4               31  Lifetime Power-On Resets
  1  0x010  4            14186  Power-on Hours
  1  0x018  6     165401514110  Logical Sectors Written
  1  0x028  6      76885315478  Logical Sectors Read
  4  =====  =                =  == General Errors Statistics (rev 1) ==
  4  0x008  4                0  Number of Reported Uncorrectable Errors
  4  0x010  4              450  Resets Between Cmd Acceptance and Completion
  5  =====  =                =  == Temperature Statistics (rev 1) ==
  5  0x008  1               26  Current Temperature
  5  0x010  1               25  Average Short Term Temperature
  5  0x018  1               26  Average Long Term Temperature
  5  0x020  1               49  Highest Temperature
  5  0x028  1               25  Lowest Temperature
  5  0x030  1               45  Highest Average Short Term Temperature
  5  0x038  1               25  Lowest Average Short Term Temperature
  5  0x040  1               28  Highest Average Long Term Temperature
  5  0x048  1               25  Lowest Average Long Term Temperature
  5  0x050  4                0  Time in Over-Temperature
  5  0x058  1               70  Specified Maximum Operating Temperature
  5  0x060  4                0  Time in Under-Temperature
  5  0x068  1                0  Specified Minimum Operating Temperature
  6  =====  =                =  == Transport Statistics (rev 1) ==
  6  0x008  4              450  Number of Hardware Resets
  6  0x010  4               15  Number of ASR Events
  6  0x018  4                0  Number of Interface CRC Errors
  7  =====  =                =  == Solid State Device Statistics (rev 1) ==
  7  0x008  1               61  Percentage Used Endurance Indicator

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  2            0  Command failed due to ICRC error
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2            0  R_ERR response for host-to-device data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            0  R_ERR response for host-to-device non-data FIS
0x0008  2            0  Device-to-host non-data FIS retries
0x0009  2            1  Transition from drive PhyRdy to drive PhyNRdy
0x000a  2           17  Device-to-host register FISes sent due to a COMRESET
0x000f  2            0  R_ERR response for host-to-device data FIS, CRC
0x0010  2            0  R_ERR response for host-to-device data FIS, non-CRC
0x0012  2            0  R_ERR response for host-to-device non-data FIS, CRC
0x0013  2            0  R_ERR response for host-to-device non-data FIS, non-CRC
0x0002  2            0  R_ERR response for data FIS
0x0005  2            0  R_ERR response for non-data FIS
0x000b  2            0  CRC errors within host-to-device FIS
0x000d  2            0  Non-CRC errors within host-to-device FIS
MysticFoxDE
MysticFoxDE 07.12.2023 um 23:10:01 Uhr
Goto Top
Moin @watIsLos,

Model Family:     Intel 530 Series SSDs
Device Model:     INTEL SSDSC2BW120A4
Firmware Version: DC32
User Capacity:    120,034,123,776 bytes [120 GB]

OK, das ist die erste Intel SSD, sie ich in einer Sophos sehe. 🙃

9 Power_On_Hours_and_Msec -O--CK   100   100   000    -    14184h+08m+32.060s

Kann es sein, dass die diese Appliance noch keine 2 Jahre im Betrieb ist?

 1  0x018  6     165401514110  Logical Sectors Written

Die hat schon ~77 TBW auf dem Buckel, das ist bei der "Belastungscharakteristik" ganz schön viel für diesen SSD Typ. 😬

Und laut der folgenden Angabe ...

  7  0x008  1               61  Percentage Used Endurance Indicator

... ist diese geschätzt, bereits schon zu 61% verbraucht.
Der letzten Angabe kann man jedoch nicht wirklich vertrauen, denn es gibt seitens keinem der Hersteller eine Garantie, dass die entsprechende SSD, bis 100% wirklich durchhält. Auf der anderen Seite, kann man pauschal auch nicht sagen, dass die SSD bei erreichen von 100%, wirklich defekt ist. 😔

Bei unseren Kunden sind aufgrund von defekten SSD's, in den letzten Jahren jedoch leider schon einige SG/XG Appliances ausgefallen und dem Letzt hat es auch unsere eigene erwischt, daher auch der Beitrag. 😭

Gruss Alex
watIsLos
watIsLos 08.12.2023 um 08:41:34 Uhr
Goto Top
Moin Alex,

wir haben ein HA-Cluster läuft seit 7 Jahren, ohne Probleme.
Spätestens in zwei Jahren hat sich mit Sophos SG ja eh erlegt. Ich habe aber schon Kontakt aufgenommen das wir noch Backup Geräte bekommen, also die gleichen Modelle falls eines direkt mal abschmiert.

Du Schreibst das Du das schon erlebt hast, waren das auch SG Geräte mit Intel SSD, oder andere?
MysticFoxDE
MysticFoxDE 08.12.2023 um 09:30:16 Uhr
Goto Top
Moin @watIsLos,

wir haben ein HA-Cluster läuft seit 7 Jahren, ohne Probleme.

da scheint die "smartctl" auf dem Pinguin der XG aber einen ordentlichen Schuss zu haben, denn die sagt, dass die SSD bisher weniger als 2 Jahre gelaufen ist. 🙃

Die meisten der HA-Cluster bei den Kunden, laufen auch ohne Probleme und bei einem HA Cluster,
ist der Schaden, mal abgesehen von dem Verlust der Mails in der Queue oder Quarantäne, ja auch recht überschaubar. Bei einer Singleappliance, so wie das meistens bei den kleineren installiert wird, ist das Risiko und auch der Schaden, bei einem Ausfall jedoch viel höher. Und gerade die kleinen Appliances, haben eher das Problem, weil in diesen meist kleine SSD's verbaut sind, die eh nicht viele TBW's durchhalten. 😔
Oder man loggt bei den grossen zu exzessiv, so wie es bei unseren Installationen meistens der Fall ist. 🤪


Du Schreibst das Du das schon erlebt hast, waren das auch SG Geräte mit Intel SSD, oder andere?

Es sind bisher schon überwiegend die älteren SG Appliances weggeflogen, aber ich meine, dass es mittlerweile auch ein paar XG Appliances erwischt hat. Das miese dabei ist, uns ist das ganze nun zwei mal ein paar Monate vor dem eh geplanten Hardwaretausch passiert. 😭
Bisher waren bei uns übrigens immer ADATA SSD's in den Appliances drin, daher war ich von deiner Intel auch sehr überrascht.

Gruss Alex
watIsLos
watIsLos 08.12.2023 um 09:36:11 Uhr
Goto Top
Ja, das ergab die Auswertung, ich gehe davon auch aus das da Intel SSD drin sind.

Kurze Frage, könnte ich die SSD von einer SG einfach ausbauen -> dann Klonen und die neue SSD einfach wieder einbauen und gut ist, oder muss man hier was beachten?
DerMaddin
DerMaddin 08.12.2023 um 09:51:31 Uhr
Goto Top
Ausgehend von dem Beitrag ist es möglich, allerdings bei XG(S), aber wenn es da geht warum sollte es bei SG nicht gehen.
watIsLos
watIsLos 08.12.2023 aktualisiert um 10:08:58 Uhr
Goto Top
@DerMaddin

Gut dann wäre ja hier die einfachste Methode einfach die SSD zu spiegeln und eine neue einzubauen.

Muss es außerdem eine identische Festplatte sein, also gleiches Modell mit gleicher Größe, oder ist das egal?
Nicht das da irgend eine Software oder Mechanismus das noch überprüft?!

Im Moment ist ja die Intel 120GB SSD drin, die würde ich dann gegen eine Samsung EVO 870 ersetzen.
DerMaddin
DerMaddin 08.12.2023 um 10:50:08 Uhr
Goto Top
Ich denke nicht, dass es das gleiche Modell/Größe sein muss. Es muss halt durch die Hardware unterstützt werden. In meinem Fall muss es zwingend eine M.2 SATA SSD sein, da kein PCIe "gesprochen" wird. Somit schränkt es die Auswahl enorm ein.
MysticFoxDE
MysticFoxDE 08.12.2023 um 11:09:20 Uhr
Goto Top
Moin @watIsLos,

Gut dann wäre ja hier die einfachste Methode einfach die SSD zu spiegeln und eine neue einzubauen.

das mit dem Spiegeln, haben wir noch nicht versucht, da die SSD's der entsprechenden Geräten ja schon defekt waren.

Muss es außerdem eine identische Festplatte sein, also gleiches Modell mit gleicher Größe, oder ist das egal?

Unserer Erfahrung nach, muss die SSD lediglich die gleiche Schnittstelle und mindestens dieselbe Grösse haben.
Wir haben auch schon mal ne 800GB SSD in eine Appliance verbaut, weil sonst nichts anderes greifbar war. 🙃

Im Moment ist ja die Intel 120GB SSD drin, die würde ich dann gegen eine Samsung EVO 870 ersetzen.

Sollte gehen.

Gruss Alex
watIsLos
watIsLos 08.12.2023 aktualisiert um 11:10:03 Uhr
Goto Top
Bei unserem SG-230 kann es eigentlich nur eine herkömliche SSD sein, von daher habe ich eine große Auswahl.
Ich probiere es die Tage aus und werde berichten.
MysticFoxDE
MysticFoxDE 08.12.2023 um 16:26:56 Uhr
Goto Top
Moin @watIsLos,

Bei unserem SG-230 kann es eigentlich nur eine herkömliche SSD sein, von daher habe ich eine große Auswahl.
Ich probiere es die Tage aus und werde berichten.

jap, da ist eine normale 2,5" SATA SSD drin.

Gruss Alex
watIsLos
watIsLos 10.12.2023 aktualisiert um 15:40:09 Uhr
Goto Top
@MysticFoxDE

Schlechte Neuigkeiten...

Das SSD klonen ist komplett gescheitert.

Ich habe zwei mal die Original Intel SSD gespiegelt, einmal mit Acronis und einmal mit Clonezilla.
Beide haben mir gesagt das das spiegeln erfolgreich war und beide Festplatten booten nicht korrekt!

Dazu kommt noch das die Original Platte nicht mehr bootet, wenn ich diese Einbaue kommt diese Meldung:
Wenn ich die gespiegelte Samsung Platte nehme und einbauen kommt die gleiche Meldung (beides wurde über Clonezilla gespiegelt)

intel


Die Platte die mit Acronis, per GPT geklont wurde kommt schon weiter aber da gibt es die Meldung:

123

Beide Varianten laden nicht das Sophos UTM System, die Firewall bleibt Offline.
Also einfach Klonen und einbauen ist hier nicht... hätte mir den Sonntag auch anders vorgestellt.
MysticFoxDE
MysticFoxDE 10.12.2023 um 15:54:45 Uhr
Goto Top
Moin @watIsLos,

Schlechte Neuigkeiten...

Das SSD klonen ist komplett gescheitert.

ich habe bisher auch noch nie versucht die bestehende SSD zu klonen, da diese überhaupt nicht mehr ansprechbar waren.

Um die Appliances nach einem Ausfall der SSD wieder zum Leben zu erwecken, habe ich lediglich die deffekte SSD's gegen eine funktionierende getauscht und anschliessend die entsprechende Appliance per Stick neu installiert und danach das letzte Backup draufgehauen.

Gruss Alex
watIsLos
watIsLos 10.12.2023 aktualisiert um 16:09:01 Uhr
Goto Top
Hi Alex,

Ich habe in meinem Leben gefühlte 1000 Backups gemacht, egal ob mit Acronis oder Clonezilla.
Das dabei die Originalplatte nicht mehr richtig bootet habe ich noch nie erlebt.

Blöd nur, dass es jetzt bei einer so wichtigen Festplatte wie der Firewall nicht funktioniert.

Wir haben einen HA-Cluster, die andere Firewall läuft jetzt primär. Am Montag werde ich versuchen die UTM per Stick zurückzusetzen und neu zu installieren, Backup einspielen und gut ist... Mehr Überraschungen kann ich im Moment nicht gebrauchen.
MysticFoxDE
MysticFoxDE 10.12.2023 um 16:16:16 Uhr
Goto Top
Moin @watIsLos,

Ich habe in meinem Leben gefühlte 1000 Backups gemacht, egal ob mit Acronis oder Clonezilla.
Das dabei die Originalplatte nicht mehr richtig bootet habe ich noch nie erlebt.

Blöd nur, dass es jetzt bei einer so wichtigen Festplatte wie der Firewall nicht funktioniert.

oh ja, dass nun auch die Original SSD nicht mehr funktioniert, habe ich irgendwie übersehen. 😬
Das ist echt blöd und nein, ich habe dafür momentan leider keine Erklärung. 😔

Gruss Alex
watIsLos
watIsLos 11.12.2023 um 14:14:12 Uhr
Goto Top
Abschließend...

Ich habe die Festplatte formatiert und per USB Stick die Sophos UTM installiert, Backup importiert und gut wars.
Ging fast genauso schnell, nur im Gegensatz zum Klonen hat es funktioniert!

Also besser nicht Klonen, sondern direkt installieren!
DerMaddin
DerMaddin 12.12.2023 um 12:24:16 Uhr
Goto Top
Ich habe mal aus Interesse eine alte SG115w aufgeschraubt und war in doppelter Hinsicht erstaunt. Einerseits sehe ich, dass RAM, Wifi-Modul und M.2 SSD mit Lack "gesichert" sind. Scheinbar eine Maßnahme, um sich bei Garantieansprüchen versichern zu können, dass der Kunde nichts verändert hat, andererseits ist bereits eine der vier Schrauben mit Sicherungslack und mit einem "Warranty Void" Aufkleber versehen.

Dann aber sehe ich auch eine ADATA SSD IM2S3134N-064G und was laut den Specs zu Tage kommt, erstaunt mich sehr. MLC und kein TLC Flash-Typ. Also wesentlich langlebiger. Scheint so als wäre das geplante Obsoleszenz.

screenshot 2023-12-12 105230

Wollte unsere XGS nicht aufschrauben, da noch in Garantie und Support aber weiß jemand, ob bei den XGS auch so mit Lack "gesichert" ist?
MysticFoxDE
MysticFoxDE 12.12.2023 um 13:17:11 Uhr
Goto Top
Moin @DerMaddin,

Ich habe mal aus Interesse eine alte SG115w aufgeschraubt und war in doppelter Hinsicht erstaunt. Einerseits sehe ich, dass RAM, Wifi-Modul und M.2 SSD mit Lack "gesichert" sind. Scheinbar eine Maßnahme, um sich bei Garantieansprüchen versichern zu können, dass der Kunde nichts verändert hat, andererseits ist bereits eine der vier Schrauben mit Sicherungslack und mit einem "Warranty Void" Aufkleber versehen.

daher auch mein Hinweis, dass man vor dem Umbau, diesen unbedingt mit dem Support des Hersteller abstimmen sollte, sonst erlischt die Garantie.

Dann aber sehe ich auch eine ADATA SSD IM2S3134N-064G und was laut den Specs zu Tage kommt, erstaunt mich sehr. MLC und kein TLC Flash-Typ. Also wesentlich langlebiger.

Daher war ich ja auch so erstaunt darüber, dass @watIsLos in seiner Appliance eine Intel 530 er verbaut hatte, denn die Speicherzellen dieser SSD's, halten im vergleich zu den Adata SSD's, mit ihren ~ 10.000 Schreibzyklen mehr als dreimal so lange.

Scheint so als wäre das geplante Obsoleszenz.

Ich denke eher, dass das Richtung "aus Unwissenheit an der falschen Ecke gespart", geht. 😔

Wollte unsere XGS nicht aufschrauben, da noch in Garantie und Support aber weiß jemand, ob bei den XGS auch so mit Lack "gesichert" ist?

Kann mich nicht dran erinnern, dass die 2.5" SSD's die wir bisher getauscht haben (=> SG 210), irgendwie zusätzlich gesichert waren.

Gruss Alex
Einmannshow
Einmannshow 19.03.2024 aktualisiert um 12:33:28 Uhr
Goto Top
XGS126_XN01_SFOS 20.0.0 GA-Build222# smartctl -x /dev/sda | grep Endurance
0x07  0x008  1              98  N--  Percentage Used Endurance Indicator

Volltreffer 98%.. wow!

smartctl -x /dev/sda | grep Unused_Rsvd_Blk_Cnt_Tot
180 Unused_Rsvd_Blk_Cnt_Tot PO--CK   100   100   020    -    2490

Danke (mal wieder) Alex!

Könnte mich jemand mit einem Link auf die richtige Sophos UTM Software für meine einzelne XGS126 versorgen?
MysticFoxDE
MysticFoxDE 19.03.2024 aktualisiert um 15:27:53 Uhr
Goto Top
Moin @Einmannshow,

XGS126_XN01_SFOS 20.0.0 GA-Build222# smartctl -x /dev/sda | grep Endurance
0x07  0x008  1              98  N--  Percentage Used Endurance Indicator

Volltreffer 98%.. wow!

ja, gemäss dem oberen Wert, ist deine SSD kurz vor dem verrecken, aber, gemäss dem folgenden ...

smartctl -x /dev/sda | grep Unused_Rsvd_Blk_Cnt_Tot
180 Unused_Rsvd_Blk_Cnt_Tot PO--CK   100   100   020    -    2490

... hat die jedoch noch ausreichend Reserveblöcke ... 😖 ... sehr sehr komisch. 🤔

Kannst du vielleicht die volle Ausgabe von ...
smartctl -x /dev/sda
... posten, damit ich genau sehen kann was für eine SSD in deiner XG126 steckt und das mit dem "Unused_Rsvd_Blk_Cnt_Tot" mal genauer prüfen kann, danke.

Danke (mal wieder) Alex!

Immer wieder gerne.

Könnte mich jemand mit einem Link auf die richtige Sophos UTM Software für meine einzelne XGS126 versorgen?

https://download.sophos.com/network/SophosFirewall/installers/index.html

Die oberen die mit HW anfangen sind die Images für die Hardware-Appliances.

Das ist der direkte Link zu der neusten Version.
https://download.sophos.com/network/SophosFirewall/installers/HW-20.0.0_ ...

Dann brauchst du noch die folgende Software um den Installations-Stick zu erstellen.
https://sourceforge.net/projects/win32diskimager/

Und hier wird das Prozedere genauer beschrieben.
https://docs.sophos.com/nsg/sophos-firewall/18.5/Help/en-us/webhelp/onli ...

Gruss Alex
Einmannshow
Einmannshow 19.03.2024 um 15:36:39 Uhr
Goto Top
Logo! Here we go..

XGS126_XN01_SFOS 20.0.0 GA-Build222# smartctl -x /dev/sda 
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-4.14.302] (localbuild)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     ADATA_IM2S3164-064GDA
Serial Number:    
LU WWN Device Id: 
Firmware Version: S180718z
User Capacity:    64,023,257,088 bytes [64.0 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Mar 19 15:35:06 2024 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM feature is:   Unavailable
Rd look-ahead is: Enabled
Write cache is:   Enabled
DSN feature is:   Unavailable
ATA Security is:  Disabled, NOT FROZEN [SEC1]
Wt Cache Reorder: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(   33) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 (   2) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x0039)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 0
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  9 Power_On_Hours          -O--C-   100   100   000    -    19157
 12 Power_Cycle_Count       -O--C-   100   100   000    -    14
167 Unknown_Attribute       -O---K   100   100   000    -    0
168 Unknown_Attribute       -O--C-   100   100   000    -    0
169 Unknown_Attribute       PO--C-   097   097   010    -    3932190
173 Unknown_Attribute       -O--C-   200   200   000    -    631424680624
175 Program_Fail_Count_Chip PO--C-   100   100   010    -    0
180 Unused_Rsvd_Blk_Cnt_Tot PO--CK   100   100   020    -    2490
192 Power-Off_Retract_Count -O--C-   100   100   000    -    9
194 Temperature_Celsius     -O---K   046   046   030    -    54 (Min/Max 20/65)
231 Temperature_Celsius     PO--CK   066   066   005    -    34
233 Media_Wearout_Indicator -O--CK   100   100   000    -    99112924928
234 Unknown_Attribute       -O--CK   100   100   000    -    143592546240
241 Total_LBAs_Written      -O--CK   100   100   000    -    31827019211
242 Total_LBAs_Read         -O--CK   100   100   000    -    7573113070
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x01           SL  R/O      1  Summary SMART error log
0x02           SL  R/O     51  Comprehensive SMART error log
0x03       GPL     R/O     64  Ext. Comprehensive SMART error log
0x04       GPL,SL  R/O      8  Device Statistics log
0x06           SL  R/O      1  SMART self-test log
0x07       GPL     R/O      1  Extended self-test log
0x09           SL  R/W      1  Selective self-test log
0x10       GPL     R/O      1  NCQ Command Error log
0x11       GPL     R/O      1  SATA Phy Event Counters log
0x30       GPL,SL  R/O      9  IDENTIFY DEVICE data log
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log
0xe0       GPL,SL  R/W      1  SCT Command/Status
0xe1       GPL,SL  R/W      1  SCT Data Transfer

SMART Extended Comprehensive Error Log Version: 1 (64 sectors)
No Errors Logged

SMART Extended Self-test Log Version: 1 (1 sectors)
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Status Version:                  3
SCT Version (vendor specific):       1 (0x0001)
Device State:                        Active (0)
Current Temperature:                    54 Celsius
Power Cycle Min/Max Temperature:      ?/56 Celsius
Lifetime    Min/Max Temperature:      ?/ ? Celsius
Under/Over Temperature Limit Count:   0/0

SCT Temperature History Version:     2
Temperature Sampling Period:         1 minute
Temperature Logging Interval:        1 minute
Min/Max recommended Temperature:     -127/127 Celsius
Min/Max Temperature Limit:           -127/127 Celsius
Temperature History Size (Index):    478 (414)

Index    Estimated Time   Temperature Celsius
 415    2024-03-19 07:38    54  ***********************************
 ...    ..( 43 skipped).    ..  ***********************************
 459    2024-03-19 08:22    54  ***********************************
 460    2024-03-19 08:23    55  ************************************
 461    2024-03-19 08:24    54  ***********************************
 ...    ..( 19 skipped).    ..  ***********************************
   3    2024-03-19 08:44    54  ***********************************
   4    2024-03-19 08:45    55  ************************************
   5    2024-03-19 08:46    54  ***********************************
 ...    ..( 53 skipped).    ..  ***********************************
  59    2024-03-19 09:40    54  ***********************************
  60    2024-03-19 09:41    55  ************************************
  61    2024-03-19 09:42    54  ***********************************
 ...    ..( 23 skipped).    ..  ***********************************
  85    2024-03-19 10:06    54  ***********************************
  86    2024-03-19 10:07    55  ************************************
  87    2024-03-19 10:08    54  ***********************************
 ...    ..( 53 skipped).    ..  ***********************************
 141    2024-03-19 11:02    54  ***********************************
 142    2024-03-19 11:03    55  ************************************
 143    2024-03-19 11:04    54  ***********************************
 144    2024-03-19 11:05    54  ***********************************
 145    2024-03-19 11:06    54  ***********************************
 146    2024-03-19 11:07    55  ************************************
 147    2024-03-19 11:08    55  ************************************
 148    2024-03-19 11:09    54  ***********************************
 ...    ..(  2 skipped).    ..  ***********************************
 151    2024-03-19 11:12    54  ***********************************
 152    2024-03-19 11:13    55  ************************************
 153    2024-03-19 11:14    54  ***********************************
 ...    ..(  7 skipped).    ..  ***********************************
 161    2024-03-19 11:22    54  ***********************************
 162    2024-03-19 11:23    55  ************************************
 163    2024-03-19 11:24    55  ************************************
 164    2024-03-19 11:25    54  ***********************************
 ...    ..(  6 skipped).    ..  ***********************************
 171    2024-03-19 11:32    54  ***********************************
 172    2024-03-19 11:33    55  ************************************
 173    2024-03-19 11:34    54  ***********************************
 ...    ..( 11 skipped).    ..  ***********************************
 185    2024-03-19 11:46    54  ***********************************
 186    2024-03-19 11:47    55  ************************************
 187    2024-03-19 11:48    54  ***********************************
 188    2024-03-19 11:49    54  ***********************************
 189    2024-03-19 11:50    55  ************************************
 ...    ..(  9 skipped).    ..  ************************************
 199    2024-03-19 12:00    55  ************************************
 200    2024-03-19 12:01    54  ***********************************
 201    2024-03-19 12:02    55  ************************************
 ...    ..(  2 skipped).    ..  ************************************
 204    2024-03-19 12:05    55  ************************************
 205    2024-03-19 12:06    54  ***********************************
 206    2024-03-19 12:07    55  ************************************
 ...    ..( 15 skipped).    ..  ************************************
 222    2024-03-19 12:23    55  ************************************
 223    2024-03-19 12:24    54  ***********************************
 224    2024-03-19 12:25    55  ************************************
 225    2024-03-19 12:26    54  ***********************************
 226    2024-03-19 12:27    55  ************************************
 ...    ..(  4 skipped).    ..  ************************************
 231    2024-03-19 12:32    55  ************************************
 232    2024-03-19 12:33    54  ***********************************
 233    2024-03-19 12:34    55  ************************************
 ...    ..(  9 skipped).    ..  ************************************
 243    2024-03-19 12:44    55  ************************************
 244    2024-03-19 12:45    54  ***********************************
 245    2024-03-19 12:46    55  ************************************
 ...    ..( 38 skipped).    ..  ************************************
 284    2024-03-19 13:25    55  ************************************
 285    2024-03-19 13:26    54  ***********************************
 286    2024-03-19 13:27    55  ************************************
 ...    ..( 12 skipped).    ..  ************************************
 299    2024-03-19 13:40    55  ************************************
 300    2024-03-19 13:41    54  ***********************************
 301    2024-03-19 13:42    55  ************************************
 ...    ..( 61 skipped).    ..  ************************************
 363    2024-03-19 14:44    55  ************************************
 364    2024-03-19 14:45    54  ***********************************
 365    2024-03-19 14:46    55  ************************************
 ...    ..( 17 skipped).    ..  ************************************
 383    2024-03-19 15:04    55  ************************************
 384    2024-03-19 15:05    54  ***********************************
 385    2024-03-19 15:06    55  ************************************
 ...    ..(  2 skipped).    ..  ************************************
 388    2024-03-19 15:09    55  ************************************
 389    2024-03-19 15:10    54  ***********************************
 390    2024-03-19 15:11    55  ************************************
 ...    ..( 21 skipped).    ..  ************************************
 412    2024-03-19 15:33    55  ************************************
 413    2024-03-19 15:34    54  ***********************************
 414    2024-03-19 15:35    54  ***********************************

SCT Error Recovery Control:
           Read:     80 (8.0 seconds)
          Write:     80 (8.0 seconds)

Device Statistics (GP Log 0x04)
Page  Offset Size        Value Flags Description
0x01  =====  =               =  ===  == General Statistics (rev 1) ==
0x01  0x008  4              14  ---  Lifetime Power-On Resets
0x01  0x010  4           19157  ---  Power-on Hours
0x01  0x018  6     31827019211  ---  Logical Sectors Written
0x01  0x020  6       721579271  ---  Number of Write Commands
0x01  0x028  6      7573113070  ---  Logical Sectors Read
0x01  0x030  6        55249209  ---  Number of Read Commands
0x01  0x038  6  17652561885824  ---  Date and Time TimeStamp
0x07  =====  =               =  ===  == Solid State Device Statistics (rev 1) ==
0x07  0x008  1              98  N--  Percentage Used Endurance Indicator
                                |||_ C monitored condition met
                                ||__ D supports DSN
                                |___ N normalized value

Pending Defects log (GP Log 0x0c) not supported

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  2            0  Command failed due to ICRC error
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2            0  R_ERR response for host-to-device data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            0  R_ERR response for host-to-device non-data FIS
0x0008  2            0  Device-to-host non-data FIS retries
0x0009  4            0  Transition from drive PhyRdy to drive PhyNRdy
0x000a  4            3  Device-to-host register FISes sent due to a COMRESET
0x000f  2            0  R_ERR response for host-to-device data FIS, CRC
0x0010  2            0  R_ERR response for host-to-device data FIS, non-CRC
0x0012  2            0  R_ERR response for host-to-device non-data FIS, CRC
0x0013  2            0  R_ERR response for host-to-device non-data FIS, non-CRC
DerMaddin
DerMaddin 19.03.2024 aktualisiert um 15:48:09 Uhr
Goto Top
Bei mir mit einer XGS116 ist das noch "kritischer"...

screenshot 2024-03-19 154341

Die SSD ist also bei 187% der Lebensdauer aber nur 2% der reservierten Blöcke wurden bisher verwendet.
Da fällt mir gerade auf 187 ist der US-Polizeicode für Mord face-wink
MysticFoxDE
MysticFoxDE 20.03.2024 um 07:45:22 Uhr
Goto Top
Moin @DerMaddin,

Bei mir mit einer XGS116 ist das noch "kritischer"...

screenshot 2024-03-19 154341

Die SSD ist also bei 187% der Lebensdauer aber nur 2% der reservierten Blöcke wurden bisher verwendet.

🤔 ... das sehr interessant.

Hast du auf deiner XGS116, denn das folgende ...
https://support.sophos.com/support/s/article/KB-000045830?language=en_US
... Firmwareupdate für die SSD schon eingespielt und wenn ja, wann?

Gruss Alex
DerMaddin
DerMaddin 20.03.2024 um 08:08:10 Uhr
Goto Top
@MysticFoxDE

Ja, das Update habe ich installiert am 26. Januar. Ausgehend von meinem Post im Dezember hat sich der Endurance Wert in knapp 100 Tagen um 9 Punkte/Prozent verschlechtert.
MysticFoxDE
MysticFoxDE 20.03.2024 um 08:40:25 Uhr
Goto Top
Moin @Einmannshow,

Logo! Here we go..

da stimmt etwas gewaltig nicht. 😔

Denn gemäss der folgenden Angabe ...

0x01  0x018  6     31827019211  ---  Logical Sectors Written

... hat deine SSD bisher 31827019211/2/1024/1024/1024=~15,913 TB's geschrieben.

Und laut der folgenden Doku ...
https://www.adata.com/upload/downloadfile/ADATA%20Industrial_IM2S3168_KI ...
... sollte die ~ 50 TBW aushalten.

Sprich, deine SSD sollte aktuell zu ~31,82% geschrubbt sein.

Aber ... wenn die SSD und oder die XGS, bisher TRIM und oder "Wear Leveling" nicht sauber umgesetzt haben, dann könnte die SSD sich durchaus schon im kritischen Zustand befinden, da deren Zellen zu ungleichmässig beschrieben wurden. 😔

Vielleicht findet man entsprechende Hinweise in der Firmware Readme, die habe ich bisher jedoch noch nicht gefunden.

Gruss Alex
MysticFoxDE
MysticFoxDE 20.03.2024 um 08:51:00 Uhr
Goto Top
Moin @DerMaddin,

Ja, das Update habe ich installiert am 26. Januar. Ausgehend von meinem Post im Dezember hat sich der Endurance Wert in knapp 100 Tagen um 9 Punkte/Prozent verschlechtert.

😬 ... denn das bestätigt eher die folgende Vermutung ...

Aber ... wenn die SSD und oder die XGS, bisher TRIM und oder "Wear Leveling" nicht sauber umgesetzt haben, dann könnte die SSD sich durchaus schon im kritischen Zustand befinden, da deren Zellen zu ungleichmässig beschrieben wurden. 😔

😭

Gruss Alex
Einmannshow
Einmannshow 20.03.2024 um 09:05:28 Uhr
Goto Top
Alles komisch. Aber egal wie, der Sophos Partner wurde informiert. Er sollte besser ein Gerät haben, wenn jetzt ein Ausfall kommt, basierend auf den übermittelten Daten.

Sag mal, verstehe ich das richtig, dass ich mir auch eine HyperV Sophos hochziehen und dort das XGS Backup einspielen kann?

Sophos HyperV VM: docs.sophos.com/nsg/sophos-firewall/19.5/Help/en-us/webhelp/onlinehelp/VirtualAndSoftwareAppliancesHelp/MicrosoftHyperV/HyperVInstall/index.html

Download Quelle: www.sophos.com/en-us/support/downloads/firewall-installers
MysticFoxDE
MysticFoxDE 20.03.2024 um 09:15:50 Uhr
Goto Top
Moin @Einmannshow,

Sag mal, verstehe ich das richtig, dass ich mir auch eine HyperV Sophos hochziehen und dort das XGS Backup einspielen kann?

theoretisch ja, praktisch klappt das aber nicht immer, vor allem wenn das Backup von einer grössere Hardwareappliance mit vielen NIC's kommt.

Gruss Alex
Einmannshow
Einmannshow 20.03.2024 um 10:34:44 Uhr
Goto Top
Praktisch nein!
sophosxgs126_vs_hyperv_sophos
MysticFoxDE
MysticFoxDE 20.03.2024 um 12:28:25 Uhr
Goto Top
Moin @Einmannshow,

Praktisch nein!

hast du den die VM mit genau so vielen vNIC's erstellt, wie auch die Hardwareappliance ursprünglich an NIC's hat?

Gruss Alex
Einmannshow
Einmannshow 20.03.2024 aktualisiert um 16:37:33 Uhr
Goto Top
Jaein face-smile Also, mit sechs ging es nicht. Acht gerade nochmal probiert (geht aber auch nicht). Bin jetzt ich verunsichert.

Wie viele vNICS, würdest Du denn hier annehmen? Und hätten die auch verbunden sein müssen? Ich hatte nur die erste vNIC angebunden (vSwitch) um auf den SOPHOS webconfigurator zu gelangen. Fragen über Fragen.
anschlüsse_signal-2024-03-20-134827_002.
MysticFoxDE
MysticFoxDE 22.03.2024 um 06:49:59 Uhr
Goto Top
Moin @Einmannshow,

Jaein face-smile Also, mit sechs ging es nicht. Acht gerade nochmal probiert (geht aber auch nicht). Bin jetzt ich verunsichert.

Wie viele vNICS, würdest Du denn hier annehmen?

Die XGS126 hat 14 NIC's.

Und hätten die auch verbunden sein müssen?

Ich glaube nein.

Ich hatte nur die erste vNIC angebunden (vSwitch) um auf den SOPHOS webconfigurator zu gelangen. Fragen über Fragen.

Ich meine ferner, dass sogar die Namen der NIC's 1:1 sein müssen, sonst flutscht das Backup auch nicht rein. 😔

Gruss Alex
michifs
michifs 25.03.2024 um 09:18:25 Uhr
Goto Top
Guten Morgen,

ich betreibe ein HA-Cluster aus zwei SG230. Der Endurance Indikator sieht beim Master nicht gut aus.

Andererseits ist das Attribut 241/Total-LBAs-Written super.

Beim Slave wird die SSD ebenfalls als 2,5" Modell erkannt.

Kann man sich auf die Werte verlassen?


2024-03-25 09_03_07-192.168.100.245 - 192.168.100.245
2024-03-25 08_56_02-192.168.100.245 - 192.168.100.245
2024-03-25 08_55_45-192.168.100.245 - 192.168.100.245

2024-03-25 09_02_03-192.168.100.245 - 192.168.100.245
2024-03-25 08_58_48-192.168.100.245 - 192.168.100.245
2024-03-25 08_58_23-192.168.100.245 - 192.168.100.245
Einmannshow
Einmannshow 26.03.2024 aktualisiert um 08:52:43 Uhr
Goto Top
Hi Alex,

bin gleich an den Test dran aber im Hyper-V 2019 können maximal nur bis zu acht synthetische vNICs in eine einzelne virtuelle Maschine einfügt werden. Oder meintest Du "Ältere Netzwerkkarte(n)"?
auswahl_019
MysticFoxDE
MysticFoxDE 26.03.2024 um 10:06:31 Uhr
Goto Top
Moin @Einmannshow,

bin gleich an den Test dran aber im Hyper-V 2019 können maximal nur bis zu acht synthetische vNICs in eine einzelne virtuelle Maschine einfügt werden. Oder meintest Du "Ältere Netzwerkkarte(n)"?

ähm ... ja ... genau daran bin ich beim letzten Versuch ein Backup einer XGS auf einer Hyper-V VM einzuspielen, leider auch gescheitert. 😬

Beim ESXi sind es glaube ich 10 vNIC's, die man einer VM zuweisen kann, daher ist das auch keine Lösung.

So wie es aussieht, supportet jedoch Proxmox bis zu 32 vNIC's.

🤔 ... vielleicht lässt sich je Proxmox nested auf einem Hyper-V installieren. 🤪

Gruss Alex
a.esposito
a.esposito 15.04.2024 um 13:04:02 Uhr
Goto Top
sehr geil, vielen Dank!
Frage: kann man den Wert evtl. per SNMP oder Powershell abfragen? Wäre genial für unser Pässler PRTG dann würde ich auf einem Blick das alles gleich sehen....
12168552861
12168552861 15.04.2024 aktualisiert um 13:23:05 Uhr
Goto Top
Zitat von @a.esposito:

sehr geil, vielen Dank!
Frage: kann man den Wert evtl. per SNMP oder Powershell abfragen? Wäre genial für unser Pässler PRTG dann würde ich auf einem Blick das alles gleich sehen....

Get-Physicaldisk | Get-StorageReliabilityCounter | fl *
oder auch
Get-CimInstance -Namespace root\wmi -class MSStorageDriver_FailurePredictData
https://winaero.com/check-drive-health-and-smart-status-in-windows-10/