netzer2021
Goto Top

Neue SSD defekt?

Hallo Community,

nach dem ich mit meinem Proxmox Projekt (Home lab) gut voran gekommen bin, taucht mal wieder ein Problem auf.

Ich nutze aktuell zwei ZFS Pools - je eine single Disc, kein Raid1 - auf zwei identischen SSD (Crucial 500MX, 1TB). Die Pools sind verschlüsselt. Auf beiden Platten befindet sich eine Partition mit ZFS und eine kleine mit ext4.

Eine der beiden hat aus einem anderem Servereinsatz bereits einige tausend Std Laufzeit usw. macht aber sonst keinerlei Probleme. Probleme? scheint aktuell die neuere der beiden Platten zu machen. Der ZFS Pool springt regelmäßig auf "Degraded". Die Health-SMART Werte sehen für mich soweit allerdings gut aus (Screenshots).

Hatte heute bereits alles auf eine Disc geschoben, Pool neu angelegt, aber gleiches Bild. Wie sollte ich am besten weiter verfahren? Platte direkt tauschen lassen? Habe etwas zu Fehlern gelesen, due auf ein "lockeres Kabel" deuten sollen. Noch nciht geprüft, aber ich ich denk mit an oder ab? 1 oder 0?

Eine andere Frage am Rande. Für Backupzwecke habe ich mir eine neue HDD gekauft. SMART Werte zeigen allerdings ab Werk scheinbar Raw_Read_Error_Rate - das ist doch nicht normal?

Danke für euer Feedback.
screenshot 2023-01-08 at 23.38.52
screenshot 2023-01-08 at 23.38.06

Content-Key: 5260154902

Url: https://administrator.de/contentid/5260154902

Printed on: April 26, 2024 at 20:04 o'clock

Member: chgorges
chgorges Jan 09, 2023 at 07:08:23 (UTC)
Goto Top
Moin,

dein CRC Error Count ist größer 0, tausch mal das SATA-Kabel aus. Wenn das nichts bringt -> anderen SATA-Anschluss nehmen. Wenn das nichts bringt -> Controller der SSD kaputt.

VG
Member: Dani
Dani Jan 09, 2023 at 07:46:53 (UTC)
Goto Top
Moin,
ich habe vor geraumer Zeit einen Beitrag in Proxmox gelesen, da geht es um ein ähnliches Problem mit Samsung SSDs. SATA-Kabel und Port tauschen hat nichts gebracht. Es wurde die Konfiguration des GRUB Bootloaders erweitert. Danach sind die CRC Fehler nicht mehr aufgetreten. Ich kann dir leider nicht mehr dazu sagen.


Gruß,
Dani
Member: ipzipzap
ipzipzap Jan 09, 2023 at 09:44:34 (UTC)
Goto Top
Hallo,

Zitat von @netzer2021:
Eine andere Frage am Rande. Für Backupzwecke habe ich mir eine neue HDD gekauft. SMART Werte zeigen allerdings ab Werk scheinbar Raw_Read_Error_Rate - das ist doch nicht normal?

Raw_Read_Error_Rate steht doch auf Null in Deinem Screenshot, also alles gut.
Member: Lochkartenstanzer
Lochkartenstanzer Jan 09, 2023 at 09:52:51 (UTC)
Goto Top
Zitat von @ipzipzap:

Hallo,

Zitat von @netzer2021:
Eine andere Frage am Rande. Für Backupzwecke habe ich mir eine neue HDD gekauft. SMART Werte zeigen allerdings ab Werk scheinbar Raw_Read_Error_Rate - das ist doch nicht normal?

Raw_Read_Error_Rate steht doch auf Null in Deinem Screenshot, also alles gut.

Moin,

Nee, das ist die SSD und nicht die externe Platte.

der RAW-Read-Error ist oft ungleich Null, weil es bei den heutigen Platten immer mal wieder (korrigierbare) Lesefehler gibt. Das liegt einfach daran, daß die "sehr dicht" schreiben.

Siehe dazu auch:

Understanding SMART Reports auf der Webseite von Unraid (gilt aber allgemein).

1 Raw_Read_Error_Rate

    This is an indicator of the current rate of errors of the low level physical sector read operations. In normal operation, there are ALWAYS a small number of errors when attempting to read sectors, but as long as the number remains small, there is NO issue with the drive. Error correction information and retry mechanisms are in place to catch and fix these errors. Manufacturers therefore determine an optimal level of errors for each drive model, and set up an appropriate scale for monitoring the current error rate. For example, if 3 errors per 1000 read operations seems near perfect to the manufacturer, then an error rate of 3 per 1000 ops might be set to an attribute VALUE of 100. If the rate increased to 10 per 1000, then the rate might be scaled to 80 (completely under manufacturer control, and NEVER revealed or explained to us!).
    They are called Raw Reads to distinguish them from the more common term 'read errors', which represent a much higher level read operation. What we usually refer to as a 'read error' is an error returned by a read process, that has attempted a series of one or more seeks and raw reads, plus optional error corrections and retries. It either returns an indicator of total success plus the sector data (considered to be in perfect shape), or it returns an error code, and no sector data.
    PLEASE completely ignore the RAW_VALUE number! Only Seagates report the raw value, which yes, does appear to be the number of raw read errors, but should be ignored, completely. All other drives have raw read errors too, but do not report them, leaving this value as zero only. To repeat, Seagates are not worse than other drives because they appear to have raw read errors, rather they are the only one to report the number. I suspect that others do not report the number to avoid a lot of confusion, and questions for their tech support people. Seagate leaves those of us who provide tech support the job of answering the constant questions about this number. Hopefully now that you understand this, you will never bother a kind IT person with questions about the Raw_Read_Error_Rate RAW_VALUE again?
    [incomplete?]
    Critical attribute - if its WORST falls below its THRESH, then the drive will be considered FAILED


Member: netzer2021
netzer2021 Jan 09, 2023 at 10:55:04 (UTC)
Goto Top
Hi zusammen, danke für euer Feedback.

Genau die Screenshots sind von der SSD nicht von der HDD. Mit den Fehlern habe ich inzwischen auch mehrfach gelesen, dass das voll „normal“ zu sein scheint. Najaaa….

Bei der SSD habe ich mal das Kabel getauscht. Allerdings bekomme ich nach einiger Zeit genau den gleichen Fehler wieder. ZFS scrub erzeugt auch direkt Fehler, die nicht korrigierbar sind. Neue Platte ist bestellt, hoffe es ist auch nur die Platte sonst muss ich wohl den ganzen MinisForum HM80 tauschen. Daten habe ich erst mal auf den anderen Pool verschoben. Hoffe nur, dass ich keine korrupten Daten habe und es irgendwann in einigen Monaten feststelle.
Member: netzer2021
netzer2021 Jan 09, 2023 updated at 13:37:31 (UTC)
Goto Top
BTW… Kann der Fehler nicht auch davon verursacht werden, dass ich den ZFS Pool in Kombination mit der ext4 Partition nicht richtig eingerichtet habe? Allerdings entstehen die CRC Fehler auf der Platte. Was ja sehr eindeutig ist, dass irgendetwas nicht stimmt.

Nutze ich eine ganze Platte für den ZFS Pool werden immer zwei Partition erstellt eine Haupt und eine kleine reserved bei ZFS. Ich habe die Platte selber konfiguriert heißt mit fdisk eine got table, dann eine
Ext4 Parition und den Rest für zfs. Die ext4 dann fertiggestellt mit mkfs.ext4. Es gibt jetzt aber klar, keine reserved bei ZDF es mehr.
Member: Dani
Dani Jan 09, 2023 at 17:59:11 (UTC)
Goto Top
Moin,
hab den Beitrag doch noch gefunden:
https://forum.proxmox.com/threads/problems-with-samsung-ssd-and-amd-sata ...


Gruß,
Dani
Member: netzer2021
netzer2021 Jan 11, 2023 updated at 11:23:39 (UTC)
Goto Top
Update: Neue SSD ist da, Kabel habe ich getauscht. Anderer Anschluss geht in dem Minisforum HM80 leider nicht. Habe die beiden SSD zu einem Raid1 unter ZFS zusammengefügt.

DIe CRC errors steigen langsam stehen nun bei 17. Das Raid zeigt heute morgen leider auch wieder einen Fehler an. Gibt es dazwishen überhaupt einen Zusammenhang?
Kann es sein, dass der Minisforum einfach eine Macke hat und Proxmox das nur sichtbar macht? Zumal ich weiß auch nicht wirklich was die Fehlermeldung nun heißt, einfach nur: Beim lesen ml ein Fehler der korrigiert wurde oder Daten kaputt??
Könnte nun mal alle Daten auf die boot platte schieben und mal die beiden SSDs tauschen. Zeigt die aktuelle dann PRobleme scheint es ja der Minisforum zu sein.

Ich schaue mal intensiver in den Beitrag, Danke @Dani.

Sonst weiß ich leider auch nicht mehr weiter.....

Update: Scheint wohl ein Software Probleme zwischen AMD und Proxmox bus. Debian zu sein. Wo bei ich das nicht ganz verstehe, ein Controller geht der andere nicht...hmmm...
wie kann ich denn die Datei: /sys/class/scsi_host/host1/link_power_management_policy selbst als root keine write permissiosn??

Andere Frage wir kann ich dennv ieleicht testen, ob es bereits Daten gibt, die kaputt sind? Wenn ich Backups mahe mit dem PBS wird doch geprüft ob alle Daten lesbar sind, reicht das nicht?
screenshot 2023-01-11 at 11.36.21
Member: Dani
Dani Jan 11, 2023 at 11:24:53 (UTC)
Goto Top
Moin,
Ich schaue mal intensiver in den Beitrag, Danke @Dani.
tu das... lesen, verstehen, Konfiguration anpassen testen. Das wird vermutlich auch bei dir das Problem lösen.


Gruß,
Dani
Member: netzer2021
netzer2021 Jan 11, 2023 at 21:25:48 (UTC)
Goto Top
mal sehen was das wird, ahbe mal den Minisforum Support geschrieben.

Ich habe noch nich ganz verstanden ob dass nun ein Problem zwischen AMD und Debian im allgemeien ist oder Proxmox und Debian oder AMD und PRoxmox. Es scheint ja mehr oder minder eine Softwarethematik zusein. Wobei ich immer noch denke, wenn Software: Warum dann icht auf beiden Controllern?
Member: netzer2021
Solution netzer2021 Jan 12, 2023 at 11:53:59 (UTC)
Goto Top
Habe es mal probiert, keine Veränderungen. Entweder falsch gemacht oder keine Ahnung. HM80 und Platten gehen wohl zurück, so lange das noch möglich ist.

Schade drum…die Power des Gerätes und Proxmox sind schon irgendwie cool. Aber najaaa, bau ich halt den alten Server wieder auf….
Member: Dani
Dani Jan 12, 2023 at 14:27:20 (UTC)
Goto Top
Moin,
Habe es mal probiert, keine Veränderungen. Entweder falsch gemacht oder keine Ahnung.
wenn du einmal beschreiben würdest, was du probiert/getestet hast, könnten wir dir evtl. sagen was du übersehen hast.

Ich habe noch nich ganz verstanden ob dass nun ein Problem zwischen AMD und Debian im allgemeien ist oder Proxmox und Debian oder AMD und PRoxmox.
Hat was mit dem Kernel zu tun. Erster Beitrag in meinem Link ist ein Bug Ticket.


Gruß,
Dani