cyborgweasel
Goto Top

Fehlerhafte Sektoren bei RAID Controller nicht reparabel

Hallo Leute,

ich habs mal unter Hardware reingestellt, da ich vermute, dass es was mit dem RAID Controller zu tun hat. Folgendes ist passiert:
Ein Server mit einem RAID 5 (3x 1TB SATA) hat einen HDD Totalausfall. Dieser wurde über ein paar Tage ignoriert, dummerweise fing daraufhin an, die zweite HDD fehlerhafte Sektoren zu melden (unkorrigierbar). Erste HDD getauscht, Rebuild ohne Probleme. 2. HDD getauscht, Rebuild ohne Probleme.
Soweit so gut. Nun haben sich jedoch die unkorrigierbaren Fehler in soweit manifestiert, dass ein paar Dateien nicht mehr lesbar sind. Eigentlich kein Problem, die Daten sind unwichtige Log-Files. Jedoch kann ich diese weder kopieren noch löschen. Ich erhalte immer "ungültige MS-DOS Funktion". Ein Chkdsk /r /f hat leider auch keine Besserung gebracht, Checkdisk meldet dass die Sektoren wegen Speicherplatz-Mangel nicht repariert werden können. Freier Speicherplatz ist jedoch genügend vorhanden. Ich vermute, dass es hier vielleicht um Reserve-Sektoren geht, die der RAID nicht hat (weil hat ja normal nur eine Platte, und jede wahrscheinlich unterschiedlich viel, oder?). Hat von euch jemand einen Rat für mich? Prinzipiell könnte man das einfach so lassen jedoch meldet Backup-Exec jedesmal einen Fehler beim Sichern, was doch etwas nervig ist. Betriebssystem ist Windows 2012 R2, der Raidcontroller ist glaube ich ein Fujitsu D2607 (müsste ich grad nochmal nachsehen, falls es wichtig ist), HDDs sind jeweils 1000GB Seagate SATA Platten, wurden durch Exos Serie getauscht

[edit]
Hier die Chkdsk Meldung:
Der Datenträger hat nicht genügend Platz, um fehlerhafte Cluster
zu ersetzen, die in der Datei XXXXX gefunden wurden
[/edit]

Danke im Voraus,
Gruß

Content-Key: 945862193

Url: https://administrator.de/contentid/945862193

Printed on: April 26, 2024 at 20:04 o'clock

Member: em-pie
em-pie Jul 08, 2021 at 18:38:10 (UTC)
Goto Top
Moin,

wenn du "irgendwo" rund 2TB an Kapazität verfügbar hast (also 3x1TB - 1x1TB), dann könntest du die Kiste mal von einem Knoppix booten, die Daten per DD (oder was auch immer) auf eine andere Disk oder eine Image-Datei "sichern", dort versuchen, die Datei zu löschen/ korrigieren und alles wieder zurück imagen.
Bzw. alles mit der Kopie des Images machen (dann wären bis zu 4TB erforderlich), sodass du immer ein Ausgangsimage als Basis hast, mit dem du nichts machst, außer es im Notfall als Restore zu nutzen und als Kopiervorlage zu nutzen...

Gruß
em-pie
Member: Pjordorf
Pjordorf Jul 08, 2021 at 19:51:08 (UTC)
Goto Top
Hallo,

Zitat von @CyborgWeasel:
da ich vermute, dass es was mit dem RAID Controller zu tun hat
Was genau lässt dich vermuten das es was mit dein RAID Controller zu zun haben könnte? Ist so wenn du, wenn dein Papa hustet, sagst "Es könnte mit dein Atmungssystem zu tun haben".

Ein Server mit einem RAID 5 (3x 1TB SATA) hat einen HDD Totalausfall. Dieser wurde über ein paar Tage ignoriert,
Ein HDD Totalausfall kann nur ignoriert werden wenn das Blech aus ist oder Tiefschlaf macht.

dummerweise fing daraufhin an, die zweite HDD fehlerhafte Sektoren zu melden (unkorrigierbar). Erste HDD getauscht, Rebuild ohne Probleme. 2. HDD getauscht, Rebuild ohne Probleme.
Ist bei einen RAID meist so, wenn eine HDD (SATA) anfängt, folgen die anderen sehr schnell, da alle Platten neistens zur gleichen Zeit eingebastelst werden (wurden). Und das ist bei SAS Platten meist nicht anders (welche für ein Server vorzuziehen sind).

Eigentlich kein Problem, die Daten sind unwichtige Log-Files.
Unwichtige Dateien werden in ein RAID vorgehalten?

Jedoch kann ich diese weder kopieren noch löschen. Ich erhalte immer "ungültige MS-DOS Funktion".
Womit (zum Teufel) versuchst du denn zu Kopieren / Löschen?

Ein Chkdsk /r /f hat leider auch keine Besserung gebracht, Checkdisk meldet dass die Sektoren wegen Speicherplatz-Mangel nicht repariert werden können. Freier Speicherplatz ist jedoch genügend vorhanden.
Dein Chkdsk lügt dich an ohne rot zu werden, oder hat es recht?

Ich vermute,
Wenn ich mein Auto zum TÜV bringe, vermute ich auch immer das nichts bemängelt wird, aber der TÜV Bericht spricht immer anders. Ich vermute das die TÜV Prüfer keine Ahnung haben face-smile

dass es hier vielleicht um Reserve-Sektoren geht, die der RAID nicht hat
Der RAID Controller braucht die auch nicht. Deine HDDs sollten diese aber schon haben (Jede HDD).

(weil hat ja normal nur eine Platte,
?!?

Hat von euch jemand einen Rat für mich?
Ein Fahrrad fährt besser wenn die Reifen aufgeblasen sind.face-smile

> Prinzipiell könnte man das einfach so lassen jedoch meldet Backup-Exec jedesmal einen Fehler beim Sichern,
Der Fehler Tritt aber bein Lesen der XXXXX Datei schon auf.

Betriebssystem ist Windows 2012 R2, der Raidcontroller ist glaube ich ein Fujitsu D2607 (müsste ich grad nochmal nachsehen, falls es wichtig ist),
In der IT gilt ein glaube nicht viel, in einer Kirche allerdings sehr viel.

zu ersetzen, die in der Datei XXXXX gefunden wurden
Welche Dateigröße soll denn deine XXXXX Datei haben?

Gruß,
Peter
Member: Lochkartenstanzer
Lochkartenstanzer Jul 08, 2021 at 19:53:18 (UTC)
Goto Top
Moin,

RAID ist die Schnellste Methode Fehler zu verbreiten, wie Du gemerkt hast.

Du (oder der Betroffene) hätte sofort reagieren müssen. Nachdem auf der zweiten Platte Fehler aufgetaucht sind, war es zu spät. Mich wundert es, daß es das RAID nicht zerissen hat. Daß der Rebuild angeblich ordnungsgemäß durchgelaufen ist, mag ich nicht glauben. Der hat nur die Fehler festgeklopft.

In so einem Fall sollte einfach das Backup eingespielt werden und damit weitergarbeitet. Aber vorher nochmal ein Image ziehen, damit man ggf aktuellere Dateien als auf dem Backup herunterkratzen kann. falls es notwendig sein sollte.

Durch die permanenten Lesefehler ist vermutlich das Filesystem so beschädigt worden, daß die üblichen Reparaturmechanismen nicht mehr greifen. Passiert öfter als einem lieb ist. Da hilft nur noch tabula Rasa aus dem Backup heraus.

lks
Member: CyborgWeasel
CyborgWeasel Jul 09, 2021 at 10:36:09 (UTC)
Goto Top
Zitat von @em-pie:

Moin,

wenn du "irgendwo" rund 2TB an Kapazität verfügbar hast (also 3x1TB - 1x1TB), dann könntest du die Kiste mal von einem Knoppix booten, die Daten per DD (oder was auch immer) auf eine andere Disk oder eine Image-Datei "sichern", dort versuchen, die Datei zu löschen/ korrigieren und alles wieder zurück imagen.
Bzw. alles mit der Kopie des Images machen (dann wären bis zu 4TB erforderlich), sodass du immer ein Ausgangsimage als Basis hast, mit dem du nichts machst, außer es im Notfall als Restore zu nutzen und als Kopiervorlage zu nutzen...

Ouha, gute Idee, klingt nach viel Aufwand face-sad Ich werde es in Erwägung ziehen, wenn nichts anderes hilft...
Member: Lochkartenstanzer
Lochkartenstanzer Jul 09, 2021 updated at 10:42:00 (UTC)
Goto Top
Zitat von @em-pie:

Moin,

wenn du "irgendwo" rund 2TB an Kapazität verfügbar hast (also 3x1TB - 1x1TB),

Also heutzutage hat man immer 4-8GB verfügbar. Notfalls holt man aus dem nächsten Baumark zwei USB-Platten. Die 200€ bis 400€ sind für so einen Fall, wo es um die Firma gehen kann, "Peanuts".

lks

PS: Gerade mal beim Blödmarkt geschaut: 8TB für 200€. da muß man nicht lange überlegen, wenn es um wichtige Daten geht.
Member: CyborgWeasel
CyborgWeasel Jul 09, 2021 at 10:58:32 (UTC)
Goto Top
Zitat von @Pjordorf:

Was genau lässt dich vermuten das es was mit dein RAID Controller zu zun haben könnte? Ist so wenn du, wenn dein Papa hustet, sagst "Es könnte mit dein Atmungssystem zu tun haben".

Ja und dann bin ich in einem Medizinforum unter Atmungssystem doch gut aufgehoben, wenn ich die Frage danach stelle, oder? Ich vermute dies, weil ich dieses Verhalten bei solo-HDDs noch nicht hatte. Dort hat checkdisk immer alles reparieren können.

Ein HDD Totalausfall kann nur ignoriert werden wenn das Blech aus ist oder Tiefschlaf macht.

Nö, ignorieren kann man das schon. Der Server lief mit den beiden anderen Platten einwandfrei, bis zu dem Tag des nächsten Problems... Ich vermute es geht hier um Wortklauberei, daher nochmal konkret: Eine HDD des Raids ist ausgefallen.

Ist bei einen RAID meist so, wenn eine HDD (SATA) anfängt, folgen die anderen sehr schnell, da alle Platten neistens zur gleichen Zeit eingebastelst werden (wurden). Und das ist bei SAS Platten meist nicht anders (welche für ein Server vorzuziehen sind).

ok

Unwichtige Dateien werden in ein RAID vorgehalten?

Es ist ein Windows OS drauf installiert und hier gibt es auch die ein oder andere unwichtige Datei. Eine Paint.exe wäre für mich jetzt zb. auch verschmerzbar, wenn sie gelöscht oder defekt wäre. Somit unwichtig.

Womit (zum Teufel) versuchst du denn zu Kopieren / Löschen?

Naja, ich habe keine 1,44" DIskette mit DOS genutzt... Mit dem installierten OS, rechte Maustaste - löschen. Daraufhin kommt diese Meldung, MS hat wohl den Bezug zu dem UR-OS nicht verloren (zumindest nicht in den Texten der Fehlermeldung)

Dein Chkdsk lügt dich an ohne rot zu werden, oder hat es recht?

Sowohl die Partition C, auf der die fehlerhaften Dateien liegen, als auch D haben jede Menge freien Speicherplatz

Ich vermute,
Wenn ich mein Auto zum TÜV bringe, vermute ich auch immer das nichts bemängelt wird, aber der TÜV Bericht spricht immer anders. Ich vermute das die TÜV Prüfer keine Ahnung haben face-smile

Naja, ich hoffe dass Ihr hier mehr Ahnung habt und mir bei meinem Problem helfen könnt. Da ich selbst nicht weiter weiß muss ich eben vermuten und mich korrigieren (lassen).

Der RAID Controller braucht die auch nicht. Deine HDDs sollten diese aber schon haben (Jede HDD).

Jap, das meinte ich mit:

(weil hat ja normal nur eine Platte,
?!?

Reservesektoren hat normal nur eine Platte, aber kein RAID-Verbund (so dachte ich es mir und du hast meine *Vermutung* bestätigt, danke. So wird aus Vermutung Wissen)

Hat von euch jemand einen Rat für mich?
Ein Fahrrad fährt besser wenn die Reifen aufgeblasen sind.face-smile

Ja stimmt. Auch hier war ich wohl zu ungenau: Hat jemand einen Rat für mich, wie ich dieses Problem lösen kann?

> Prinzipiell könnte man das einfach so lassen jedoch meldet Backup-Exec jedesmal einen Fehler beim Sichern,
Der Fehler Tritt aber bein Lesen der XXXXX Datei schon auf.

Ja natürlich, auch hier nochmal korrigiert: Backup-Exec meldet jedes mal bei einem Sicherungsvorgang einen Lesefehler. Entschuldigung für die Ungenauigkeit...


Betriebssystem ist Windows 2012 R2, der Raidcontroller ist glaube ich ein Fujitsu D2607 (müsste ich grad nochmal nachsehen, falls es wichtig ist),
In der IT gilt ein glaube nicht viel, in einer Kirche allerdings sehr viel.

Ich habe dann was falsches geglaubt: Es ist ein D2616.

zu ersetzen, die in der Datei XXXXX gefunden wurden
Welche Dateigröße soll denn deine XXXXX Datei haben?

Die haben alle so um die 400kb


Gruß,
Peter

Kritik von mir, ich hoffe du kannst damit umgehen: Dein Post kommt ähnlich wie bei manchen Halbgöttern in weiß (um bei dem Medizinvergleich zu bleiben) ziemlich hochnäsig rüber.
Member: CyborgWeasel
CyborgWeasel Jul 09, 2021 updated at 11:09:27 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:

Moin,

RAID ist die Schnellste Methode Fehler zu verbreiten, wie Du gemerkt hast.

sieht so aus face-sad


Du (oder der Betroffene) hätte sofort reagieren müssen.

Ich weiß, sagen alle, aber ich wars nicht face-big-smile

Nachdem auf der zweiten Platte Fehler aufgetaucht sind, war es zu spät. Mich wundert es, daß es das RAID nicht zerissen hat. Daß der Rebuild angeblich ordnungsgemäß durchgelaufen ist, mag ich nicht glauben. Der hat nur die Fehler festgeklopft.

Naja, sagen wir mal so, es gab während des Rebuilds keine Fehlermeldung.

In so einem Fall sollte einfach das Backup eingespielt werden und damit weitergarbeitet. Aber vorher nochmal ein Image ziehen, damit man ggf aktuellere Dateien als auf dem Backup herunterkratzen kann. falls es notwendig sein sollte.

Uhha, ich möchte nicht face-smile

Durch die permanenten Lesefehler ist vermutlich das Filesystem so beschädigt worden, daß die üblichen Reparaturmechanismen nicht mehr greifen. Passiert öfter als einem lieb ist. Da hilft nur noch tabula Rasa aus dem Backup heraus.


Und das möchte ich auch nicht hören face-smile Da gefällt mir die Variante von EM-PIE besser...

Ist es nicht möglich, defekte Cluster wieder als i.o. zu markieren?
Member: CyborgWeasel
CyborgWeasel Jul 09, 2021 at 11:08:00 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:

Also heutzutage hat man immer 4-8GB verfügbar. Notfalls holt man aus dem nächsten Baumark zwei USB-Platten. Die 200€ bis 400€ sind für so einen Fall, wo es um die Firma gehen kann, "Peanuts".

Ja darum geht es ja auch nicht. Es geht mir darum, dass ich eben nicht mit Kanonen auf Spatzen schießen wollte. Raid klonen, reparaieren, zurückklonen und dann kommt nachher einer und sagt: Hey mit chkdsk /ReparierEsTrotzdem hättest du es in 3,8s reparieren können face-smile
Nur es sieht wohl so aus, als wären die Spatzen vielleicht doch eher fliegende Kühe, so dass ich Kanonen brauche...

Gruß
Member: Lochkartenstanzer
Lochkartenstanzer Jul 09, 2021 updated at 11:19:03 (UTC)
Goto Top
Zitat von @CyborgWeasel:

Zitat von @Pjordorf:

Was genau lässt dich vermuten das es was mit dein RAID Controller zu zun haben könnte? Ist so wenn du, wenn dein Papa hustet, sagst "Es könnte mit dein Atmungssystem zu tun haben".

Ja und dann bin ich in einem Medizinforum unter Atmungssystem doch gut aufgehoben, wenn ich die Frage danach stelle, oder? Ich vermute dies, weil ich dieses Verhalten bei solo-HDDs noch nicht hatte. Dort hat checkdisk immer alles reparieren können.

Das ist ein Irrtum. Chkdsk repariert nicht Deine Daten, sondern sorgt nur dafür, daß Dein Filesystem konsistent ist. Ein chkdsk im falschen Moment kann auch Deine Daten ins Nirvana schicken. Dafür ist aber dein Filesystem anschließend wieder konsistent. face-smile


Ein HDD Totalausfall kann nur ignoriert werden wenn das Blech aus ist oder Tiefschlaf macht.

Nö, ignorieren kann man das schon. Der Server lief mit den beiden anderen Platten einwandfrei, bis zu dem Tag des nächsten Problems... Ich vermute es geht hier um Wortklauberei, daher nochmal konkret: Eine HDD des Raids ist ausgefallen.

Nein, zwei sind ausgefallen und das ist bei einem RAID5 fatal.

Womit (zum Teufel) versuchst du denn zu Kopieren / Löschen?

Naja, ich habe keine 1,44" DIskette mit DOS genutzt... Mit dem installierten OS, rechte Maustaste - löschen. Daraufhin kommt diese Meldung, MS hat wohl den Bezug zu dem UR-OS nicht verloren (zumindest nicht in den Texten der Fehlermeldung)

Dein Chkdsk lügt dich an ohne rot zu werden, oder hat es recht?

Sowohl die Partition C, auf der die fehlerhaften Dateien liegen, als auch D haben jede Menge freien Speicherplatz


Manchmal fehlt aber auch RAM. face-smile


(weil hat ja normal nur eine Platte,
?!?

Reservesektoren hat normal nur eine Platte, aber kein RAID-Verbund (so dachte ich es mir und du hast meine *Vermutung* bestätigt, danke. So wird aus Vermutung Wissen)

Reserversektoren nutzen nur dann was, wenn das laufwerk merkt, daß ein Sektor kaputt ist und deswegen Daten auf den Reservesektor schreibt. Wenn aber Daten von Sektoren nciht mehr gelesen werden können, nützt Dir ein Reserversektor soviel wie die Coronaimpfung, nachdem Du an Corona gestorben bist.

Also nochmal:

  • Backup mit dem richtigen Tools machen
  • Aus einem Backup vor dem Fehler das System wiederherstellen (oder neu Aufsetzen)
  • Dateien an denen gearbeitet worden sind (datenbanken, Dokumente, etc.) aus dem Backup des kaputten Systems einspielen.

Alles andere sind zeitbomben, die genau dann hochgehen werden, wenn Du es gar nicht gebrauchen kannst.

lks
Member: Lochkartenstanzer
Solution Lochkartenstanzer Jul 09, 2021 updated at 11:14:57 (UTC)
Goto Top
Zitat von @CyborgWeasel:

Ist es nicht möglich, defekte Cluster wieder als i.o. zu markieren?

Mach mal einfach chkdsk /? und lies Dir die Ausgabe durch.

lks


PS:


chkdsk /R /B, wenn man es richtig macht.

chdksk /markclean wenn man zu faul ist, richtig zu lesen. face-smile
Member: CyborgWeasel
CyborgWeasel Jul 10, 2021 at 19:20:24 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:

Mach mal einfach chkdsk /? und lies Dir die Ausgabe durch.
Ouja, auf die Idee kam ich gar nicht face-smile

chkdsk /R /B, wenn man es richtig macht.
I'll give him a shot...
Dann könnt ihr nachher ja sagen, "ich habs dir gesagt!" face-smile

chdksk /markclean wenn man zu faul ist, richtig zu lesen. face-smile
ja, dort steht nämlich nur für FAT, FAT32 und extFAT. Somit für NTFS wohl eher nicht brauchbar...

Grüzi
Member: CyborgWeasel
CyborgWeasel Jul 21, 2021 at 13:35:41 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:

chkdsk /R /B, wenn man es richtig macht.

Das hats gebracht. Problem ist augenscheinlich gelöst, die Dateien konnten gelöscht werden. Vielen Dank für Eure Hilfe!

Gruß
Member: Lochkartenstanzer
Lochkartenstanzer Jul 21, 2021 at 15:16:13 (UTC)
Goto Top
Zitat von @CyborgWeasel:

Zitat von @Lochkartenstanzer:

chkdsk /R /B, wenn man es richtig macht.

Das hats gebracht. Problem ist augenscheinlich gelöst, die Dateien konnten gelöscht werden. Vielen Dank für Eure Hilfe!



Gern geschehen.

lks