Erkennen von Fehlern in Langzeitarchiven
Hallo,
diese Frage betrifft sowohl mich privat (Fotos) als eigentlich auch Kunden.
Bleiben wir bei meinen privaten Fotos.
Die legen ich nach Datum sortiert ab.
Datenmenge ca. 120.000 Datein in 2 TB.
Also z.B. \2020\200624 Störche beim Obsthof
Darin sind dann cr2 (canon raw) oder jpeg-Dateien.
Diese habe ich auf meinen PC und sichere diese täglich mit der normalen Sicherung auf ein NAS und 2x jährlich auf externe Festplatten.
Jetzt kann durchaus vorkommen, dass ich aufgrund eines Benutzersfehlers oder Adobe aufgrund eines Programmfehlers eine Datei löscht oder beschädigt.
Die Sicherung überträgt diese neue Datei und die alte Version wird nach und nach ausgeschlichen.
Es kann ja durchaus 10 Jahre dauern bis ich genau dieses Bild (1. Geburtstag Kinder etc) mal anschauen und dabei feststellen, dass alle Bilder in diesem Ordner nicht mehr lesbar sind.
Dann habe ich eventuell kein Backup mehr was vor dem "Vorfall" liegt.
Kennt Jemand ein Programm für Windows welches solche Ordner täglich überprüft und Änderungen meldet?
Dann kann ich die Datei aus dem Backup wiederherstellen.
Danke
Stefan
diese Frage betrifft sowohl mich privat (Fotos) als eigentlich auch Kunden.
Bleiben wir bei meinen privaten Fotos.
Die legen ich nach Datum sortiert ab.
Datenmenge ca. 120.000 Datein in 2 TB.
Also z.B. \2020\200624 Störche beim Obsthof
Darin sind dann cr2 (canon raw) oder jpeg-Dateien.
Diese habe ich auf meinen PC und sichere diese täglich mit der normalen Sicherung auf ein NAS und 2x jährlich auf externe Festplatten.
Jetzt kann durchaus vorkommen, dass ich aufgrund eines Benutzersfehlers oder Adobe aufgrund eines Programmfehlers eine Datei löscht oder beschädigt.
Die Sicherung überträgt diese neue Datei und die alte Version wird nach und nach ausgeschlichen.
Es kann ja durchaus 10 Jahre dauern bis ich genau dieses Bild (1. Geburtstag Kinder etc) mal anschauen und dabei feststellen, dass alle Bilder in diesem Ordner nicht mehr lesbar sind.
Dann habe ich eventuell kein Backup mehr was vor dem "Vorfall" liegt.
Kennt Jemand ein Programm für Windows welches solche Ordner täglich überprüft und Änderungen meldet?
Dann kann ich die Datei aus dem Backup wiederherstellen.
Danke
Stefan
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 611867
Url: https://administrator.de/contentid/611867
Ausgedruckt am: 22.11.2024 um 11:11 Uhr
17 Kommentare
Neuester Kommentar
Das ist kein Archiv in dem Sinne, kann ich dir sagen, weil ich einmal mit dem Gedanken gespielt habe.
@em-pie: Korrekt, ein WORM Medium wäre ein Beispiel. Aber auch hier gilt es auf die Redundanz zu achten. Umsonst wirst du aber nicht zum Ziel kommen. Nicht alles ist digital besser geworden, wenn ich die Uralten Bilder von damals (tm) anschaue.
@em-pie: Korrekt, ein WORM Medium wäre ein Beispiel. Aber auch hier gilt es auf die Redundanz zu achten. Umsonst wirst du aber nicht zum Ziel kommen. Nicht alles ist digital besser geworden, wenn ich die Uralten Bilder von damals (tm) anschaue.
Den Abgleich kann ja ein PS-Script durchführen. Du musst halt „nur“ beim ersten archivieren den Hashwert irgendwo speichern.
Am besten eine Datei/ Datenbank auf einem separierten Medium, welche pro Datenpfad den Hashwert speichert.
Das Script prüft dann zyklisch, ob die Datei noch den Hashwert entspricht...
Von der Umsetzung her trivial. Von der Performance: das könnte u.U. ein wenig dauern
Am besten eine Datei/ Datenbank auf einem separierten Medium, welche pro Datenpfad den Hashwert speichert.
Das Script prüft dann zyklisch, ob die Datei noch den Hashwert entspricht...
Von der Umsetzung her trivial. Von der Performance: das könnte u.U. ein wenig dauern
Ach das meinst du, ich denke dass die WORM Medien grundsätzlich eine längere Haltbarkeit haben, wie oben erwähnt, Redundanz ist nie schlecht. Prüfung dürfte aber im Prinzip trivial sein, nach dem schreiben kannst du dir Hashwerte ablegen lassen auf die du A und B prüfst.
Das ist aber eine einfache Operation.
Das ist aber eine einfache Operation.
Hallo in die Runde,
ich lese seit Jahren immer wieder mal mit und freue mich über die guten Ideen und Lösungen, die ich hier finde.
Heute kann ich einmal etwas zurückgeben:
Für diese Zwecke nutze ich eine Kombination aus Multipar und RHash (bin fast überwiegend auf Windows unterwegs).
Multipar ist ein Windows-GUI-Tool, das über ganze Verzeichnisstrukturen hinweg Checksummen erzeugt und vergleicht (es wird eine PAR2-Datei erzeugt, ein Doppelklick startet dann die Verifikation), aber vor allem auch redundante Wiederherstellungsinformationen ablegt, so dass beschädigte Dateien bis zu einem gewissen Grad wiederhergestellt werden können. Das benötigt zwar deutlich mehr Speicherplatz, wende ich aber bei Dateien der wichtigsten Kategorie an, bspw. bei unwiederbringlichen Fotos. MultiPar ist Open Source, birgt aber, wie immer bei Langzeitaufbewahrung, die Gefahr, dass nach vielen Jahren das Programm nicht mehr lauffähig ist.
Die normale Absicherung von Langzeitdaten erledige ich über Hash-Funktionen. Für die Kommandozeile und die Verifikation benutze ich rhash. Es wird ständig weiterentwickelt, ist Open Source, unterstützt verschiedenste Hash-Algorithmen und kann gut automatisiert eingesetzt werden:
Erzeugt eine files.sfv im übergeordneten Verzeichnis, in der SHA3-512 Hashes von allen Dateien des aktuellen Verzeichnisses und sämtlicher Unterverzeichnisse erzeugt werden.
rhash kann auch nur bestimmte Dateierweiterungen hashen oder bestimmte Dateierweiterungen vom hashing ausschließen.
Diese Prozedur starte ich vor der Langzeitarchivierung (wenn alle Daten i.O. sind). Anschließend wird kopiert. Direkt danach erfolgt die Verifizierung. Bei allen späteren Kopierläufen erfolgt vorher ein verify an der Quelle, ob noch alles in Ordnung ist.
Verifikation:
--skip-ok sorgt dafür, dass nur fehlerhafte Zeilen erscheinen. Das Ergebnis wird hier angezeigt, kann aber natürlich einfach mit > in eine Datei umgeleitet werden.
Der Output mit 2 defekten bzw. modifizierten Dateien und 1 gelöschten Datei sieht bspw. so aus:
Läuft alles glatt, sieht es so aus:
Ein Update-Lauf:
fügt Hashes für alle Dateien hinzu, die neu hinzugekommen sind.
Über das Ergebnis lässt sich also schnell auch auf der Kommandozeile abgleichen, ob ein Problem besteht (Errors oder Miss). Dann ist bei mir sowieso händisches Eingreifen erforderlich, um zu schauen, wo das Problem liegt.
MultiPar lasse ich zur Verifikation in großen Abständen laufen (weil es dann ggf. auch Fehler beheben kann).
Nebenbei: da ich seit Ewigkeiten (kommend von DOS mit Norton Commander) ein Fan des Total Commanders bin, erzeugte ich mitunter die Hashdateien auch über die entsprechende Funktion "Erzeuge Quersummen" im Total Commander. Diese kann von rhash zur Verifikation eingelesen und verarbeitet werden.
Gruß
captainfly
ich lese seit Jahren immer wieder mal mit und freue mich über die guten Ideen und Lösungen, die ich hier finde.
Heute kann ich einmal etwas zurückgeben:
Für diese Zwecke nutze ich eine Kombination aus Multipar und RHash (bin fast überwiegend auf Windows unterwegs).
Multipar ist ein Windows-GUI-Tool, das über ganze Verzeichnisstrukturen hinweg Checksummen erzeugt und vergleicht (es wird eine PAR2-Datei erzeugt, ein Doppelklick startet dann die Verifikation), aber vor allem auch redundante Wiederherstellungsinformationen ablegt, so dass beschädigte Dateien bis zu einem gewissen Grad wiederhergestellt werden können. Das benötigt zwar deutlich mehr Speicherplatz, wende ich aber bei Dateien der wichtigsten Kategorie an, bspw. bei unwiederbringlichen Fotos. MultiPar ist Open Source, birgt aber, wie immer bei Langzeitaufbewahrung, die Gefahr, dass nach vielen Jahren das Programm nicht mehr lauffähig ist.
Die normale Absicherung von Langzeitdaten erledige ich über Hash-Funktionen. Für die Kommandozeile und die Verifikation benutze ich rhash. Es wird ständig weiterentwickelt, ist Open Source, unterstützt verschiedenste Hash-Algorithmen und kann gut automatisiert eingesetzt werden:
rhash.exe --sha3-512 -r -P * >..\files.sfv
Erzeugt eine files.sfv im übergeordneten Verzeichnis, in der SHA3-512 Hashes von allen Dateien des aktuellen Verzeichnisses und sämtlicher Unterverzeichnisse erzeugt werden.
rhash kann auch nur bestimmte Dateierweiterungen hashen oder bestimmte Dateierweiterungen vom hashing ausschließen.
Diese Prozedur starte ich vor der Langzeitarchivierung (wenn alle Daten i.O. sind). Anschließend wird kopiert. Direkt danach erfolgt die Verifizierung. Bei allen späteren Kopierläufen erfolgt vorher ein verify an der Quelle, ob noch alles in Ordnung ist.
Verifikation:
rhash --skip-ok -cr ..\files.sfv
--skip-ok sorgt dafür, dass nur fehlerhafte Zeilen erscheinen. Das Ergebnis wird hier angezeigt, kann aber natürlich einfach mit > in eine Datei umgeleitet werden.
Der Output mit 2 defekten bzw. modifizierten Dateien und 1 gelöschten Datei sieht bspw. so aus:
--( Verifying files.sfv )-------------------------------------------------------
xxxx.txt ERR
xxxx.zip ERR
xxxx.pdf No such file or directory
--------------------------------------------------------------------------------
Errors Occurred: Errors:2 Miss:1 Success:360 Total:364
Läuft alles glatt, sieht es so aus:
--( Verifying ..\files.sfv )----------------------------------------------------
--------------------------------------------------------------------------------
Everything OK
Ein Update-Lauf:
rhash.exe --sha3-512 -r --update=..\files.sfv -P *
fügt Hashes für alle Dateien hinzu, die neu hinzugekommen sind.
Über das Ergebnis lässt sich also schnell auch auf der Kommandozeile abgleichen, ob ein Problem besteht (Errors oder Miss). Dann ist bei mir sowieso händisches Eingreifen erforderlich, um zu schauen, wo das Problem liegt.
MultiPar lasse ich zur Verifikation in großen Abständen laufen (weil es dann ggf. auch Fehler beheben kann).
Nebenbei: da ich seit Ewigkeiten (kommend von DOS mit Norton Commander) ein Fan des Total Commanders bin, erzeugte ich mitunter die Hashdateien auch über die entsprechende Funktion "Erzeuge Quersummen" im Total Commander. Diese kann von rhash zur Verifikation eingelesen und verarbeitet werden.
Gruß
captainfly
Hallo captainfly,
Dein Ansatz klingt interessant und schlüssig, dürfte aber oftmals ein Problem mit der notwendigen Disziplin und konsequenten Umsetzung bekommen.
Was mich noch konkret interessieren würde:
seit wann praktizierst Du diese Absicherung und wie oft hat die Hash-Prüfung angeschlagen? Bezogen auf welche Datenmenge?
Gruss
George
Dein Ansatz klingt interessant und schlüssig, dürfte aber oftmals ein Problem mit der notwendigen Disziplin und konsequenten Umsetzung bekommen.
Was mich noch konkret interessieren würde:
seit wann praktizierst Du diese Absicherung und wie oft hat die Hash-Prüfung angeschlagen? Bezogen auf welche Datenmenge?
Gruss
George