Backup von sehr vielen kleinen Dateien
Das Backup dauert z.Zt. zu lange und brauche Hilfe bei der richtigen Technik
Ich habe einen Kunden der täglich mehrere hunderte bis tausende Dokumente einscannt und auf einer Festplatte abspeichert.
Die Dateien sind alle ca 4-8kB groß. Auf seinem "Server" (Einfacher PC) liegen inzwischen ca. 12 Mio Dateien.
Für seine Datensicherung hat er bis jetzt immer mit einem xcopy Script auf eine externe Platte gesichert.
Dieser Job schein die vielen Dateien nicht mehr verarbeiten zu können, auf jeden Fall stürzt er gleich am Anfang dabei ab.
Ich hatte ihm bereits einmal die Storagebird Tivoli Edition mit IBM Tivoli Continuous Data Protection verkauft, aber die erste Syncronisierung hat bereits über einen Monat gedauert.
Er hat mich nun gefragt, was man hier für das Backup sinnvoll einsetzen sollte.
Ich habe nun schiss, daß wenn ich ihm ein LTO Bandlaufwerk verkaufe das Backupfenster auch ähnlich groß wird.
Hat da jemand von euch schon Erfahrungen mit so vielen so kleinen Dateien?
Danke
Glenn Müller
Ich habe einen Kunden der täglich mehrere hunderte bis tausende Dokumente einscannt und auf einer Festplatte abspeichert.
Die Dateien sind alle ca 4-8kB groß. Auf seinem "Server" (Einfacher PC) liegen inzwischen ca. 12 Mio Dateien.
Für seine Datensicherung hat er bis jetzt immer mit einem xcopy Script auf eine externe Platte gesichert.
Dieser Job schein die vielen Dateien nicht mehr verarbeiten zu können, auf jeden Fall stürzt er gleich am Anfang dabei ab.
Ich hatte ihm bereits einmal die Storagebird Tivoli Edition mit IBM Tivoli Continuous Data Protection verkauft, aber die erste Syncronisierung hat bereits über einen Monat gedauert.
Er hat mich nun gefragt, was man hier für das Backup sinnvoll einsetzen sollte.
Ich habe nun schiss, daß wenn ich ihm ein LTO Bandlaufwerk verkaufe das Backupfenster auch ähnlich groß wird.
Hat da jemand von euch schon Erfahrungen mit so vielen so kleinen Dateien?
Danke
Glenn Müller
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 122418
Url: https://administrator.de/forum/backup-von-sehr-vielen-kleinen-dateien-122418.html
Ausgedruckt am: 27.12.2024 um 22:12 Uhr
26 Kommentare
Neuester Kommentar
Hi,.
das die Sicherung lange dauert und nicht sonderlich schnell ist, liegt an den vielen kleinen Dateien - wie Du schon sagtest. Da ändert auch ein Bandlaufwerk nicht viel dran.
Am Besten und am Schnellsten bei der Sicherung ist es, diese Dateien in ein Archiv zu packen (z.B. zip) die müssen ja nicht komprimiert werden nur in einem Archiv sein, dann geht das Ganze wesentlich schneller und Du solltest dann auch mit Xcopy oder robocopy (was eventuell besser wäre) wieder erfolgreich sein.
Du könntest die Dateien abends per script in ein Archiv packen und dann sichern.
robocopy kann auch nur die geänderten Daten sichern.
das die Sicherung lange dauert und nicht sonderlich schnell ist, liegt an den vielen kleinen Dateien - wie Du schon sagtest. Da ändert auch ein Bandlaufwerk nicht viel dran.
Am Besten und am Schnellsten bei der Sicherung ist es, diese Dateien in ein Archiv zu packen (z.B. zip) die müssen ja nicht komprimiert werden nur in einem Archiv sein, dann geht das Ganze wesentlich schneller und Du solltest dann auch mit Xcopy oder robocopy (was eventuell besser wäre) wieder erfolgreich sein.
Du könntest die Dateien abends per script in ein Archiv packen und dann sichern.
robocopy kann auch nur die geänderten Daten sichern.
Zitat von @Chris85:
Hi
Was hällst du davon einen RAID-Controller zu kaufen, 2 Platten
rein und ein RAID 1 - Mirror.
So würde ich es machen. Deine Daten sind immer redundant
vorhanden ...
Hab' ich was verpasst? Die "Zauberwirkung" eines RAID wird gemeinhin überschätzt; das schützt Dich vor HW-Ausfall, ist aber nicht mit einer Datensicherung gleich zu setzen.Hi
Was hällst du davon einen RAID-Controller zu kaufen, 2 Platten
rein und ein RAID 1 - Mirror.
So würde ich es machen. Deine Daten sind immer redundant
vorhanden ...
Im Ernstfall hast Du den selben "Mist" auf beiden Platten.
MfG, FM_81
Mein Tipp wäre, du machst es wie die Firma wo ich vor 2 Jahren ein Praktikum im IT Bereicht gemacht
habe. Die hatten auch riesige Mengen kleiner Bilddateien auf einem Server, diese Thumbnails kamen
dann von Kunden.
Wir haben dort ein NAS System hingestellt auf dem u.a. nun diese Bilddaten liegen, davon wurde alle
2 Tage ein Backup übers DAT gemacht. Die Daten selbst wurden vom Server auf den der Kunde sie
geladen hatte, täglich Abends die neuen auf das NAS kopiert. Das hatte den Vorteil das die Daten-
sicherung auf dem NAS gemacht wurde und der Upload Server selbst in Ruhe weiter arbeiten konnte.
Das NAS hat sich Abends wenn der Server keinen Upstream am laufen hatte sich die Daten geholt
und somit waren die Daten auf dem Server im Raid1 vorhanden, auf dem NAS im Raid5 oder Raid 10
und alle 2 Tage auf dem DAT.
Natürlich brauchst du kein 9TB NAS wie wir das dort hatten, aber ein unabhängiges Raid1 auf das die
Daten vor der Sicherung auf DAT abgelegt werden, ist besser als nur DAT Sicherung vom Server selbst
alle paar Tage/Wochen
Mfg.
habe. Die hatten auch riesige Mengen kleiner Bilddateien auf einem Server, diese Thumbnails kamen
dann von Kunden.
Wir haben dort ein NAS System hingestellt auf dem u.a. nun diese Bilddaten liegen, davon wurde alle
2 Tage ein Backup übers DAT gemacht. Die Daten selbst wurden vom Server auf den der Kunde sie
geladen hatte, täglich Abends die neuen auf das NAS kopiert. Das hatte den Vorteil das die Daten-
sicherung auf dem NAS gemacht wurde und der Upload Server selbst in Ruhe weiter arbeiten konnte.
Das NAS hat sich Abends wenn der Server keinen Upstream am laufen hatte sich die Daten geholt
und somit waren die Daten auf dem Server im Raid1 vorhanden, auf dem NAS im Raid5 oder Raid 10
und alle 2 Tage auf dem DAT.
Natürlich brauchst du kein 9TB NAS wie wir das dort hatten, aber ein unabhängiges Raid1 auf das die
Daten vor der Sicherung auf DAT abgelegt werden, ist besser als nur DAT Sicherung vom Server selbst
alle paar Tage/Wochen
Mfg.
Was hällst du davon einen RAID-Controller zu kaufen, 2 Platten
rein und ein RAID 1 - Mirror.
So würde ich es machen. Deine Daten sind immer redundant
vorhanden und es würde eine monatliche Sicherung auf ein anderes
Netzwerkgerät oder Tapedrive genügen.
rein und ein RAID 1 - Mirror.
So würde ich es machen. Deine Daten sind immer redundant
vorhanden und es würde eine monatliche Sicherung auf ein anderes
Netzwerkgerät oder Tapedrive genügen.
Cool - ein Virus, eine unbedachte Aktion oder ähnliches - und die Arbeit von einem Monat is "im Moars". Ähm - ich hoffe das du bei dir im Betrieb oder wo auch immer die Datensicherung NICHT so durchführst...
Was ich tun würde: zumindest 2 externe Platten (USB-Platten kosten nich mehr sooo viel...) und dann entweder mittels robocopy, syncback o.ä. eine simple Kopie ziehen bzw. mittels Backup-Programm (notfalls erstmal Windows-Backup) nen vernünftigen Job einrichten und so sichern. 2 USB-Platten dürften problemlos weniger als nen LTO-Laufwerk kosten - und dabei noch ne akzeptable Geschwindigkeit geben (bei inkrementeller Sicherung!).
Ebenfalls kann man überlegen ob man die älteren Daten (12 Mio Files kommen ja vermutlich alle aus diesem Jahr, oder?) z.B. per ZIP zusammenfasst (Wichtig: Ich würde die "original-Files" trotzdem noch einmal auf DVD(s) o.ä. brennen -> falls das ZIP-Archiv mal beschädigt wird kann man die DVD(s) immernoch nehmen. Die ZIP-File wird sich ja vermutlich nicht allzuoft ändern - und kann somit sogar recht schnell gesichert werden...
Eine Sicherung im 30-Tage-Rythmus finde ich für einen Betrieb in jeden Fall... sagen wir mal... gewagt!
Also ich würde das mit Acronis Backup und Restore lösen.
Erst mal ein Vollbackup anlegen und dann immer wieder std oder 2 std ein differentielles machen dauert nicht lange da er nur daten die neu hinzukommen in das backup speichert. und jede nacht ein vollbackup. auch wenn mal der pc ausfällt kanst du mit Universal restore binnen 2 std backup auf neue hw einspielen so das der ausfall nicht lange ist.
Erst mal ein Vollbackup anlegen und dann immer wieder std oder 2 std ein differentielles machen dauert nicht lange da er nur daten die neu hinzukommen in das backup speichert. und jede nacht ein vollbackup. auch wenn mal der pc ausfällt kanst du mit Universal restore binnen 2 std backup auf neue hw einspielen so das der ausfall nicht lange ist.
Was mir gerade einfällt bei der Menge an Dateien und das du meintest das Xcopy abbricht...
Hast du mal gecheckt ob du überhaupt noch genug I-Nodes auf dem Host und auf dem Ziel
Rechner auf der Parition frei hast? Wenn das nämlich nicht der Fall ist, wäre es kein Wunder
das XCopy versagt bzw. jedes andere Programm zum kopieren ebenfalls. Check mal wies
um deine I-Nodes steht
Mfg.
Hast du mal gecheckt ob du überhaupt noch genug I-Nodes auf dem Host und auf dem Ziel
Rechner auf der Parition frei hast? Wenn das nämlich nicht der Fall ist, wäre es kein Wunder
das XCopy versagt bzw. jedes andere Programm zum kopieren ebenfalls. Check mal wies
um deine I-Nodes steht
Mfg.
Ich hatte vor einigen Jahren ein gleiches Problem.
Ein Programm schrieb ca. 1.000 kleine aber wichtige Logs-Dateien.
Ich habe um kurz nach Mitternacht einen Batch laufen lassen, der die Logs des Vortages gezippt hat,
die Zip-Datei auf eine anderes Laufwerk verschob und dann die Logs löschte.
Ich müsste den Batch noch irgendwo haben und kann ihn Dir gerne zur Verfügung stellen.
Du müsstest ihn dann nur entsprechend anpassen
Olaf
Ein Programm schrieb ca. 1.000 kleine aber wichtige Logs-Dateien.
Ich habe um kurz nach Mitternacht einen Batch laufen lassen, der die Logs des Vortages gezippt hat,
die Zip-Datei auf eine anderes Laufwerk verschob und dann die Logs löschte.
Ich müsste den Batch noch irgendwo haben und kann ihn Dir gerne zur Verfügung stellen.
Du müsstest ihn dann nur entsprechend anpassen
Olaf
ich hab sowas mit rar gebaut..
(rar.exe gehört zur sharewareversion von winrar, klappte bei mir unter Win32 und 64)
zeugarchivieren.bat----------------------------------------------------------------------------
FOR /F "tokens=1,2,3 delims=/: " %%a in ('Time/T') do set CTIME=%%a%%b%%c
echo %CTIME%
set DATE=%date%
rar a Sicherungspfad\sicherung_zeugs-%date%_%CTIME%UHR.rar Ordnermitzusicherndemkram\*.* -r0
Pfade sind anzupassen
(rar.exe gehört zur sharewareversion von winrar, klappte bei mir unter Win32 und 64)
zeugarchivieren.bat----------------------------------------------------------------------------
FOR /F "tokens=1,2,3 delims=/: " %%a in ('Time/T') do set CTIME=%%a%%b%%c
echo %CTIME%
set DATE=%date%
rar a Sicherungspfad\sicherung_zeugs-%date%_%CTIME%UHR.rar Ordnermitzusicherndemkram\*.* -r0
Pfade sind anzupassen
Hallo Glenn,
es gibt da vielleicht noch eine Alternative zu Snapshots, Datenbanken oder ZIP-Archiven: nämlich TrueCrypt.
Ich selbst habe zwar keine 12 Millionen Dateien, aber auf meiner Dokumentpartition jede Menge Kleinzeug herumfahren, die ich bislang per Skript jeden Abend in ein RAR-Archiv gepackt hatte, welches dann auf ein USB-Stick kopiert wurde. (Zuvor hatte ich eine Zeit lang auch die erwähnte XCOPY Lösung, diese brach bei einigen USB-Sticks wegen der vielen kleinen Dateien aber ein.)
Vor einiger Zeit habe ich dann aus meiner Dokumentpartition (< 1GB) einfach ein TrueCrypt Laufwerk gemacht. Die Extrapartition gibt es nicht mehr – nur noch eine große TrueCrypt Datei. Diese binde ich zu Beginn meiner täglichen Arbeit mit den Dokumenten ein, und dismounte sie abends nach getaner Arbeit. Dann wird der komplette TrueCrypt Container in einem (schnellen) Rutsch auf den USB-Stick kopiert. Fertig!
Das hat sich auf meinem Notebook, welches ich oft bei Schulungen in fremden Firmen stehen lasse, so gut bewährt, dass ich mittlerweile sämtliche Datenpartitionen (eine davon namens „Bilder“ mit 40 GB) gegen entsprechende TrueCrypt Container getauscht habe. Diese großen TC-Container muss ich natürlich auf externe USB-Platten kopieren, wenn das Backup in einer annehmbaren Zeit erledigt sein soll, aber in ca. 25 Minuten ist das spätestens erledigt. Außerdem mache ich das nur einmal in der Woche. Die wichtigen Dokumentdaten sichere ich dagegen immer noch jeden Tag auf einen Stick.
Ein wichtiger Side-Effect war dann noch die schnelle Verschlüsselung der Daten, die beim Arbeiten mit TC-Containern überhaupt nicht bremst. Somit liegen die Daten in wenigen großen Dateien und lassen sich schnell auf externe Datenträger kopieren und die Container sind verschlüsselt und können von Unbefugten nicht gelesen werden. Folglich bereitet es mir auch keine Sorgen mehr, falls das Notebook mal entwendet wird. Im schlimmsten Fall werden die Kosten für die Anschaffung eines neuen Laptops fällig.
Und zudem kann ich die USB-Platten und Sticks mit den Sicherungen ebenso sorglos irgendwo herumliegen lassen oder gar Fremden zur Aufbewahrung überlassen, denn mit den Kopien der TrueCrypt Container verhält es sich genauso.
Deinen Angaben zufolge (12 Mio. Dateien mit ca. 4-8 KB) könnte sich Dein Kunde eine 100 GB große TC-Containerdatei auf seinen XP-Rechner anlegen, diesen mit einer Clustergröße von 4 KB formatieren und darin seine gescannten Dokumente speichern. Am Ende des Tages löst er die Einbindung seines virtuellen Laufwerks und kopiert den Container auf eine externe Platte. Das dauert bei USB-Platten ca. eineinhalb Stunden, bei eSATA-Platten vielleicht sogar nur 30 Minuten. Und Plattenplatz kostet heute echt nicht die Welt. Bei einer 1 TB Platte könnte er sich auf diese Weise sogar die letzten 10 Versionen des TC-Containers aufbewahren (ich mache das bei mir mit den letzten 3 Versionen).
Und – falls ich das noch nicht erwähnt haben sollte – die TrueCrypt Software ist Open Source also kostenlos und nicht nur für Windows zu haben.
Wäre vielleicht einen Versuch wert, oder?!
MfG,
Oliver Kahle
es gibt da vielleicht noch eine Alternative zu Snapshots, Datenbanken oder ZIP-Archiven: nämlich TrueCrypt.
Ich selbst habe zwar keine 12 Millionen Dateien, aber auf meiner Dokumentpartition jede Menge Kleinzeug herumfahren, die ich bislang per Skript jeden Abend in ein RAR-Archiv gepackt hatte, welches dann auf ein USB-Stick kopiert wurde. (Zuvor hatte ich eine Zeit lang auch die erwähnte XCOPY Lösung, diese brach bei einigen USB-Sticks wegen der vielen kleinen Dateien aber ein.)
Vor einiger Zeit habe ich dann aus meiner Dokumentpartition (< 1GB) einfach ein TrueCrypt Laufwerk gemacht. Die Extrapartition gibt es nicht mehr – nur noch eine große TrueCrypt Datei. Diese binde ich zu Beginn meiner täglichen Arbeit mit den Dokumenten ein, und dismounte sie abends nach getaner Arbeit. Dann wird der komplette TrueCrypt Container in einem (schnellen) Rutsch auf den USB-Stick kopiert. Fertig!
Das hat sich auf meinem Notebook, welches ich oft bei Schulungen in fremden Firmen stehen lasse, so gut bewährt, dass ich mittlerweile sämtliche Datenpartitionen (eine davon namens „Bilder“ mit 40 GB) gegen entsprechende TrueCrypt Container getauscht habe. Diese großen TC-Container muss ich natürlich auf externe USB-Platten kopieren, wenn das Backup in einer annehmbaren Zeit erledigt sein soll, aber in ca. 25 Minuten ist das spätestens erledigt. Außerdem mache ich das nur einmal in der Woche. Die wichtigen Dokumentdaten sichere ich dagegen immer noch jeden Tag auf einen Stick.
Ein wichtiger Side-Effect war dann noch die schnelle Verschlüsselung der Daten, die beim Arbeiten mit TC-Containern überhaupt nicht bremst. Somit liegen die Daten in wenigen großen Dateien und lassen sich schnell auf externe Datenträger kopieren und die Container sind verschlüsselt und können von Unbefugten nicht gelesen werden. Folglich bereitet es mir auch keine Sorgen mehr, falls das Notebook mal entwendet wird. Im schlimmsten Fall werden die Kosten für die Anschaffung eines neuen Laptops fällig.
Und zudem kann ich die USB-Platten und Sticks mit den Sicherungen ebenso sorglos irgendwo herumliegen lassen oder gar Fremden zur Aufbewahrung überlassen, denn mit den Kopien der TrueCrypt Container verhält es sich genauso.
Deinen Angaben zufolge (12 Mio. Dateien mit ca. 4-8 KB) könnte sich Dein Kunde eine 100 GB große TC-Containerdatei auf seinen XP-Rechner anlegen, diesen mit einer Clustergröße von 4 KB formatieren und darin seine gescannten Dokumente speichern. Am Ende des Tages löst er die Einbindung seines virtuellen Laufwerks und kopiert den Container auf eine externe Platte. Das dauert bei USB-Platten ca. eineinhalb Stunden, bei eSATA-Platten vielleicht sogar nur 30 Minuten. Und Plattenplatz kostet heute echt nicht die Welt. Bei einer 1 TB Platte könnte er sich auf diese Weise sogar die letzten 10 Versionen des TC-Containers aufbewahren (ich mache das bei mir mit den letzten 3 Versionen).
Und – falls ich das noch nicht erwähnt haben sollte – die TrueCrypt Software ist Open Source also kostenlos und nicht nur für Windows zu haben.
Wäre vielleicht einen Versuch wert, oder?!
MfG,
Oliver Kahle
Probiere mal RichCopy aus. Ich habe es selbst nicht probiert, aber vielleicht klappt das Kopieren von vielen kleinen Dateien damit besser.
TrueCrypt lässt sich auch bequem per Kommandozeile steuern. Die Parameter sind hier beschrieben: http://www.truecrypt.org/docs/?s=command-line-usage
Ich selbst verwende zum Aufruf einen Desktop-Link mit folgendem Inhalt, den ich nur doppelt anklicken muss:
"C:\Program Files\TrueCrypt\TrueCrypt.exe" /V "E:\Tresore\BUSINESS Container.tc" /A /LK /Q /C /B /M TS
Man muss ein wenig aufpassen mit den Zitat- und Leerzeichen, dann geht aber alles automatisch. Ein einmal eingegebenes Passwort lässt sich so auch auf mehrere nacheinander eingebundene Container mit dem selben Passwortschutz anwenden. Am Abend verschließt dieser Aufruf alle Container:
"C:\Program Files\TrueCrypt\TrueCrypt.exe" /D /Q /W /B
Und noch etwas: Eine Datensicherung „wird“ nicht zur Pflichtübung… Das sollte sie immer schon sein!
Aber Du hast schon Recht. 100 GB jeden Tag aufs neue zu sichern könnte etwas lästig werden. Man könnte aber noch das Komplettbackup auf einen Termin in der Woche legen und für die tägliche Sicherung ein XCOPY oder ROBOCOPY mit Datumsoption für die Dateien der letzten sieben Tage nehmen. Es wird dann zwar für den Anwender etwas komplizierter, aber wenn der Zeitgewinn das wieder wett macht, ist im Grunde nichts dagegen einzuwenden.
Ich habe das Zeitproblem bei mir dadurch gelöst, dass ich fünf unterschiedlich große TC-Container einsetze. Die kleinen mit viel Datenverkehr sichere ich täglich, die großen, die seltener geändert werden, höchstens einmal pro Woche.
Und noch etwas zu Deiner Beruhigung: Einmal hatte ich, während alle TC-Volumes geöffnet und in Betrieb waren, einen Bluescreen, weil ich einen Hardwaretreiber umkonfiguriert habe. Nach einem Kaltstart und diversen Reparaturen aktivierte ich die TC-Laufwerke wieder und ließ einen „CHKDSK“ über sie laufen – ohne Probleme… Diese TrueCrypt Geschichte scheint mir recht stabil zu sein.
MfG
Oliver Kahle
Ich selbst verwende zum Aufruf einen Desktop-Link mit folgendem Inhalt, den ich nur doppelt anklicken muss:
"C:\Program Files\TrueCrypt\TrueCrypt.exe" /V "E:\Tresore\BUSINESS Container.tc" /A /LK /Q /C /B /M TS
Man muss ein wenig aufpassen mit den Zitat- und Leerzeichen, dann geht aber alles automatisch. Ein einmal eingegebenes Passwort lässt sich so auch auf mehrere nacheinander eingebundene Container mit dem selben Passwortschutz anwenden. Am Abend verschließt dieser Aufruf alle Container:
"C:\Program Files\TrueCrypt\TrueCrypt.exe" /D /Q /W /B
Und noch etwas: Eine Datensicherung „wird“ nicht zur Pflichtübung… Das sollte sie immer schon sein!
Aber Du hast schon Recht. 100 GB jeden Tag aufs neue zu sichern könnte etwas lästig werden. Man könnte aber noch das Komplettbackup auf einen Termin in der Woche legen und für die tägliche Sicherung ein XCOPY oder ROBOCOPY mit Datumsoption für die Dateien der letzten sieben Tage nehmen. Es wird dann zwar für den Anwender etwas komplizierter, aber wenn der Zeitgewinn das wieder wett macht, ist im Grunde nichts dagegen einzuwenden.
Ich habe das Zeitproblem bei mir dadurch gelöst, dass ich fünf unterschiedlich große TC-Container einsetze. Die kleinen mit viel Datenverkehr sichere ich täglich, die großen, die seltener geändert werden, höchstens einmal pro Woche.
Und noch etwas zu Deiner Beruhigung: Einmal hatte ich, während alle TC-Volumes geöffnet und in Betrieb waren, einen Bluescreen, weil ich einen Hardwaretreiber umkonfiguriert habe. Nach einem Kaltstart und diversen Reparaturen aktivierte ich die TC-Laufwerke wieder und ließ einen „CHKDSK“ über sie laufen – ohne Probleme… Diese TrueCrypt Geschichte scheint mir recht stabil zu sein.
MfG
Oliver Kahle