glennm
Goto Top

Backup von sehr vielen kleinen Dateien

Das Backup dauert z.Zt. zu lange und brauche Hilfe bei der richtigen Technik

Ich habe einen Kunden der täglich mehrere hunderte bis tausende Dokumente einscannt und auf einer Festplatte abspeichert.
Die Dateien sind alle ca 4-8kB groß. Auf seinem "Server" (Einfacher PC) liegen inzwischen ca. 12 Mio Dateien.

Für seine Datensicherung hat er bis jetzt immer mit einem xcopy Script auf eine externe Platte gesichert.
Dieser Job schein die vielen Dateien nicht mehr verarbeiten zu können, auf jeden Fall stürzt er gleich am Anfang dabei ab.

Ich hatte ihm bereits einmal die Storagebird Tivoli Edition mit IBM Tivoli Continuous Data Protection verkauft, aber die erste Syncronisierung hat bereits über einen Monat gedauert.


Er hat mich nun gefragt, was man hier für das Backup sinnvoll einsetzen sollte.
Ich habe nun schiss, daß wenn ich ihm ein LTO Bandlaufwerk verkaufe das Backupfenster auch ähnlich groß wird.

Hat da jemand von euch schon Erfahrungen mit so vielen so kleinen Dateien?

Danke

Glenn Müller

Content-ID: 122418

Url: https://administrator.de/forum/backup-von-sehr-vielen-kleinen-dateien-122418.html

Ausgedruckt am: 27.12.2024 um 22:12 Uhr

manbar
manbar 10.08.2009 um 14:53:31 Uhr
Goto Top
Nutze mal statt xcopy das tool "Robocopy"

gibts direkt von MS
M3rlin
M3rlin 10.08.2009 um 14:59:09 Uhr
Goto Top
Hi,.

das die Sicherung lange dauert und nicht sonderlich schnell ist, liegt an den vielen kleinen Dateien - wie Du schon sagtest. Da ändert auch ein Bandlaufwerk nicht viel dran.
Am Besten und am Schnellsten bei der Sicherung ist es, diese Dateien in ein Archiv zu packen (z.B. zip) die müssen ja nicht komprimiert werden nur in einem Archiv sein, dann geht das Ganze wesentlich schneller und Du solltest dann auch mit Xcopy oder robocopy (was eventuell besser wäre) wieder erfolgreich sein.

Du könntest die Dateien abends per script in ein Archiv packen und dann sichern.
robocopy kann auch nur die geänderten Daten sichern.
Chris85
Chris85 10.08.2009 um 15:08:41 Uhr
Goto Top
Hi

Was hällst du davon einen RAID-Controller zu kaufen, 2 Platten rein und ein RAID 1 - Mirror.

So würde ich es machen. Deine Daten sind immer redundant vorhanden und es würde eine monatliche Sicherung auf ein anderes Netzwerkgerät oder Tapedrive genügen.

Gruß

Chris
manbar
manbar 10.08.2009 um 15:12:01 Uhr
Goto Top
stimmt hat ich vergessen zu erwähnen. mit robocopy kannst du auch differenzsicherungen machen. und meiner Erfahrung nach kommt es mit vielen kleinen dateien sehr gut zurecht.
68162
68162 10.08.2009 um 15:17:31 Uhr
Goto Top
Zitat von @Chris85:
Hi

Was hällst du davon einen RAID-Controller zu kaufen, 2 Platten
rein und ein RAID 1 - Mirror.

So würde ich es machen. Deine Daten sind immer redundant
vorhanden ...
Hab' ich was verpasst? Die "Zauberwirkung" eines RAID wird gemeinhin überschätzt; das schützt Dich vor HW-Ausfall, ist aber nicht mit einer Datensicherung gleich zu setzen.
Im Ernstfall hast Du den selben "Mist" auf beiden Platten.

MfG, FM_81
GlennM
GlennM 10.08.2009 um 15:27:41 Uhr
Goto Top
Ich werde mal testen müssen wie lange er für das packen benötigen würde. Auf jeden Fall sehe ich schon das ich auch an den Arbeitsabläufen meines Kunden ein wenig feilen muss. Damit er nicht soviele Dateien immer wieder sichern muss.

Da gibt es noch viel zu optimieren. Auch die Clustergröße seiner Datenplatte werde ich wahrscheinlich anpassen müssen.

Danke schon mal an alle die so schnell geantwortet haben.
GlennM
GlennM 10.08.2009 um 15:29:31 Uhr
Goto Top
Zitat von @manbar:
stimmt hat ich vergessen zu erwähnen. mit robocopy kannst du auch
differenzsicherungen machen. und meiner Erfahrung nach kommt es mit
vielen kleinen dateien sehr gut zurecht.

Das hatte ich bis jetzt von Xcopy auch gedacht. Aber probieren geht über studieren. Danke
Phalanx82
Phalanx82 10.08.2009 um 15:46:06 Uhr
Goto Top
Mein Tipp wäre, du machst es wie die Firma wo ich vor 2 Jahren ein Praktikum im IT Bereicht gemacht
habe. Die hatten auch riesige Mengen kleiner Bilddateien auf einem Server, diese Thumbnails kamen
dann von Kunden.

Wir haben dort ein NAS System hingestellt auf dem u.a. nun diese Bilddaten liegen, davon wurde alle
2 Tage ein Backup übers DAT gemacht. Die Daten selbst wurden vom Server auf den der Kunde sie
geladen hatte, täglich Abends die neuen auf das NAS kopiert. Das hatte den Vorteil das die Daten-
sicherung auf dem NAS gemacht wurde und der Upload Server selbst in Ruhe weiter arbeiten konnte.
Das NAS hat sich Abends wenn der Server keinen Upstream am laufen hatte sich die Daten geholt
und somit waren die Daten auf dem Server im Raid1 vorhanden, auf dem NAS im Raid5 oder Raid 10
und alle 2 Tage auf dem DAT.

Natürlich brauchst du kein 9TB NAS wie wir das dort hatten, aber ein unabhängiges Raid1 auf das die
Daten vor der Sicherung auf DAT abgelegt werden, ist besser als nur DAT Sicherung vom Server selbst
alle paar Tage/Wochen

Mfg.
maretz
maretz 10.08.2009 um 16:23:43 Uhr
Goto Top
Was hällst du davon einen RAID-Controller zu kaufen, 2 Platten
rein und ein RAID 1 - Mirror.

So würde ich es machen. Deine Daten sind immer redundant
vorhanden und es würde eine monatliche Sicherung auf ein anderes
Netzwerkgerät oder Tapedrive genügen.

Cool - ein Virus, eine unbedachte Aktion oder ähnliches - und die Arbeit von einem Monat is "im Moars". Ähm - ich hoffe das du bei dir im Betrieb oder wo auch immer die Datensicherung NICHT so durchführst...

Was ich tun würde: zumindest 2 externe Platten (USB-Platten kosten nich mehr sooo viel...) und dann entweder mittels robocopy, syncback o.ä. eine simple Kopie ziehen bzw. mittels Backup-Programm (notfalls erstmal Windows-Backup) nen vernünftigen Job einrichten und so sichern. 2 USB-Platten dürften problemlos weniger als nen LTO-Laufwerk kosten - und dabei noch ne akzeptable Geschwindigkeit geben (bei inkrementeller Sicherung!).

Ebenfalls kann man überlegen ob man die älteren Daten (12 Mio Files kommen ja vermutlich alle aus diesem Jahr, oder?) z.B. per ZIP zusammenfasst (Wichtig: Ich würde die "original-Files" trotzdem noch einmal auf DVD(s) o.ä. brennen -> falls das ZIP-Archiv mal beschädigt wird kann man die DVD(s) immernoch nehmen. Die ZIP-File wird sich ja vermutlich nicht allzuoft ändern - und kann somit sogar recht schnell gesichert werden...

Eine Sicherung im 30-Tage-Rythmus finde ich für einen Betrieb in jeden Fall... sagen wir mal... gewagt!
lkwracer
lkwracer 10.08.2009 um 16:52:25 Uhr
Goto Top
Also ich würde das mit Acronis Backup und Restore lösen.
Erst mal ein Vollbackup anlegen und dann immer wieder std oder 2 std ein differentielles machen dauert nicht lange da er nur daten die neu hinzukommen in das backup speichert. und jede nacht ein vollbackup. auch wenn mal der pc ausfällt kanst du mit Universal restore binnen 2 std backup auf neue hw einspielen so das der ausfall nicht lange ist.
Supaman
Supaman 10.08.2009 um 17:27:04 Uhr
Goto Top
pack die ganzen dateien auf eine separate partition und zieh ein image mit acronis. da ist es dann egal, wie viele dateien auf der partition rumschwirren. alternativ die nicht mehr benötigten in ein zip/rar archiv packen zur "endlagerung".
manbar
manbar 10.08.2009 um 20:04:54 Uhr
Goto Top
MAl noch was anderes. Wenn die Dateien wirklich nur max. 8KB groß sind, hast du mal überlegt die in eine Datenbank zu speichern? wäre nur eine Datei...
GlennM
GlennM 11.08.2009 um 10:36:29 Uhr
Goto Top
Habe ich auch schon dran gedacht, aber leider hab ich es nicht so mit Datenbanken ;-(
Bevor ich mir da mehr Probleme einhandele als ich eh schon habe lasse ichs lieber face-wink
Phalanx82
Phalanx82 11.08.2009 um 18:24:09 Uhr
Goto Top
Was mir gerade einfällt bei der Menge an Dateien und das du meintest das Xcopy abbricht...
Hast du mal gecheckt ob du überhaupt noch genug I-Nodes auf dem Host und auf dem Ziel
Rechner auf der Parition frei hast? Wenn das nämlich nicht der Fall ist, wäre es kein Wunder
das XCopy versagt bzw. jedes andere Programm zum kopieren ebenfalls. Check mal wies
um deine I-Nodes steht face-smile

Mfg.
GlennM
GlennM 12.08.2009 um 10:34:02 Uhr
Goto Top
Zitat von @Phalanx82:
Hast du mal gecheckt ob du überhaupt noch genug I-Nodes auf dem
Host und auf dem Ziel
Rechner auf der Parition frei hast? Wenn das nämlich nicht der
Fall ist, wäre es kein Wunder
das XCopy versagt bzw. jedes andere Programm zum kopieren ebenfalls.

Die Firma besitzt nur Windows Rechner.
Gibt es bei NTFS so eine Problematik auch? Ist mir bis jetzt noch nicht untergekommen.
Der "Server" ist zwar eine XPPro Maschine, aber dort kenne ich auch keine Beschränkung außer das nicht mehr als 10 Netzwerkverbindungen möglich sind.

Danke für alle bisher sehr guten Hinweise!
manbar
manbar 12.08.2009 um 11:25:47 Uhr
Goto Top
ähm
Bei Pro gibts die Beschränkung nicht, die 10 Netzwerkverbindungen waren bei Home.
GlennM
GlennM 12.08.2009 um 11:38:23 Uhr
Goto Top
Zitat von @manbar:
ähm
Bei Pro gibts die Beschränkung nicht, die 10
Netzwerkverbindungen waren bei Home.

Nee, die Beschränkung auf max. 10 gleichzeitige Netzwerkverbindungen gelten auch für Xp Pro.
OlafWerner
OlafWerner 18.08.2009 um 17:49:01 Uhr
Goto Top
Ich hatte vor einigen Jahren ein gleiches Problem.
Ein Programm schrieb ca. 1.000 kleine aber wichtige Logs-Dateien.
Ich habe um kurz nach Mitternacht einen Batch laufen lassen, der die Logs des Vortages gezippt hat,
die Zip-Datei auf eine anderes Laufwerk verschob und dann die Logs löschte.

Ich müsste den Batch noch irgendwo haben und kann ihn Dir gerne zur Verfügung stellen.
Du müsstest ihn dann nur entsprechend anpassen

Olaf
manbar
manbar 18.08.2009 um 18:10:36 Uhr
Goto Top
ich hab sowas mit rar gebaut..

(rar.exe gehört zur sharewareversion von winrar, klappte bei mir unter Win32 und 64)

zeugarchivieren.bat----------------------------------------------------------------------------
FOR /F "tokens=1,2,3 delims=/: " %%a in ('Time/T') do set CTIME=%%a%%b%%c
echo %CTIME%
set DATE=%date%
rar a Sicherungspfad\sicherung_zeugs-%date%_%CTIME%UHR.rar Ordnermitzusicherndemkram\*.* -r0

Pfade sind anzupassen
OlafWerner
Lösung OlafWerner 18.08.2009 um 18:40:01 Uhr
Goto Top
Das ist der Batch, den ich meinte.
Nur das ich zip statt rar benutzt habe.

Der Rest sollte Dir jetzt auch schnell von der Hand gehen.

Olaf
GlennM
GlennM 19.08.2009 um 09:12:30 Uhr
Goto Top
Super, Danke für das feine kleine Script. werde das mal versuchen bei meinem nächsten Termin dort.

Danke
Glenn
Solver
Lösung Solver 21.08.2009 um 16:06:47 Uhr
Goto Top
Hallo Glenn,

es gibt da vielleicht noch eine Alternative zu Snapshots, Datenbanken oder ZIP-Archiven: nämlich TrueCrypt.

Ich selbst habe zwar keine 12 Millionen Dateien, aber auf meiner Dokumentpartition jede Menge Kleinzeug herumfahren, die ich bislang per Skript jeden Abend in ein RAR-Archiv gepackt hatte, welches dann auf ein USB-Stick kopiert wurde. (Zuvor hatte ich eine Zeit lang auch die erwähnte XCOPY Lösung, diese brach bei einigen USB-Sticks wegen der vielen kleinen Dateien aber ein.)

Vor einiger Zeit habe ich dann aus meiner Dokumentpartition (< 1GB) einfach ein TrueCrypt Laufwerk gemacht. Die Extrapartition gibt es nicht mehr – nur noch eine große TrueCrypt Datei. Diese binde ich zu Beginn meiner täglichen Arbeit mit den Dokumenten ein, und dismounte sie abends nach getaner Arbeit. Dann wird der komplette TrueCrypt Container in einem (schnellen) Rutsch auf den USB-Stick kopiert. Fertig!

Das hat sich auf meinem Notebook, welches ich oft bei Schulungen in fremden Firmen stehen lasse, so gut bewährt, dass ich mittlerweile sämtliche Datenpartitionen (eine davon namens „Bilder“ mit 40 GB) gegen entsprechende TrueCrypt Container getauscht habe. Diese großen TC-Container muss ich natürlich auf externe USB-Platten kopieren, wenn das Backup in einer annehmbaren Zeit erledigt sein soll, aber in ca. 25 Minuten ist das spätestens erledigt. Außerdem mache ich das nur einmal in der Woche. Die wichtigen Dokumentdaten sichere ich dagegen immer noch jeden Tag auf einen Stick.

Ein wichtiger Side-Effect war dann noch die schnelle Verschlüsselung der Daten, die beim Arbeiten mit TC-Containern überhaupt nicht bremst. Somit liegen die Daten in wenigen großen Dateien und lassen sich schnell auf externe Datenträger kopieren und die Container sind verschlüsselt und können von Unbefugten nicht gelesen werden. Folglich bereitet es mir auch keine Sorgen mehr, falls das Notebook mal entwendet wird. Im schlimmsten Fall werden die Kosten für die Anschaffung eines neuen Laptops fällig.

Und zudem kann ich die USB-Platten und Sticks mit den Sicherungen ebenso sorglos irgendwo herumliegen lassen oder gar Fremden zur Aufbewahrung überlassen, denn mit den Kopien der TrueCrypt Container verhält es sich genauso.

Deinen Angaben zufolge (12 Mio. Dateien mit ca. 4-8 KB) könnte sich Dein Kunde eine 100 GB große TC-Containerdatei auf seinen XP-Rechner anlegen, diesen mit einer Clustergröße von 4 KB formatieren und darin seine gescannten Dokumente speichern. Am Ende des Tages löst er die Einbindung seines virtuellen Laufwerks und kopiert den Container auf eine externe Platte. Das dauert bei USB-Platten ca. eineinhalb Stunden, bei eSATA-Platten vielleicht sogar nur 30 Minuten. Und Plattenplatz kostet heute echt nicht die Welt. Bei einer 1 TB Platte könnte er sich auf diese Weise sogar die letzten 10 Versionen des TC-Containers aufbewahren (ich mache das bei mir mit den letzten 3 Versionen).

Und – falls ich das noch nicht erwähnt haben sollte – die TrueCrypt Software ist Open Source also kostenlos und nicht nur für Windows zu haben.
Wäre vielleicht einen Versuch wert, oder?!

MfG,
Oliver Kahle
GlennM
GlennM 24.08.2009 um 10:35:55 Uhr
Goto Top
Hmmm, das klingt echt interessant. Aber hierbei wird die Datensicherung auf jeden Fall zur Pflichtübung, sollte einmal die Containerdatei defekt sein sind natürlich gleich alle Daten futsch. Wenn man die Containerdatei per script mounten und unmounten kann bin ich dabei.


Danke für deinen Tipp face-wink
Glenn
81825
81825 24.08.2009 um 10:57:01 Uhr
Goto Top
Probiere mal RichCopy aus. Ich habe es selbst nicht probiert, aber vielleicht klappt das Kopieren von vielen kleinen Dateien damit besser.
GlennM
GlennM 24.08.2009 um 11:43:20 Uhr
Goto Top
Das sieht ja fast aus wie eine GUI für Xcopy face-smile
Solver
Solver 25.08.2009 um 11:03:45 Uhr
Goto Top
TrueCrypt lässt sich auch bequem per Kommandozeile steuern. Die Parameter sind hier beschrieben: http://www.truecrypt.org/docs/?s=command-line-usage

Ich selbst verwende zum Aufruf einen Desktop-Link mit folgendem Inhalt, den ich nur doppelt anklicken muss:
"C:\Program Files\TrueCrypt\TrueCrypt.exe" /V "E:\Tresore\BUSINESS Container.tc" /A /LK /Q /C /B /M TS

Man muss ein wenig aufpassen mit den Zitat- und Leerzeichen, dann geht aber alles automatisch. Ein einmal eingegebenes Passwort lässt sich so auch auf mehrere nacheinander eingebundene Container mit dem selben Passwortschutz anwenden. Am Abend verschließt dieser Aufruf alle Container:
"C:\Program Files\TrueCrypt\TrueCrypt.exe" /D /Q /W /B

Und noch etwas: Eine Datensicherung „wird“ nicht zur Pflichtübung… Das sollte sie immer schon sein!
Aber Du hast schon Recht. 100 GB jeden Tag aufs neue zu sichern könnte etwas lästig werden. Man könnte aber noch das Komplettbackup auf einen Termin in der Woche legen und für die tägliche Sicherung ein XCOPY oder ROBOCOPY mit Datumsoption für die Dateien der letzten sieben Tage nehmen. Es wird dann zwar für den Anwender etwas komplizierter, aber wenn der Zeitgewinn das wieder wett macht, ist im Grunde nichts dagegen einzuwenden.

Ich habe das Zeitproblem bei mir dadurch gelöst, dass ich fünf unterschiedlich große TC-Container einsetze. Die kleinen mit viel Datenverkehr sichere ich täglich, die großen, die seltener geändert werden, höchstens einmal pro Woche.

Und noch etwas zu Deiner Beruhigung: Einmal hatte ich, während alle TC-Volumes geöffnet und in Betrieb waren, einen Bluescreen, weil ich einen Hardwaretreiber umkonfiguriert habe. Nach einem Kaltstart und diversen Reparaturen aktivierte ich die TC-Laufwerke wieder und ließ einen „CHKDSK“ über sie laufen – ohne Probleme… Diese TrueCrypt Geschichte scheint mir recht stabil zu sein.

MfG
Oliver Kahle