Automatisches Entfernen von leeren Seiten in PDF
Hallo zusammen,
ich bin gerade dabei mir ein privates DMS mit ecoDMS aufzubauen. Das klappt soweit auch so wie ich mir das vorstelle.
Ein Manko hat ecoDMS aber: Wenn ich Dokumente automatisch über einen definierten Scaninput-Ordner automatisch erfasse, werden leere Seiten, die gerade im Duplexscan mal entstehen können, nicht entfernt.
Kennt jemand eine Lösung, mit der man einen Ordner überwachen kann und dort abgelegte PDF-Dateien von leeren Seiten zu befreien um diese anschließend in einen anderen Ordner zu verschieben - das alles vollautomatisch? Von dort aus würde dann ecoDMS den Rest machen.
Ich betreibe ecoDMS in einem Docker-Container, auf meinem QNAP TS-253B (64-Bit x86).
Also helfen mir Lösungsvorschläge, die auf Docker oder Bash basieren.
Beste Grüße
Benjamin
ich bin gerade dabei mir ein privates DMS mit ecoDMS aufzubauen. Das klappt soweit auch so wie ich mir das vorstelle.
Ein Manko hat ecoDMS aber: Wenn ich Dokumente automatisch über einen definierten Scaninput-Ordner automatisch erfasse, werden leere Seiten, die gerade im Duplexscan mal entstehen können, nicht entfernt.
Kennt jemand eine Lösung, mit der man einen Ordner überwachen kann und dort abgelegte PDF-Dateien von leeren Seiten zu befreien um diese anschließend in einen anderen Ordner zu verschieben - das alles vollautomatisch? Von dort aus würde dann ecoDMS den Rest machen.
Ich betreibe ecoDMS in einem Docker-Container, auf meinem QNAP TS-253B (64-Bit x86).
Also helfen mir Lösungsvorschläge, die auf Docker oder Bash basieren.
Beste Grüße
Benjamin
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 625240
Url: https://administrator.de/contentid/625240
Ausgedruckt am: 21.11.2024 um 22:11 Uhr
13 Kommentare
Neuester Kommentar
Moin,
grundsätzlich ist eine Leerseitenerkennung nur ein Hilfsmittel. Spätestes bei auf der Rückseite aufgedruckten AGB versagt dann ohnehin die beste Leerseitenerkennung!
Daher sind wir in der Firma dazu übergegangen unterschiedliche Scanprofile zu nutzen. Ein- und Doppelseitig. Der MA der scannt macht halt entsprechende Stapel und scannt die dann entsprechend ein.
Und ganz wichtig: Vor der Archivierung prüft der Mitarbeiter die Scans visuell auf Vollständig- und Lesbarkeit!
Für Privat reicht z.B. auch ein einfaches Scanprogramm wie NAPS2. Du scannst Deine Dokumente mit NAPS2. Bereitest dann die einzelnen Scans auf und prüfst auf Vollständig- und Lesbarkeit, entfernst evtl. vorhandene Leer- bzw- unerwünschte Seiten. Dann exportierst Du Deine Dokumente aus NAPS2 in den Input-Ordner des DMS. Das wäre dann der saubere Weg.
Gruß
Dirk
grundsätzlich ist eine Leerseitenerkennung nur ein Hilfsmittel. Spätestes bei auf der Rückseite aufgedruckten AGB versagt dann ohnehin die beste Leerseitenerkennung!
Daher sind wir in der Firma dazu übergegangen unterschiedliche Scanprofile zu nutzen. Ein- und Doppelseitig. Der MA der scannt macht halt entsprechende Stapel und scannt die dann entsprechend ein.
Und ganz wichtig: Vor der Archivierung prüft der Mitarbeiter die Scans visuell auf Vollständig- und Lesbarkeit!
Für Privat reicht z.B. auch ein einfaches Scanprogramm wie NAPS2. Du scannst Deine Dokumente mit NAPS2. Bereitest dann die einzelnen Scans auf und prüfst auf Vollständig- und Lesbarkeit, entfernst evtl. vorhandene Leer- bzw- unerwünschte Seiten. Dann exportierst Du Deine Dokumente aus NAPS2 in den Input-Ordner des DMS. Das wäre dann der saubere Weg.
Gruß
Dirk
Zitat von @StefanKittel:
Man könnte mit Skripten die einzelnen Seiten scannen und mit OCR den Text auslesen.
Kein Text = leer
Ist natürlich Gefährlich wegen Bildern...
Doch, das geht schon so...Man könnte mit Skripten die einzelnen Seiten scannen und mit OCR den Text auslesen.
Kein Text = leer
Ist natürlich Gefährlich wegen Bildern...
1. wenn man die Dateien in S/W im TIF G4 Format scannt
2. wenn man vor der Texterkennung die Dateigröße prüft (nur Scans 300dpi Seite im Tif G4 Format < 10 KB).
Ich habe so etwas mal für die automatische Archivierung von Fertigungslaufkarten gebaut. Damit haben wir ca. 99% der zu unrecht gescannten Leerseiten rausfiltern können (wurden vom Kopierer nicht als Leerseiten erkannt). Waren hautsächlich Stempel oder Markierungen mit einem Edding, die durch das Papier 'gescannt' wurden.
Lief dann so ab, dass nur Scans < 10 KB überhaupt auf VT geprüft wurden. Wurden hier dann nicht nicht mind. 25 Zeichen erkannt wurde die Seite als Leerseite verworfen.
Zitat von @n0cturne:
Ein Manko hat ecoDMS aber: Wenn ich Dokumente automatisch über einen definierten Scaninput-Ordner automatisch erfasse, werden leere Seiten, die gerade im Duplexscan mal entstehen können, nicht entfernt.
Ein Manko hat ecoDMS aber: Wenn ich Dokumente automatisch über einen definierten Scaninput-Ordner automatisch erfasse, werden leere Seiten, die gerade im Duplexscan mal entstehen können, nicht entfernt.
Gerade beim Duplexscan ist eine leere Seite Bestandteil des Dokumentes (um z.B. zu dokumentieren, dass die Rückseite unbedruckt war). Welchen Sinn sollte es bei der Archivierung machen, Bestandteile des Dokumentes zu löschen?
Gruß,
Jörg
Zitat von @117471:
Gerade beim Duplexscan ist eine leere Seite Bestandteil des Dokumentes (um z.B. zu dokumentieren, dass die Rückseite unbedruckt war). Welchen Sinn sollte es bei der Archivierung machen, Bestandteile des Dokumentes zu löschen?
Bei der Archivierung geht es darum ein Dokument "Inhaltsgleich" zu archivieren (z.B. Lieferschein, Rechnung, usw.). Daher brauchen für den Inhalt des Dokuments nicht relevante Daten auch nicht archiviert zu werden. Das betrifft u.a. Leere Seiten, aber auch z.B. AGB.Gerade beim Duplexscan ist eine leere Seite Bestandteil des Dokumentes (um z.B. zu dokumentieren, dass die Rückseite unbedruckt war). Welchen Sinn sollte es bei der Archivierung machen, Bestandteile des Dokumentes zu löschen?
Und Vorsicht! Urkunden und Verträge dürfen zwar archiviert werden, das Original ist aber unbedingt aufzuheben! Denn nur das Original ist im Falle eines Rechtsstreites gültig.
Zitat von @n0cturne:
Ich möchte die wichtigen analogen Dokumente nicht durch digitale ersetzen. In erster Linie geht es mir um schnelleren Zugriff und Auswertbarkeit - und nicht zuletzt auch um die Technik.
Meine Einstellung dazu ist, entweder Richtig machen oder gar nicht! Ich möchte die wichtigen analogen Dokumente nicht durch digitale ersetzen. In erster Linie geht es mir um schnelleren Zugriff und Auswertbarkeit - und nicht zuletzt auch um die Technik.
Ich verweise in diesem Zusammenhang mal auf die TR-Resiscan des BSI. Ein wichtiger Punkt ist u.a., dass Dokumente vor der Archivierung auf Lesbar- und Vollständigkeit geprüft werden müssen.
Wenn ich Dokumente blind einscanne uns archiviere ist dieser wichtige Grundsatz schon nicht erfüllt. Im Endeffekt kann ich mir das Scannen und archivieren dann auch gleich sparen...
Ach ja, ich gehe mal davon aus, dass auch Volltextindexierung eine Rolle spielt (OCR). Nach dem was ich bisher so gehört habe ist die OCR von EcoDMS nicht so der Bringer.
Was z.B. AGB angeht, empfiehlt der Verbraucherschutz die geltenden AGB zum Zeitpunkt des Vertragsabschlusses aufzubewahren, da diese während der Vertragslaufzeit ihre Gültigkeit behalten. Egal ob ein Provider diese zwischenzeitig geändert hat.
Eben, da Verträge ja ohnehin im Original vorhanden sein müssen, braucht es dann auch keine Archivierung der AGB! Es macht natürlich trotzdem Sinn Verträge zu archivieren. Ist einfach wunderbar, wenn man auf die gescannten Verträge entsprechende Wiedervorlagen für die nächsten Kündigungszeitpunkt erstellt. -> Keine vergessenen Kündigungen mehrObwohl ich seit knapp 20 Jahren immer wieder beruflich mit dem Thema Archivierung zu tun habe, muss ich aber ehrlicherweise gestehen, dass ich das bei mir Privat Alles ohne Archivierung hinbekomme.
Zitat von @MartinAd23:
Wie wäre z.B. ein Programm wie PDF Sam. Darin kannst du PDFs kürzen, zusammenlegen und natürlich auch Seiten einzeln löschen. Mit einem entsprechenden Shell Auftrag auch automatisiert.
Wenn man keine Ahnung hat einfach mal die Fr...e halten. Oder einfach mal die Frage durchlesen, das Problem verstehen und überlegen bevor man postet!Wie wäre z.B. ein Programm wie PDF Sam. Darin kannst du PDFs kürzen, zusammenlegen und natürlich auch Seiten einzeln löschen. Mit einem entsprechenden Shell Auftrag auch automatisiert.
Thema war im Übrigen die vollautomatische Erkennung und Entfernung von Leerseiten aus gescannten PDF.