n0cturne
Goto Top

Automatisches Entfernen von leeren Seiten in PDF

Hallo zusammen,

ich bin gerade dabei mir ein privates DMS mit ecoDMS aufzubauen. Das klappt soweit auch so wie ich mir das vorstelle.
Ein Manko hat ecoDMS aber: Wenn ich Dokumente automatisch über einen definierten Scaninput-Ordner automatisch erfasse, werden leere Seiten, die gerade im Duplexscan mal entstehen können, nicht entfernt.

Kennt jemand eine Lösung, mit der man einen Ordner überwachen kann und dort abgelegte PDF-Dateien von leeren Seiten zu befreien um diese anschließend in einen anderen Ordner zu verschieben - das alles vollautomatisch? Von dort aus würde dann ecoDMS den Rest machen.

Ich betreibe ecoDMS in einem Docker-Container, auf meinem QNAP TS-253B (64-Bit x86).
Also helfen mir Lösungsvorschläge, die auf Docker oder Bash basieren.

Beste Grüße
Benjamin

Content-Key: 625240

Url: https://administrator.de/contentid/625240

Printed on: April 24, 2024 at 17:04 o'clock

Member: killtec
killtec Nov 24, 2020 at 11:58:23 (UTC)
Goto Top
Hi,
womit Scans du denn die Dokumente ein. Bei unseren MFP Systemen kann ich die beim Scan direkt entfernen.

Gruß
Member: StefanKittel
StefanKittel Nov 24, 2020 at 12:01:38 (UTC)
Goto Top
Hallo,

ich empfehle auch einen Scanner der leere Seite automatisch entfernen kann.
Denn leer ist nicht gleich leer. ein paar Punkte und ein durchscheinender Hintergrund sind halt nicht leer.

Stefan
Member: n0cturne
n0cturne Nov 24, 2020 updated at 12:09:18 (UTC)
Goto Top
Es ist ein einfaches HP MFP, welches diese Option leider nicht bietet.


Da konnte ich mit dem Justieren des Kontrates ein halbwegs zuverlässiges Ergebnis erzielen.
An die Anschaffung eines neuen MFPs habe ich auch schon gedacht. Aber eigentlich widerstrebt mir das, da mein MFP grundsätzlich gute Arbeit leistet.
Daher möchte ich vorerst mal hier weiter nach Softwärelösungen fragen.
Wenn das alles nichts hilft, würde ich hier dann auf Erfahrungen mit Herstellern und Geräten zurückgreifen wollen.


Danke soweit.
Member: StefanKittel
StefanKittel Nov 24, 2020 at 12:15:09 (UTC)
Goto Top
Hallo,

kann ich nachvollziehen.

Eine fertige Software kenne ich nicht.

Man könnte mit Skripten die einzelnen Seiten scannen und mit OCR den Text auslesen.
Kein Text = leer

Ist natürlich Gefährlich wegen Bildern...

Stefan
Member: monstermania
monstermania Nov 24, 2020 at 12:45:45 (UTC)
Goto Top
Moin,
grundsätzlich ist eine Leerseitenerkennung nur ein Hilfsmittel. Spätestes bei auf der Rückseite aufgedruckten AGB versagt dann ohnehin die beste Leerseitenerkennung!
Daher sind wir in der Firma dazu übergegangen unterschiedliche Scanprofile zu nutzen. Ein- und Doppelseitig. Der MA der scannt macht halt entsprechende Stapel und scannt die dann entsprechend ein.
Und ganz wichtig: Vor der Archivierung prüft der Mitarbeiter die Scans visuell auf Vollständig- und Lesbarkeit!

Für Privat reicht z.B. auch ein einfaches Scanprogramm wie NAPS2. Du scannst Deine Dokumente mit NAPS2. Bereitest dann die einzelnen Scans auf und prüfst auf Vollständig- und Lesbarkeit, entfernst evtl. vorhandene Leer- bzw- unerwünschte Seiten. Dann exportierst Du Deine Dokumente aus NAPS2 in den Input-Ordner des DMS. Das wäre dann der saubere Weg.

Gruß
Dirk
Member: monstermania
monstermania Nov 24, 2020 at 13:01:41 (UTC)
Goto Top
Zitat von @StefanKittel:
Man könnte mit Skripten die einzelnen Seiten scannen und mit OCR den Text auslesen.
Kein Text = leer

Ist natürlich Gefährlich wegen Bildern...
Doch, das geht schon so...
1. wenn man die Dateien in S/W im TIF G4 Format scannt
2. wenn man vor der Texterkennung die Dateigröße prüft (nur Scans 300dpi Seite im Tif G4 Format < 10 KB).

Ich habe so etwas mal für die automatische Archivierung von Fertigungslaufkarten gebaut. Damit haben wir ca. 99% der zu unrecht gescannten Leerseiten rausfiltern können (wurden vom Kopierer nicht als Leerseiten erkannt). Waren hautsächlich Stempel oder Markierungen mit einem Edding, die durch das Papier 'gescannt' wurden.
Lief dann so ab, dass nur Scans < 10 KB überhaupt auf VT geprüft wurden. Wurden hier dann nicht nicht mind. 25 Zeichen erkannt wurde die Seite als Leerseite verworfen.
Mitglied: 117471
117471 Nov 24, 2020 at 14:19:49 (UTC)
Goto Top
Zitat von @n0cturne:

Ein Manko hat ecoDMS aber: Wenn ich Dokumente automatisch über einen definierten Scaninput-Ordner automatisch erfasse, werden leere Seiten, die gerade im Duplexscan mal entstehen können, nicht entfernt.

Gerade beim Duplexscan ist eine leere Seite Bestandteil des Dokumentes (um z.B. zu dokumentieren, dass die Rückseite unbedruckt war). Welchen Sinn sollte es bei der Archivierung machen, Bestandteile des Dokumentes zu löschen?

Gruß,
Jörg
Member: n0cturne
n0cturne Nov 24, 2020 updated at 15:30:32 (UTC)
Goto Top
@StefanKittel und @monstermania: Danke für den Input. Allerdings möchte ich lieber bei PDF bleiben.

@117471: Da ich nicht damit rechne, dass in absehbarer Zukunft die KPMG zu einer privaten Revision zu Besuch kommt, möchte ich unnötigen Scaninput vermeiden. ;) Sieh mir bitte den Sarkasmus nach.
Member: monstermania
monstermania Nov 24, 2020 at 15:35:16 (UTC)
Goto Top
Zitat von @117471:
Gerade beim Duplexscan ist eine leere Seite Bestandteil des Dokumentes (um z.B. zu dokumentieren, dass die Rückseite unbedruckt war). Welchen Sinn sollte es bei der Archivierung machen, Bestandteile des Dokumentes zu löschen?
Bei der Archivierung geht es darum ein Dokument "Inhaltsgleich" zu archivieren (z.B. Lieferschein, Rechnung, usw.). Daher brauchen für den Inhalt des Dokuments nicht relevante Daten auch nicht archiviert zu werden. Das betrifft u.a. Leere Seiten, aber auch z.B. AGB.

Und Vorsicht! Urkunden und Verträge dürfen zwar archiviert werden, das Original ist aber unbedingt aufzuheben! Denn nur das Original ist im Falle eines Rechtsstreites gültig.
Member: n0cturne
n0cturne Nov 24, 2020 updated at 16:09:40 (UTC)
Goto Top
Ich möchte die wichtigen analogen Dokumente nicht durch digitale ersetzen. In erster Linie geht es mir um schnelleren Zugriff und Auswertbarkeit - und nicht zuletzt auch um die Technik.
Was z.B. AGB angeht, empfiehlt der Verbraucherschutz die geltenden AGB zum Zeitpunkt des Vertragsabschlusses aufzubewahren, da diese während der Vertragslaufzeit ihre Gültigkeit behalten. Egal ob ein Provider diese zwischenzeitig geändert hat.
Member: monstermania
monstermania Nov 25, 2020 at 07:19:34 (UTC)
Goto Top
Zitat von @n0cturne:
Ich möchte die wichtigen analogen Dokumente nicht durch digitale ersetzen. In erster Linie geht es mir um schnelleren Zugriff und Auswertbarkeit - und nicht zuletzt auch um die Technik.
Meine Einstellung dazu ist, entweder Richtig machen oder gar nicht! face-wink
Ich verweise in diesem Zusammenhang mal auf die TR-Resiscan des BSI. Ein wichtiger Punkt ist u.a., dass Dokumente vor der Archivierung auf Lesbar- und Vollständigkeit geprüft werden müssen.
Wenn ich Dokumente blind einscanne uns archiviere ist dieser wichtige Grundsatz schon nicht erfüllt. Im Endeffekt kann ich mir das Scannen und archivieren dann auch gleich sparen...
Ach ja, ich gehe mal davon aus, dass auch Volltextindexierung eine Rolle spielt (OCR). Nach dem was ich bisher so gehört habe ist die OCR von EcoDMS nicht so der Bringer.
Was z.B. AGB angeht, empfiehlt der Verbraucherschutz die geltenden AGB zum Zeitpunkt des Vertragsabschlusses aufzubewahren, da diese während der Vertragslaufzeit ihre Gültigkeit behalten. Egal ob ein Provider diese zwischenzeitig geändert hat.
Eben, da Verträge ja ohnehin im Original vorhanden sein müssen, braucht es dann auch keine Archivierung der AGB! Es macht natürlich trotzdem Sinn Verträge zu archivieren. Ist einfach wunderbar, wenn man auf die gescannten Verträge entsprechende Wiedervorlagen für die nächsten Kündigungszeitpunkt erstellt. -> Keine vergessenen Kündigungen mehr

Obwohl ich seit knapp 20 Jahren immer wieder beruflich mit dem Thema Archivierung zu tun habe, muss ich aber ehrlicherweise gestehen, dass ich das bei mir Privat Alles ohne Archivierung hinbekomme. face-wink
Member: MartinAd23
MartinAd23 Jan 11, 2021 at 19:01:37 (UTC)
Goto Top
Hallo,

Wie wäre z.B. ein Programm wie PDF Sam. Darin kannst du PDFs kürzen, zusammenlegen und natürlich auch Seiten einzeln löschen. Mit einem entsprechenden Shell Auftrag auch automatisiert.

VG
Member: monstermania
monstermania Jan 12, 2021 at 07:07:16 (UTC)
Goto Top
Zitat von @MartinAd23:
Wie wäre z.B. ein Programm wie PDF Sam. Darin kannst du PDFs kürzen, zusammenlegen und natürlich auch Seiten einzeln löschen. Mit einem entsprechenden Shell Auftrag auch automatisiert.
Wenn man keine Ahnung hat einfach mal die Fr...e halten. Oder einfach mal die Frage durchlesen, das Problem verstehen und überlegen bevor man postet!
Thema war im Übrigen die vollautomatische Erkennung und Entfernung von Leerseiten aus gescannten PDF. face-smile