admfafo
Goto Top

Seiten innerhalb einer PDF-Datei automatisch sortieren

Hallo miteinander,

unser CAD-System erzeugt eine PDF-Datei mit mehreren hundert Seiten - rechts unten steht die Seitennummer - aber das System gibt die Seiten nicht in der richtigen nummerischen Reihenfolge aus, sondern total durcheinander, entsprechend der vom Kunden vorgegebenen Signalstruktur.

Jetzt müsste man innerhalb dieser PDF-Datei händisch die richte nummerische Seitennummerierung herstellen, was ein fast unendlicher Aufwand ist.

Gibt es keine Möglichkeit oder ein Tool oder Programm, was die Seitennummer unten rechts ausliest und dann die Seiten innerhalb der PDF-Datei richtig sortiert?
Notfalls ginge auch ein Tool/Programm, was die Seitenummer ausliest und jede Seite einzeln mit der Seitennummer im Dateinamen speichert - dann könnten man diese einzelnen PDF-Dateien in der richtigen Reihenfolgen zusammenfügen.

Vielen Dank schon mal im Voraus für eure Hilfe.

Gruß

Content-ID: 633071

Url: https://administrator.de/contentid/633071

Ausgedruckt am: 22.11.2024 um 12:11 Uhr

146707
146707 18.12.2020 aktualisiert um 15:56:35 Uhr
Goto Top
pdftk ist dein Freund.

entsprechend der vom Kunden vorgegebenen Signalstruktur.
Dann entsprechend so abändern das es auch in der richtigen Reihenfolge da ankommt face-smile
beidermachtvongreyscull
beidermachtvongreyscull 18.12.2020 um 18:40:27 Uhr
Goto Top
Ich gehe nicht davon aus, dass das funktioniert.

Wenn ich den TO richtig verstanden habe, sucht er ein Programm, das ihm die Folge der Seitenzahlen, die per OCR in einem bestimmten Bereich der Seiten auszulesen sind auswerfen kann und anhand dieser Folge die Seiten umsortieren kann.

Für letzteres sehe ich pdftk als Lösung, der erste Teil ist die harte Nuss.
duckknight
duckknight 18.12.2020 um 22:58:57 Uhr
Goto Top
Hi,
es komt jetzt drauf an ob du eine kostenlose Lösung für ab und an suchst oder eine die evtl. auch Geld kosten kann.
Ich kenne eine Lösung, die dir das ermöglichen kann. Als VM oder Appliance.
Kannst Du evtl. mal deine Daten (Testdaten) posten?
Wir haben so eine ähnliche Anforderung (etwas komplizierter) damit lösen können und das läuft einfach im Hintergrund und liefert dann ab.
Wen das interessant sein kann, dann schau die mal die Seite von suchy-mips an, sicher muss das noch angepasst werden, aber das tun die auf jeden Fall.
Franz-Josef-II
Franz-Josef-II 19.12.2020 um 12:11:34 Uhr
Goto Top
Servas

Frage 1:

Zitat von @Admfafo:
entsprechend der vom Kunden vorgegebenen Signalstruktur.

Ist die anpaßbar?


Frage 2:
Die erzeugten pdf, sind die
a) "Bilddateien" wie vom Scanner ..... sprich eine 10 ist ein gerader Strich und ein Kreis oder
b) "Textdokument" wie z.B. von einem Worddokument ..... sprich eine "0" (null) ist vom Großbuchstaben "O" (Oskar) unterscheidbar.
Admfafo
Admfafo 21.12.2020 um 08:43:42 Uhr
Goto Top
Hallo,

Danke für die bisherigen Vorschläge.

Die PDF-Dateien sind mit Acrobat erzeugt und die Textinhalte als Text auch suchbar - um die Seitenummer zu identifizieren, müsste man eher die Position auf dem Blatt definieren können (rechts unten) und als Sortierkriterium nutzen.

Die Signalstruktur ist leider nicht anpassbar.
Admfafo
Admfafo 21.12.2020 um 08:49:04 Uhr
Goto Top
Hallo,

die Lösung müsste nicht kostenlos sein, dieses Problem haben wir öfters.

Hier ein Beispiel einer entsprechenden Seite - die Seitenzahl ist rot markiert:
pdfexample
beidermachtvongreyscull
beidermachtvongreyscull 21.12.2020 um 15:01:37 Uhr
Goto Top
Kofax AutoStore sollte helfen können.
Ist nicht ganz einfach, erlaubt aber u.a. OCR-Zoning.
146707
146707 21.12.2020 aktualisiert um 17:39:48 Uhr
Goto Top
Wenn man ein Beispiel PDF hätte könnte man mal ein Test-Export via pdftk machen wenn die Seitenzahl sowieso schon als Text vorliegt lässt sich das sicher über einen Regex machen. Dann ginge es z.B. auch mit ein paar Zeilen über itextsharp und Powershell.
Beispiele wie solche Dinge funktionieren gibt es hier im Forum einige, z.B. eins
Powerhellskript zum Auslesen von Kundennummern aus diversen PDFs, mit anschließender Umbenennung der Datei
colinardo
colinardo 28.12.2020, aktualisiert am 29.12.2020 um 10:56:10 Uhr
Goto Top
Servus @Admfafo,
wenn du Interesse hast kannst du mich gerne via PN anschreiben. Mit einem Sample einer deiner PDF-Dateien kann ich dir unkompliziert ein Powershell-Skript zusammenstellen was das Gewünschte für dich erledigt.

Oder falls du selbst Hand an den Regular Expression Pattern legen kannst dann hier ein Download für ein Demo-Projekt mit dem Powershell-Skript und einem Beispiel-PDF:
back-to-topDownload hier pdf_sort_pages_633071.zip

Das Skript verarbeitet eine ganze Ordnerstruktur inkl. Unterordner und erstellt Kopien von den Dokumenten in einem separaten Ordner in der gleichen Ordnerstruktur wie in der Quelle. Seiten bei denen keine Seitennummer extrahiert werden kann werden im Skript ans Ende der Datei verschoben.

back-to-topVorher (unsortiert):

screenshot

back-to-topNachher (sortiert):

screenshot

Grüße Uwe