admfafo
Goto Top

Seiten innerhalb einer PDF-Datei automatisch sortieren

Hallo miteinander,

unser CAD-System erzeugt eine PDF-Datei mit mehreren hundert Seiten - rechts unten steht die Seitennummer - aber das System gibt die Seiten nicht in der richtigen nummerischen Reihenfolge aus, sondern total durcheinander, entsprechend der vom Kunden vorgegebenen Signalstruktur.

Jetzt müsste man innerhalb dieser PDF-Datei händisch die richte nummerische Seitennummerierung herstellen, was ein fast unendlicher Aufwand ist.

Gibt es keine Möglichkeit oder ein Tool oder Programm, was die Seitennummer unten rechts ausliest und dann die Seiten innerhalb der PDF-Datei richtig sortiert?
Notfalls ginge auch ein Tool/Programm, was die Seitenummer ausliest und jede Seite einzeln mit der Seitennummer im Dateinamen speichert - dann könnten man diese einzelnen PDF-Dateien in der richtigen Reihenfolgen zusammenfügen.

Vielen Dank schon mal im Voraus für eure Hilfe.

Gruß

Content-Key: 633071

Url: https://administrator.de/contentid/633071

Printed on: April 18, 2024 at 16:04 o'clock

Mitglied: 146707
146707 Dec 18, 2020 updated at 14:56:35 (UTC)
Goto Top
pdftk ist dein Freund.

entsprechend der vom Kunden vorgegebenen Signalstruktur.
Dann entsprechend so abändern das es auch in der richtigen Reihenfolge da ankommt face-smile
Member: beidermachtvongreyscull
beidermachtvongreyscull Dec 18, 2020 at 17:40:27 (UTC)
Goto Top
Ich gehe nicht davon aus, dass das funktioniert.

Wenn ich den TO richtig verstanden habe, sucht er ein Programm, das ihm die Folge der Seitenzahlen, die per OCR in einem bestimmten Bereich der Seiten auszulesen sind auswerfen kann und anhand dieser Folge die Seiten umsortieren kann.

Für letzteres sehe ich pdftk als Lösung, der erste Teil ist die harte Nuss.
Member: duckknight
duckknight Dec 18, 2020 at 21:58:57 (UTC)
Goto Top
Hi,
es komt jetzt drauf an ob du eine kostenlose Lösung für ab und an suchst oder eine die evtl. auch Geld kosten kann.
Ich kenne eine Lösung, die dir das ermöglichen kann. Als VM oder Appliance.
Kannst Du evtl. mal deine Daten (Testdaten) posten?
Wir haben so eine ähnliche Anforderung (etwas komplizierter) damit lösen können und das läuft einfach im Hintergrund und liefert dann ab.
Wen das interessant sein kann, dann schau die mal die Seite von suchy-mips an, sicher muss das noch angepasst werden, aber das tun die auf jeden Fall.
Member: Franz-Josef-II
Franz-Josef-II Dec 19, 2020 at 11:11:34 (UTC)
Goto Top
Servas

Frage 1:

Zitat von @Admfafo:
entsprechend der vom Kunden vorgegebenen Signalstruktur.

Ist die anpaßbar?


Frage 2:
Die erzeugten pdf, sind die
a) "Bilddateien" wie vom Scanner ..... sprich eine 10 ist ein gerader Strich und ein Kreis oder
b) "Textdokument" wie z.B. von einem Worddokument ..... sprich eine "0" (null) ist vom Großbuchstaben "O" (Oskar) unterscheidbar.
Member: Admfafo
Admfafo Dec 21, 2020 at 07:43:42 (UTC)
Goto Top
Hallo,

Danke für die bisherigen Vorschläge.

Die PDF-Dateien sind mit Acrobat erzeugt und die Textinhalte als Text auch suchbar - um die Seitenummer zu identifizieren, müsste man eher die Position auf dem Blatt definieren können (rechts unten) und als Sortierkriterium nutzen.

Die Signalstruktur ist leider nicht anpassbar.
Member: Admfafo
Admfafo Dec 21, 2020 at 07:49:04 (UTC)
Goto Top
Hallo,

die Lösung müsste nicht kostenlos sein, dieses Problem haben wir öfters.

Hier ein Beispiel einer entsprechenden Seite - die Seitenzahl ist rot markiert:
pdfexample
Member: beidermachtvongreyscull
beidermachtvongreyscull Dec 21, 2020 at 14:01:37 (UTC)
Goto Top
Kofax AutoStore sollte helfen können.
Ist nicht ganz einfach, erlaubt aber u.a. OCR-Zoning.
Mitglied: 146707
146707 Dec 21, 2020 updated at 16:39:48 (UTC)
Goto Top
Wenn man ein Beispiel PDF hätte könnte man mal ein Test-Export via pdftk machen wenn die Seitenzahl sowieso schon als Text vorliegt lässt sich das sicher über einen Regex machen. Dann ginge es z.B. auch mit ein paar Zeilen über itextsharp und Powershell.
Beispiele wie solche Dinge funktionieren gibt es hier im Forum einige, z.B. eins
Powerhellskript zum Auslesen von Kundennummern aus diversen PDFs, mit anschließender Umbenennung der Datei
Member: colinardo
colinardo Dec 28, 2020, updated at Dec 29, 2020 at 09:56:10 (UTC)
Goto Top
Servus @Admfafo,
wenn du Interesse hast kannst du mich gerne via PN anschreiben. Mit einem Sample einer deiner PDF-Dateien kann ich dir unkompliziert ein Powershell-Skript zusammenstellen was das Gewünschte für dich erledigt.

Oder falls du selbst Hand an den Regular Expression Pattern legen kannst dann hier ein Download für ein Demo-Projekt mit dem Powershell-Skript und einem Beispiel-PDF:
back-to-topDownload hier pdf_sort_pages_633071.zip

Das Skript verarbeitet eine ganze Ordnerstruktur inkl. Unterordner und erstellt Kopien von den Dokumenten in einem separaten Ordner in der gleichen Ordnerstruktur wie in der Quelle. Seiten bei denen keine Seitennummer extrahiert werden kann werden im Skript ans Ende der Datei verschoben.

back-to-topVorher (unsortiert):

screenshot

back-to-topNachher (sortiert):

screenshot

Grüße Uwe