Seiten innerhalb einer PDF-Datei automatisch sortieren

Hallo miteinander,

unser CAD-System erzeugt eine PDF-Datei mit mehreren hundert Seiten - rechts unten steht die Seitennummer - aber das System gibt die Seiten nicht in der richtigen nummerischen Reihenfolge aus, sondern total durcheinander, entsprechend der vom Kunden vorgegebenen Signalstruktur.

Jetzt müsste man innerhalb dieser PDF-Datei händisch die richte nummerische Seitennummerierung herstellen, was ein fast unendlicher Aufwand ist.

Gibt es keine Möglichkeit oder ein Tool oder Programm, was die Seitennummer unten rechts ausliest und dann die Seiten innerhalb der PDF-Datei richtig sortiert?
Notfalls ginge auch ein Tool/Programm, was die Seitenummer ausliest und jede Seite einzeln mit der Seitennummer im Dateinamen speichert - dann könnten man diese einzelnen PDF-Dateien in der richtigen Reihenfolgen zusammenfügen.

Vielen Dank schon mal im Voraus für eure Hilfe.

Gruß

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 633071

Url: https://administrator.de/forum/seiten-innerhalb-einer-pdf-datei-automatisch-sortieren-633071.html

Ausgedruckt am: 03.08.2025 um 06:08 Uhr

9 Kommentare

Neuester Kommentar

pdftk ist dein Freund.

entsprechend der vom Kunden vorgegebenen Signalstruktur.

Dann entsprechend so abändern das es auch in der richtigen Reihenfolge da ankommt

Ich gehe nicht davon aus, dass das funktioniert.

Wenn ich den TO richtig verstanden habe, sucht er ein Programm, das ihm die Folge der Seitenzahlen, die per OCR in einem bestimmten Bereich der Seiten auszulesen sind auswerfen kann und anhand dieser Folge die Seiten umsortieren kann.

Für letzteres sehe ich pdftk als Lösung, der erste Teil ist die harte Nuss.

Hi,
es komt jetzt drauf an ob du eine kostenlose Lösung für ab und an suchst oder eine die evtl. auch Geld kosten kann.
Ich kenne eine Lösung, die dir das ermöglichen kann. Als VM oder Appliance.
Kannst Du evtl. mal deine Daten (Testdaten) posten?
Wir haben so eine ähnliche Anforderung (etwas komplizierter) damit lösen können und das läuft einfach im Hintergrund und liefert dann ab.
Wen das interessant sein kann, dann schau die mal die Seite von suchy-mips an, sicher muss das noch angepasst werden, aber das tun die auf jeden Fall.

Servas

Frage 1:

Zitat von @Admfafo:

entsprechend der vom Kunden vorgegebenen Signalstruktur.

Ist die anpaßbar?

Frage 2:
Die erzeugten pdf, sind die
a) "Bilddateien" wie vom Scanner ..... sprich eine 10 ist ein gerader Strich und ein Kreis oder
b) "Textdokument" wie z.B. von einem Worddokument ..... sprich eine "0" (null) ist vom Großbuchstaben "O" (Oskar) unterscheidbar.

Hallo,

Danke für die bisherigen Vorschläge.

Die PDF-Dateien sind mit Acrobat erzeugt und die Textinhalte als Text auch suchbar - um die Seitenummer zu identifizieren, müsste man eher die Position auf dem Blatt definieren können (rechts unten) und als Sortierkriterium nutzen.

Die Signalstruktur ist leider nicht anpassbar.

Hallo,

die Lösung müsste nicht kostenlos sein, dieses Problem haben wir öfters.

Hier ein Beispiel einer entsprechenden Seite - die Seitenzahl ist rot markiert:

Kofax AutoStore sollte helfen können.
Ist nicht ganz einfach, erlaubt aber u.a. OCR-Zoning.

Wenn man ein Beispiel PDF hätte könnte man mal ein Test-Export via pdftk machen wenn die Seitenzahl sowieso schon als Text vorliegt lässt sich das sicher über einen Regex machen. Dann ginge es z.B. auch mit ein paar Zeilen über itextsharp und Powershell.
Beispiele wie solche Dinge funktionieren gibt es hier im Forum einige, z.B. eins
Powerhellskript zum Auslesen von Kundennummern aus diversen PDFs, mit anschließender Umbenennung der Datei

Servus @Admfafo,
wenn du Interesse hast kannst du mich gerne via PN anschreiben. Mit einem Sample einer deiner PDF-Dateien kann ich dir unkompliziert ein Powershell-Skript zusammenstellen was das Gewünschte für dich erledigt.

Oder falls du selbst Hand an den Regular Expression Pattern legen kannst dann hier ein Download für ein Demo-Projekt mit dem Powershell-Skript und einem Beispiel-PDF:

Download hier pdf_sort_pages_633071.zip

Das Skript verarbeitet eine ganze Ordnerstruktur inkl. Unterordner und erstellt Kopien von den Dokumenten in einem separaten Ordner in der gleichen Ordnerstruktur wie in der Quelle. Seiten bei denen keine Seitennummer extrahiert werden kann werden im Skript ans Ende der Datei verschoben.

Vorher (unsortiert):