Seiten innerhalb einer PDF-Datei automatisch sortieren
Hallo miteinander,
unser CAD-System erzeugt eine PDF-Datei mit mehreren hundert Seiten - rechts unten steht die Seitennummer - aber das System gibt die Seiten nicht in der richtigen nummerischen Reihenfolge aus, sondern total durcheinander, entsprechend der vom Kunden vorgegebenen Signalstruktur.
Jetzt müsste man innerhalb dieser PDF-Datei händisch die richte nummerische Seitennummerierung herstellen, was ein fast unendlicher Aufwand ist.
Gibt es keine Möglichkeit oder ein Tool oder Programm, was die Seitennummer unten rechts ausliest und dann die Seiten innerhalb der PDF-Datei richtig sortiert?
Notfalls ginge auch ein Tool/Programm, was die Seitenummer ausliest und jede Seite einzeln mit der Seitennummer im Dateinamen speichert - dann könnten man diese einzelnen PDF-Dateien in der richtigen Reihenfolgen zusammenfügen.
Vielen Dank schon mal im Voraus für eure Hilfe.
Gruß
unser CAD-System erzeugt eine PDF-Datei mit mehreren hundert Seiten - rechts unten steht die Seitennummer - aber das System gibt die Seiten nicht in der richtigen nummerischen Reihenfolge aus, sondern total durcheinander, entsprechend der vom Kunden vorgegebenen Signalstruktur.
Jetzt müsste man innerhalb dieser PDF-Datei händisch die richte nummerische Seitennummerierung herstellen, was ein fast unendlicher Aufwand ist.
Gibt es keine Möglichkeit oder ein Tool oder Programm, was die Seitennummer unten rechts ausliest und dann die Seiten innerhalb der PDF-Datei richtig sortiert?
Notfalls ginge auch ein Tool/Programm, was die Seitenummer ausliest und jede Seite einzeln mit der Seitennummer im Dateinamen speichert - dann könnten man diese einzelnen PDF-Dateien in der richtigen Reihenfolgen zusammenfügen.
Vielen Dank schon mal im Voraus für eure Hilfe.
Gruß
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 633071
Url: https://administrator.de/contentid/633071
Ausgedruckt am: 22.11.2024 um 12:11 Uhr
9 Kommentare
Neuester Kommentar
pdftk ist dein Freund.
entsprechend der vom Kunden vorgegebenen Signalstruktur.
Dann entsprechend so abändern das es auch in der richtigen Reihenfolge da ankommt
Ich gehe nicht davon aus, dass das funktioniert.
Wenn ich den TO richtig verstanden habe, sucht er ein Programm, das ihm die Folge der Seitenzahlen, die per OCR in einem bestimmten Bereich der Seiten auszulesen sind auswerfen kann und anhand dieser Folge die Seiten umsortieren kann.
Für letzteres sehe ich pdftk als Lösung, der erste Teil ist die harte Nuss.
Wenn ich den TO richtig verstanden habe, sucht er ein Programm, das ihm die Folge der Seitenzahlen, die per OCR in einem bestimmten Bereich der Seiten auszulesen sind auswerfen kann und anhand dieser Folge die Seiten umsortieren kann.
Für letzteres sehe ich pdftk als Lösung, der erste Teil ist die harte Nuss.
Hi,
es komt jetzt drauf an ob du eine kostenlose Lösung für ab und an suchst oder eine die evtl. auch Geld kosten kann.
Ich kenne eine Lösung, die dir das ermöglichen kann. Als VM oder Appliance.
Kannst Du evtl. mal deine Daten (Testdaten) posten?
Wir haben so eine ähnliche Anforderung (etwas komplizierter) damit lösen können und das läuft einfach im Hintergrund und liefert dann ab.
Wen das interessant sein kann, dann schau die mal die Seite von suchy-mips an, sicher muss das noch angepasst werden, aber das tun die auf jeden Fall.
es komt jetzt drauf an ob du eine kostenlose Lösung für ab und an suchst oder eine die evtl. auch Geld kosten kann.
Ich kenne eine Lösung, die dir das ermöglichen kann. Als VM oder Appliance.
Kannst Du evtl. mal deine Daten (Testdaten) posten?
Wir haben so eine ähnliche Anforderung (etwas komplizierter) damit lösen können und das läuft einfach im Hintergrund und liefert dann ab.
Wen das interessant sein kann, dann schau die mal die Seite von suchy-mips an, sicher muss das noch angepasst werden, aber das tun die auf jeden Fall.
Servas
Frage 1:
Ist die anpaßbar?
Frage 2:
Die erzeugten pdf, sind die
a) "Bilddateien" wie vom Scanner ..... sprich eine 10 ist ein gerader Strich und ein Kreis oder
b) "Textdokument" wie z.B. von einem Worddokument ..... sprich eine "0" (null) ist vom Großbuchstaben "O" (Oskar) unterscheidbar.
Frage 1:
Ist die anpaßbar?
Frage 2:
Die erzeugten pdf, sind die
a) "Bilddateien" wie vom Scanner ..... sprich eine 10 ist ein gerader Strich und ein Kreis oder
b) "Textdokument" wie z.B. von einem Worddokument ..... sprich eine "0" (null) ist vom Großbuchstaben "O" (Oskar) unterscheidbar.
Wenn man ein Beispiel PDF hätte könnte man mal ein Test-Export via pdftk machen wenn die Seitenzahl sowieso schon als Text vorliegt lässt sich das sicher über einen Regex machen. Dann ginge es z.B. auch mit ein paar Zeilen über itextsharp und Powershell.
Beispiele wie solche Dinge funktionieren gibt es hier im Forum einige, z.B. eins
Powerhellskript zum Auslesen von Kundennummern aus diversen PDFs, mit anschließender Umbenennung der Datei
Beispiele wie solche Dinge funktionieren gibt es hier im Forum einige, z.B. eins
Powerhellskript zum Auslesen von Kundennummern aus diversen PDFs, mit anschließender Umbenennung der Datei
Servus @Admfafo,
wenn du Interesse hast kannst du mich gerne via PN anschreiben. Mit einem Sample einer deiner PDF-Dateien kann ich dir unkompliziert ein Powershell-Skript zusammenstellen was das Gewünschte für dich erledigt.
Oder falls du selbst Hand an den Regular Expression Pattern legen kannst dann hier ein Download für ein Demo-Projekt mit dem Powershell-Skript und einem Beispiel-PDF:
Das Skript verarbeitet eine ganze Ordnerstruktur inkl. Unterordner und erstellt Kopien von den Dokumenten in einem separaten Ordner in der gleichen Ordnerstruktur wie in der Quelle. Seiten bei denen keine Seitennummer extrahiert werden kann werden im Skript ans Ende der Datei verschoben.
Grüße Uwe
wenn du Interesse hast kannst du mich gerne via PN anschreiben. Mit einem Sample einer deiner PDF-Dateien kann ich dir unkompliziert ein Powershell-Skript zusammenstellen was das Gewünschte für dich erledigt.
Oder falls du selbst Hand an den Regular Expression Pattern legen kannst dann hier ein Download für ein Demo-Projekt mit dem Powershell-Skript und einem Beispiel-PDF:
Download hier pdf_sort_pages_633071.zip
Das Skript verarbeitet eine ganze Ordnerstruktur inkl. Unterordner und erstellt Kopien von den Dokumenten in einem separaten Ordner in der gleichen Ordnerstruktur wie in der Quelle. Seiten bei denen keine Seitennummer extrahiert werden kann werden im Skript ans Ende der Datei verschoben.
Vorher (unsortiert):
Nachher (sortiert):
Grüße Uwe