Oct 09, 2019

1509

PDF Überschriften auslesen

Schönen Abend,

ich habe ca. 300 PDF-Dateien (unterschiedliche PDF-Versionen) mit jeweils 8 Seiten und ungefähr 3.500 Überschriften.

Die Überschriften sind auf 2 verschiedene Arten formatiert (einmal größer einmal kleiner), sind aber eindeutig vom restlichen Text zu unterscheiden.
Die PDFs waren für den Druck gedacht, haben also keine Überschriften in den Metadaten.

Jetzt meine Frage: Gibt es eine Möglichkeit, diese Überschriften auszulesen und in eine Datei zu schreiben? Ich habe von Möglichkeiten gelesen, bei denen die Dokumente stets gleich aufgebaut waren. Bis jetzt konnte ich aber noch nichts finden, das anhand der Formatierung selektiert.

Die eigentlichen PDFs kann ich hier leider nicht zeigen, wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.

Schöne Grüße
ad-min

Please also mark the comments that contributed to the solution of the article

Content-Key: 502719

Url: https://administrator.de/contentid/502719

Printed on: April 19, 2024 at 16:04 o'clock

5 Comments

Latest comment

Guten Abend,

ja. ich kenne zwei Lösungen:

https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/sof ...

Paperstream Capture Pro

und

Kofax AutoStore (vormals NSi Autostore)

https://www.kofax.de/products/controlsuite/autostore

Wer hätte gedacht, dass Nuance mal den Krempel weiterverkauft...

AutoStore ist recht teuer, aber irre gut (Serverlösung). Ich spreche aus Erfahrung.

PaperStream ist eher eine Einzelplatzlösung aber auch gut, um Metadaten aus PDFs zu ziehen.

Voraussetzung:
Die zu ziehenden Daten befinden sich immer in den gleichen Zonen.

wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.

Wäre ja mal ein Anfang. Sonst muss man sich aber Millionen mögliche Varianten aus den Fingern saugen, und am Ende passt es dann doch nicht. Mit entsprechendem Regex und Analyse der PDFs ist das kein Problem auch per Skript sowas zu lösen, dafür bedarf es jedoch zur Analyse die Originalstruktur der PDFs, denn erklären wie sowas im einzelnen geht würde hier zu lange dauern, da es einfach zu viele Varianten gibt und diese gilt es eben zu berücksichtigen.

Servus @ad-min ,
mit etwas Powershell lässt sich das machen sofern die PDFs maschinenlesbaren Text enthalten (andernfalls müsste mehr Aufwand mit OCR Parser getrieben werden)
Hier ein Demo-Package (Skript und 2 Test-PDFs)

extract_pdf_headers_502719.zip

Mit der Mindestgröße der Überschriften für die Erkennung kann man im Skript mit einer Variablen spielen so das es entsprechend auf die verwendeten PDFs passt.

Hier eine Vorschau:

Zwei PDFs

Ausführung des Skripts:

Ergebnis:

Anpassung an Spezialfälle nehme ich gerne gegen Aufwandsentschädigung via PN entgegen.

Viel Spaß damit.
Grüße Uwe

Guten Morgen @colinardo,

ich wollte noch fragen, funktioniert das auch, wenn der Text 2-spaltig ist?

Überschriften rot markiert

LG ad-min

Generell schon, kommt aber auf die Rendering-Engine an wie diese die Reihenfolge der Objekte angelegt. Details kann ich aber nur mit einer entsprechend vorliegenden Beispielseite nennen.

German Question Development

Hotly discussed

Check of ZFW Firewallgleixnerd - 3 Comments

How to set up and configure a Linux GRE tunnelAlexWisha - 3 Comments

WIREGUARD VPN ON UDM PRO BEHIND FRITZBOX - HANDSHAKE DID NOT COMPLETEjstricker - 3 Comments

End of Support dates for Office 2016, 2019 Apps und Productivity ServersDani - 1 Comment