ad-min
Goto Top

PDF Überschriften auslesen

Schönen Abend,

ich habe ca. 300 PDF-Dateien (unterschiedliche PDF-Versionen) mit jeweils 8 Seiten und ungefähr 3.500 Überschriften.

Die Überschriften sind auf 2 verschiedene Arten formatiert (einmal größer einmal kleiner), sind aber eindeutig vom restlichen Text zu unterscheiden.
Die PDFs waren für den Druck gedacht, haben also keine Überschriften in den Metadaten.

Jetzt meine Frage: Gibt es eine Möglichkeit, diese Überschriften auszulesen und in eine Datei zu schreiben? Ich habe von Möglichkeiten gelesen, bei denen die Dokumente stets gleich aufgebaut waren. Bis jetzt konnte ich aber noch nichts finden, das anhand der Formatierung selektiert.

Die eigentlichen PDFs kann ich hier leider nicht zeigen, wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.

Schöne Grüße
ad-min

Content-Key: 502719

Url: https://administrator.de/contentid/502719

Printed on: April 19, 2024 at 16:04 o'clock

Member: beidermachtvongreyscull
beidermachtvongreyscull Oct 09, 2019 updated at 20:12:27 (UTC)
Goto Top
Guten Abend,

ja. ich kenne zwei Lösungen:

https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/sof ...

Paperstream Capture Pro

und

Kofax AutoStore (vormals NSi Autostore)

https://www.kofax.de/products/controlsuite/autostore

Wer hätte gedacht, dass Nuance mal den Krempel weiterverkauft...

AutoStore ist recht teuer, aber irre gut (Serverlösung). Ich spreche aus Erfahrung.

PaperStream ist eher eine Einzelplatzlösung aber auch gut, um Metadaten aus PDFs zu ziehen.

Voraussetzung:
Die zu ziehenden Daten befinden sich immer in den gleichen Zonen.
Mitglied: 141320
141320 Oct 10, 2019 updated at 07:37:00 (UTC)
Goto Top
wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.
Wäre ja mal ein Anfang. Sonst muss man sich aber Millionen mögliche Varianten aus den Fingern saugen, und am Ende passt es dann doch nicht. Mit entsprechendem Regex und Analyse der PDFs ist das kein Problem auch per Skript sowas zu lösen, dafür bedarf es jedoch zur Analyse die Originalstruktur der PDFs, denn erklären wie sowas im einzelnen geht würde hier zu lange dauern, da es einfach zu viele Varianten gibt und diese gilt es eben zu berücksichtigen.
Member: colinardo
colinardo Oct 11, 2019 updated at 14:46:13 (UTC)
Goto Top
Servus @ad-min ,
mit etwas Powershell lässt sich das machen sofern die PDFs maschinenlesbaren Text enthalten (andernfalls müsste mehr Aufwand mit OCR Parser getrieben werden)
Hier ein Demo-Package (Skript und 2 Test-PDFs)
back-to-topextract_pdf_headers_502719.zip

Mit der Mindestgröße der Überschriften für die Erkennung kann man im Skript mit einer Variablen spielen so das es entsprechend auf die verwendeten PDFs passt.

Hier eine Vorschau:

Zwei PDFs

screenshot

screenshot

Ausführung des Skripts:

screenshot

Ergebnis:

screenshot

Anpassung an Spezialfälle nehme ich gerne gegen Aufwandsentschädigung via PN entgegen.

Viel Spaß damit.
Grüße Uwe
Member: ad-min
ad-min Oct 12, 2019 updated at 07:55:14 (UTC)
Goto Top
Guten Morgen @colinardo,

ich wollte noch fragen, funktioniert das auch, wenn der Text 2-spaltig ist?

sample

Überschriften rot markiert

LG ad-min
Member: colinardo
colinardo Oct 12, 2019 updated at 08:04:26 (UTC)
Goto Top
Generell schon, kommt aber auf die Rendering-Engine an wie diese die Reihenfolge der Objekte angelegt. Details kann ich aber nur mit einer entsprechend vorliegenden Beispielseite nennen.