PDF Überschriften auslesen

Schönen Abend,

ich habe ca. 300 PDF-Dateien (unterschiedliche PDF-Versionen) mit jeweils 8 Seiten und ungefähr 3.500 Überschriften.

Die Überschriften sind auf 2 verschiedene Arten formatiert (einmal größer einmal kleiner), sind aber eindeutig vom restlichen Text zu unterscheiden.
Die PDFs waren für den Druck gedacht, haben also keine Überschriften in den Metadaten.

Jetzt meine Frage: Gibt es eine Möglichkeit, diese Überschriften auszulesen und in eine Datei zu schreiben? Ich habe von Möglichkeiten gelesen, bei denen die Dokumente stets gleich aufgebaut waren. Bis jetzt konnte ich aber noch nichts finden, das anhand der Formatierung selektiert.

Die eigentlichen PDFs kann ich hier leider nicht zeigen, wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.

Schöne Grüße
ad-min

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 502719

Url: https://administrator.de/forum/pdf-ueberschriften-auslesen-502719.html

Ausgedruckt am: 22.07.2025 um 21:07 Uhr

5 Kommentare

Neuester Kommentar

Guten Abend,

ja. ich kenne zwei Lösungen:

fujitsu.com/de/products/computing/peripheral/scanners/fi/softwar ...

Paperstream Capture Pro

und

Kofax AutoStore (vormals NSi Autostore)

kofax.de/products/controlsuite/autostore

Wer hätte gedacht, dass Nuance mal den Krempel weiterverkauft...

AutoStore ist recht teuer, aber irre gut (Serverlösung). Ich spreche aus Erfahrung.

PaperStream ist eher eine Einzelplatzlösung aber auch gut, um Metadaten aus PDFs zu ziehen.

Voraussetzung:
Die zu ziehenden Daten befinden sich immer in den gleichen Zonen.

wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.

Wäre ja mal ein Anfang. Sonst muss man sich aber Millionen mögliche Varianten aus den Fingern saugen, und am Ende passt es dann doch nicht. Mit entsprechendem Regex und Analyse der PDFs ist das kein Problem auch per Skript sowas zu lösen, dafür bedarf es jedoch zur Analyse die Originalstruktur der PDFs, denn erklären wie sowas im einzelnen geht würde hier zu lange dauern, da es einfach zu viele Varianten gibt und diese gilt es eben zu berücksichtigen.

Servus @ad-min ,
mit etwas Powershell lässt sich das machen sofern die PDFs maschinenlesbaren Text enthalten (andernfalls müsste mehr Aufwand mit OCR Parser getrieben werden)
Hier ein Demo-Package (Skript und 2 Test-PDFs)

extract_pdf_headers_502719.zip

Mit der Mindestgröße der Überschriften für die Erkennung kann man im Skript mit einer Variablen spielen so das es entsprechend auf die verwendeten PDFs passt.

Hier eine Vorschau:

Zwei PDFs

Ausführung des Skripts:

Ergebnis:

Anpassung an Spezialfälle nehme ich gerne gegen Aufwandsentschädigung via PN entgegen.

Viel Spaß damit.
Grüße Uwe

Guten Morgen @colinardo,

ich wollte noch fragen, funktioniert das auch, wenn der Text 2-spaltig ist?

Überschriften rot markiert

LG ad-min

Generell schon, kommt aber auf die Rendering-Engine an wie diese die Reihenfolge der Objekte angelegt. Details kann ich aber nur mit einer entsprechend vorliegenden Beispielseite nennen.

Frage Entwicklung

Mehr von ad-min

Umgestaltung der Adressleiste in Firefox 75.0ad-min - 2 Kommentare

PS Get-Content - sicheres Einlesen von Dateienad-min - 5 Kommentare

Application Whitelisting Windows 10 Proad-min - 4 Kommentare

Automatische Updates Win10Pro konfigurieren?ad-min - 5 Kommentare

Heiß diskutiert