PDF Überschriften auslesen
Schönen Abend,
ich habe ca. 300 PDF-Dateien (unterschiedliche PDF-Versionen) mit jeweils 8 Seiten und ungefähr 3.500 Überschriften.
Die Überschriften sind auf 2 verschiedene Arten formatiert (einmal größer einmal kleiner), sind aber eindeutig vom restlichen Text zu unterscheiden.
Die PDFs waren für den Druck gedacht, haben also keine Überschriften in den Metadaten.
Jetzt meine Frage: Gibt es eine Möglichkeit, diese Überschriften auszulesen und in eine Datei zu schreiben? Ich habe von Möglichkeiten gelesen, bei denen die Dokumente stets gleich aufgebaut waren. Bis jetzt konnte ich aber noch nichts finden, das anhand der Formatierung selektiert.
Die eigentlichen PDFs kann ich hier leider nicht zeigen, wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.
Schöne Grüße
ad-min
ich habe ca. 300 PDF-Dateien (unterschiedliche PDF-Versionen) mit jeweils 8 Seiten und ungefähr 3.500 Überschriften.
Die Überschriften sind auf 2 verschiedene Arten formatiert (einmal größer einmal kleiner), sind aber eindeutig vom restlichen Text zu unterscheiden.
Die PDFs waren für den Druck gedacht, haben also keine Überschriften in den Metadaten.
Jetzt meine Frage: Gibt es eine Möglichkeit, diese Überschriften auszulesen und in eine Datei zu schreiben? Ich habe von Möglichkeiten gelesen, bei denen die Dokumente stets gleich aufgebaut waren. Bis jetzt konnte ich aber noch nichts finden, das anhand der Formatierung selektiert.
Die eigentlichen PDFs kann ich hier leider nicht zeigen, wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.
Schöne Grüße
ad-min
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 502719
Url: https://administrator.de/contentid/502719
Ausgedruckt am: 23.11.2024 um 02:11 Uhr
5 Kommentare
Neuester Kommentar
Guten Abend,
ja. ich kenne zwei Lösungen:
https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/sof ...
Paperstream Capture Pro
und
Kofax AutoStore (vormals NSi Autostore)
https://www.kofax.de/products/controlsuite/autostore
Wer hätte gedacht, dass Nuance mal den Krempel weiterverkauft...
AutoStore ist recht teuer, aber irre gut (Serverlösung). Ich spreche aus Erfahrung.
PaperStream ist eher eine Einzelplatzlösung aber auch gut, um Metadaten aus PDFs zu ziehen.
Voraussetzung:
Die zu ziehenden Daten befinden sich immer in den gleichen Zonen.
ja. ich kenne zwei Lösungen:
https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/sof ...
Paperstream Capture Pro
und
Kofax AutoStore (vormals NSi Autostore)
https://www.kofax.de/products/controlsuite/autostore
Wer hätte gedacht, dass Nuance mal den Krempel weiterverkauft...
AutoStore ist recht teuer, aber irre gut (Serverlösung). Ich spreche aus Erfahrung.
PaperStream ist eher eine Einzelplatzlösung aber auch gut, um Metadaten aus PDFs zu ziehen.
Voraussetzung:
Die zu ziehenden Daten befinden sich immer in den gleichen Zonen.
wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.
Wäre ja mal ein Anfang. Sonst muss man sich aber Millionen mögliche Varianten aus den Fingern saugen, und am Ende passt es dann doch nicht. Mit entsprechendem Regex und Analyse der PDFs ist das kein Problem auch per Skript sowas zu lösen, dafür bedarf es jedoch zur Analyse die Originalstruktur der PDFs, denn erklären wie sowas im einzelnen geht würde hier zu lange dauern, da es einfach zu viele Varianten gibt und diese gilt es eben zu berücksichtigen.
Servus @ad-min ,
mit etwas Powershell lässt sich das machen sofern die PDFs maschinenlesbaren Text enthalten (andernfalls müsste mehr Aufwand mit OCR Parser getrieben werden)
Hier ein Demo-Package (Skript und 2 Test-PDFs)
Mit der Mindestgröße der Überschriften für die Erkennung kann man im Skript mit einer Variablen spielen so das es entsprechend auf die verwendeten PDFs passt.
Hier eine Vorschau:
Zwei PDFs
Ausführung des Skripts:
Ergebnis:
Anpassung an Spezialfälle nehme ich gerne gegen Aufwandsentschädigung via PN entgegen.
Viel Spaß damit.
Grüße Uwe
mit etwas Powershell lässt sich das machen sofern die PDFs maschinenlesbaren Text enthalten (andernfalls müsste mehr Aufwand mit OCR Parser getrieben werden)
Hier ein Demo-Package (Skript und 2 Test-PDFs)
extract_pdf_headers_502719.zip
Mit der Mindestgröße der Überschriften für die Erkennung kann man im Skript mit einer Variablen spielen so das es entsprechend auf die verwendeten PDFs passt.
Hier eine Vorschau:
Zwei PDFs
Ausführung des Skripts:
Ergebnis:
Anpassung an Spezialfälle nehme ich gerne gegen Aufwandsentschädigung via PN entgegen.
Viel Spaß damit.
Grüße Uwe