Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

PDF Überschriften auslesen

Mitglied: ad-min

ad-min (Level 1) - Jetzt verbinden

09.10.2019 um 20:29 Uhr, 311 Aufrufe, 5 Kommentare, 2 Danke

Schönen Abend,

ich habe ca. 300 PDF-Dateien (unterschiedliche PDF-Versionen) mit jeweils 8 Seiten und ungefähr 3.500 Überschriften.

Die Überschriften sind auf 2 verschiedene Arten formatiert (einmal größer einmal kleiner), sind aber eindeutig vom restlichen Text zu unterscheiden.
Die PDFs waren für den Druck gedacht, haben also keine Überschriften in den Metadaten.

Jetzt meine Frage: Gibt es eine Möglichkeit, diese Überschriften auszulesen und in eine Datei zu schreiben? Ich habe von Möglichkeiten gelesen, bei denen die Dokumente stets gleich aufgebaut waren. Bis jetzt konnte ich aber noch nichts finden, das anhand der Formatierung selektiert.

Die eigentlichen PDFs kann ich hier leider nicht zeigen, wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.

Schöne Grüße
ad-min
Mitglied: beidermachtvongreyscull
09.10.2019, aktualisiert um 22:12 Uhr
Guten Abend,

ja. ich kenne zwei Lösungen:

https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/sof ...

Paperstream Capture Pro

und

Kofax AutoStore (vormals NSi Autostore)

https://www.kofax.de/products/controlsuite/autostore

Wer hätte gedacht, dass Nuance mal den Krempel weiterverkauft...

AutoStore ist recht teuer, aber irre gut (Serverlösung). Ich spreche aus Erfahrung.

PaperStream ist eher eine Einzelplatzlösung aber auch gut, um Metadaten aus PDFs zu ziehen.

Voraussetzung:
Die zu ziehenden Daten befinden sich immer in den gleichen Zonen.
Bitte warten ..
Mitglied: 141320
10.10.2019, aktualisiert um 09:37 Uhr
wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.
Wäre ja mal ein Anfang. Sonst muss man sich aber Millionen mögliche Varianten aus den Fingern saugen, und am Ende passt es dann doch nicht. Mit entsprechendem Regex und Analyse der PDFs ist das kein Problem auch per Skript sowas zu lösen, dafür bedarf es jedoch zur Analyse die Originalstruktur der PDFs, denn erklären wie sowas im einzelnen geht würde hier zu lange dauern, da es einfach zu viele Varianten gibt und diese gilt es eben zu berücksichtigen.
Bitte warten ..
Mitglied: colinardo
11.10.2019, aktualisiert um 16:46 Uhr
Servus @ad-min ,
mit etwas Powershell lässt sich das machen sofern die PDFs maschinenlesbaren Text enthalten (andernfalls müsste mehr Aufwand mit OCR Parser getrieben werden)
Hier ein Demo-Package (Skript und 2 Test-PDFs)

extract_pdf_headers_502719.zip


Mit der Mindestgröße der Überschriften für die Erkennung kann man im Skript mit einer Variablen spielen so das es entsprechend auf die verwendeten PDFs passt.

Hier eine Vorschau:

Zwei PDFs

screenshot - Klicke auf das Bild, um es zu vergrößern

screenshot - Klicke auf das Bild, um es zu vergrößern

Ausführung des Skripts:

screenshot - Klicke auf das Bild, um es zu vergrößern

Ergebnis:

screenshot - Klicke auf das Bild, um es zu vergrößern

Anpassung an Spezialfälle nehme ich gerne gegen Aufwandsentschädigung via PN entgegen.

Viel Spaß damit.
Grüße Uwe
Bitte warten ..
Mitglied: ad-min
12.10.2019, aktualisiert um 09:55 Uhr
Guten Morgen @colinardo,

ich wollte noch fragen, funktioniert das auch, wenn der Text 2-spaltig ist?

sample - Klicke auf das Bild, um es zu vergrößern

Überschriften rot markiert

LG ad-min
Bitte warten ..
Mitglied: colinardo
12.10.2019, aktualisiert um 10:04 Uhr
Generell schon, kommt aber auf die Rendering-Engine an wie diese die Reihenfolge der Objekte angelegt. Details kann ich aber nur mit einer entsprechend vorliegenden Beispielseite nennen.
Bitte warten ..
Ähnliche Inhalte
Windows 7
PDF-Printer
gelöst Frage von malikaWindows 79 Kommentare

Guten Tag, ich habe einen W7 Pro 64-Bit PC auf dem Adobe PDF Printer fehlt. Ich habe versucht einen ...

Batch & Shell
Powershell, PDF
Frage von AnkhMorporkBatch & Shell6 Kommentare

Hallo zusammen, ich komme mit der Suche nicht weiter Situation: ca. 2000 PDF-Dateien (Downloads von E-Mails). In der ersten ...

Windows 10
PDF Standardpfad
Frage von tom123456Windows 103 Kommentare

Hallo, ist es möglich einen PDF Drucker unter Windows 10 so einzurichten dass man den Standardpfad zum speichern der ...

Windows Tools

ZUGFeRD - PDF Rechnungen in PDF A3 umwandeln

Frage von marcushbWindows Tools11 Kommentare

Hallo zusammen, ein Kunde möchte gerne seine PDF Rechnungen im Format PDF/A-3 inkl. XML File haben. Leider werden die ...

Neue Wissensbeiträge
Off Topic
Noch mehr was ich nicht brauche
Information von brammer vor 2 TagenOff Topic6 Kommentare

Hallo, WOFÜR? WARUM? brammer

Windows Server

Windows Server 2016 Suche nicht funktioniert ist ausgegraut Windows Server 2016 Search not work

Erfahrungsbericht von Wano347 vor 3 TagenWindows Server

Hallo Leute, wir haben vor kurzem ein Problem gehabt: Windows Server 2016 frisch installiert. Nach Checkliste konfiguriert (sieht vor ...

Microsoft Office

Microsoft geht nun rechtlich gegen Lizengo vor - Billig Software

Information von takvorian vor 3 TagenMicrosoft Office9 Kommentare

Hallo zusammen, eben auf CRN gefunden, weis nicht ob das schon wer gepostet hat Microsoft verklagt Lizengo Gruß Tak

Firewall
Übernahme von SOPHOS durch Thoma Bravo
Information von Dilbert-MD vor 4 TagenFirewall3 Kommentare

Kam die Tage per Newsletter: Zitat: " Das Sophos Board of Directors hat gestern bekanntgegeben, dass die Private-Equity-Investment-Firma Thoma ...

Heiß diskutierte Inhalte
Router & Routing
Macht es schon Sinn IPv6 Adressen einzusetzen ?
Frage von mario89Router & Routing11 Kommentare

Hallo Leute, bitte entschuldigt die vielleicht blöde frage, aber ich wollte gerne mal hören, ob im Professionellen Umfeld IPv6 ...

Batch & Shell
Batch - Datei über das Kontextmenü (Senden an) des Windows Explorer umbenennen
gelöst Frage von AlfornoBatch & Shell10 Kommentare

Hallo, ich möchte eine beliebige Word Datei mittels Batch umbenennen. Als Ergebnis soll der neue Dateiname das Änderungsdatum sowie ...

Switche und Hubs
Zwei VLANs über Trunks über zwei Layer3-Switche per Glasfaser verbinden
Frage von FreundlicherSwitche und Hubs9 Kommentare

Hi, leider habe ich weder in der Berufsschule aufgepasst, noch in der Ausbildung das Thema praktisch behandelt (kleiner Betrieb). ...

Batch & Shell
Batch variable in nächste batch mitnehmen
Frage von BytexxBatch & Shell8 Kommentare

Hallo ich möchte ein kleines .bat programm schreiben und habe eine frage. wie kann ich ein installations pfad herrausfinden ...