Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWünsch Dir wasWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

PDF Überschriften auslesen

Mitglied: ad-min

ad-min (Level 1) - Jetzt verbinden

09.10.2019 um 20:29 Uhr, 475 Aufrufe, 5 Kommentare, 2 Danke

Schönen Abend,

ich habe ca. 300 PDF-Dateien (unterschiedliche PDF-Versionen) mit jeweils 8 Seiten und ungefähr 3.500 Überschriften.

Die Überschriften sind auf 2 verschiedene Arten formatiert (einmal größer einmal kleiner), sind aber eindeutig vom restlichen Text zu unterscheiden.
Die PDFs waren für den Druck gedacht, haben also keine Überschriften in den Metadaten.

Jetzt meine Frage: Gibt es eine Möglichkeit, diese Überschriften auszulesen und in eine Datei zu schreiben? Ich habe von Möglichkeiten gelesen, bei denen die Dokumente stets gleich aufgebaut waren. Bis jetzt konnte ich aber noch nichts finden, das anhand der Formatierung selektiert.

Die eigentlichen PDFs kann ich hier leider nicht zeigen, wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.

Schöne Grüße
ad-min
Mitglied: beidermachtvongreyscull
09.10.2019, aktualisiert um 22:12 Uhr
Guten Abend,

ja. ich kenne zwei Lösungen:

https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/sof ...

Paperstream Capture Pro

und

Kofax AutoStore (vormals NSi Autostore)

https://www.kofax.de/products/controlsuite/autostore

Wer hätte gedacht, dass Nuance mal den Krempel weiterverkauft...

AutoStore ist recht teuer, aber irre gut (Serverlösung). Ich spreche aus Erfahrung.

PaperStream ist eher eine Einzelplatzlösung aber auch gut, um Metadaten aus PDFs zu ziehen.

Voraussetzung:
Die zu ziehenden Daten befinden sich immer in den gleichen Zonen.
Bitte warten ..
Mitglied: 141320
10.10.2019, aktualisiert um 09:37 Uhr
wenn ihr aber ein Beispiel benötigt, kann ich dieses gerne anfertigen.
Wäre ja mal ein Anfang. Sonst muss man sich aber Millionen mögliche Varianten aus den Fingern saugen, und am Ende passt es dann doch nicht. Mit entsprechendem Regex und Analyse der PDFs ist das kein Problem auch per Skript sowas zu lösen, dafür bedarf es jedoch zur Analyse die Originalstruktur der PDFs, denn erklären wie sowas im einzelnen geht würde hier zu lange dauern, da es einfach zu viele Varianten gibt und diese gilt es eben zu berücksichtigen.
Bitte warten ..
Mitglied: colinardo
11.10.2019, aktualisiert um 16:46 Uhr
Servus @ad-min ,
mit etwas Powershell lässt sich das machen sofern die PDFs maschinenlesbaren Text enthalten (andernfalls müsste mehr Aufwand mit OCR Parser getrieben werden)
Hier ein Demo-Package (Skript und 2 Test-PDFs)

extract_pdf_headers_502719.zip


Mit der Mindestgröße der Überschriften für die Erkennung kann man im Skript mit einer Variablen spielen so das es entsprechend auf die verwendeten PDFs passt.

Hier eine Vorschau:

Zwei PDFs

screenshot - Klicke auf das Bild, um es zu vergrößern

screenshot - Klicke auf das Bild, um es zu vergrößern

Ausführung des Skripts:

screenshot - Klicke auf das Bild, um es zu vergrößern

Ergebnis:

screenshot - Klicke auf das Bild, um es zu vergrößern

Anpassung an Spezialfälle nehme ich gerne gegen Aufwandsentschädigung via PN entgegen.

Viel Spaß damit.
Grüße Uwe
Bitte warten ..
Mitglied: ad-min
12.10.2019, aktualisiert um 09:55 Uhr
Guten Morgen @colinardo,

ich wollte noch fragen, funktioniert das auch, wenn der Text 2-spaltig ist?

sample - Klicke auf das Bild, um es zu vergrößern

Überschriften rot markiert

LG ad-min
Bitte warten ..
Mitglied: colinardo
12.10.2019, aktualisiert um 10:04 Uhr
Generell schon, kommt aber auf die Rendering-Engine an wie diese die Reihenfolge der Objekte angelegt. Details kann ich aber nur mit einer entsprechend vorliegenden Beispielseite nennen.
Bitte warten ..
Ähnliche Inhalte
Windows 7
PDF-Printer
gelöst Frage von malikaWindows 79 Kommentare

Guten Tag, ich habe einen W7 Pro 64-Bit PC auf dem Adobe PDF Printer fehlt. Ich habe versucht einen ...

Batch & Shell
Powershell, PDF
Frage von AnkhMorporkBatch & Shell6 Kommentare

Hallo zusammen, ich komme mit der Suche nicht weiter Situation: ca. 2000 PDF-Dateien (Downloads von E-Mails). In der ersten ...

Windows 10
PDF-Vorschau
gelöst Frage von Raven90Windows 103 Kommentare

Hallo zusammen, ich habe das Problem, dass im Explorer Vorschaufenster die Meldung "Es ist keine Vorschau verfügbar" erscheint. Installiert ...

Windows 10
PDF Standardpfad
Frage von tom123456Windows 103 Kommentare

Hallo, ist es möglich einen PDF Drucker unter Windows 10 so einzurichten dass man den Standardpfad zum speichern der ...

Neue Wissensbeiträge
Webbrowser
Mozilla Firefox 77 verfügbar
Information von Frank vor 10 StundenWebbrowser

Mozilla hat Firefox Version 77 freigegeben. Neben Verbesserungen an "Pocket", einigen Sicherheitsupdates, einer bessere Übersicht für TLS-Zertifikate, wurde der ...

Informationsdienste

Beendet: Timo Wölken und Julia Reda reden jetzt live auf Twitch über Uploadfilter, Rezo, Trump und Twitter

Information von Frank vor 11 StundenInformationsdienste

Wer Interesse zum kommenden Uploadfilter, Rezo, Trump und Twitter hat, kann nun unter twitch.tv der Diskussion beitreten: 03.06.2020 ab ...

Windows 10
Windows2Go ist nun scheintot
Information von DerWoWusste vor 13 StundenWindows 10

Microsoft hat mit Win10 v2004 Windows to go entfernt (sprich: der eingebaute Wizard zur Erstellung wurde entfernt). Wer weiterhin ...

iOS
IOS iPadOS 13.5.1 erschienen
Information von sabines vor 20 StundeniOS

Recht kurz nach iOS 13.5.0 ist gestern iOS/iPadOS in der Version 13.5.1 für IPhone und IPad erschienen. Es schließt ...

Heiß diskutierte Inhalte
Informationsdienste
Die Zerstörung der Presse - Youtuber Rezo möchte Missstände in unserer Mediengesellschaft aufzeigen, um sie zu lösen
Information von FrankInformationsdienste61 Kommentare

Youtuber Rezo greift in seinem neuen Video den Boulevard an, warnt vor allem vor Verschwörungen und richtet einen Appell ...

Netzwerkgrundlagen
Um welches Kabel handelt es sich?
gelöst Frage von Frodo.FFNetzwerkgrundlagen20 Kommentare

Hallo liebe Gemeinde, im neu erworbenen Haus, knapp 20 Jahre alt, sind im Heizungskeller als auch in den Räumen ...

Microsoft Office
Exchange Kennwort geändert
gelöst Frage von jensgebkenMicrosoft Office20 Kommentare

Hallo Gemeinschaft, habe mein Exchange Kennwort geändert - wo kann ich diese Kennwortänderung bei Outlook eintragen - bei Kontoeinstellungen ...

LAN, WAN, Wireless
Mehrere SSIDs auf einem AP
gelöst Frage von yamaha0815LAN, WAN, Wireless16 Kommentare

Hallo zusammen, ich stoße im Moment mit den APs von Unifi/Ubiquity an Grenzen. Es geht um folgendes: In einem ...