hanheik
Goto Top

Welche gescannten PDFs enthalten Text und welche nicht?

Hallo,

je nach verwendetem Multifunktionsgerät sind in einem Büro über die Jahre PDFs mit OCR- und PDFs ohne OCR (nur Bild, ohne enthaltenem Text) entstanden und zu einem Riesenhaufen PDFs geworden.
Wie könnte man die OCR-PDFs von den nicht-OCR-PDFs trennen?

lG

Content-ID: 526149

Url: https://administrator.de/forum/welche-gescannten-pdfs-enthalten-text-und-welche-nicht-526149.html

Ausgedruckt am: 31.12.2024 um 15:12 Uhr

142232
142232 16.12.2019 aktualisiert um 13:39:25 Uhr
Goto Top
Mit pdftk oder iTextSharp Text mit der Skriptsprache seiner Wahl extrahieren, wenn nix da verschiebe in Ordner x wenn doch in y.
godlie
godlie 16.12.2019 um 13:50:32 Uhr
Goto Top
Hallo,

ich würde mir da mithilfe von qpdf --json file.pdf ein Script zusammensetzen, welches eine Auswertung der Objects macht.
beidermachtvongreyscull
Lösung beidermachtvongreyscull 16.12.2019 um 14:29:44 Uhr
Goto Top
hanheik
hanheik 16.12.2019 um 14:43:40 Uhr
Goto Top
Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!
142232
142232 16.12.2019 aktualisiert um 15:03:32 Uhr
Goto Top
Zitat von @hanheik:

Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!
Achtung das kann dir zum Verhängnis werden wenn Kompression im PDF ins Spiel kommt, wasserdicht ist das auf jeden Fall nicht.
hanheik
hanheik 13.03.2020 um 16:40:00 Uhr
Goto Top
Man kann auch mit Total Commander und Plugin xPDFSearch im Feld Text nach * suchen, dann kommen die PDFs mit Textebene raus.