hanheik
Goto Top

Welche gescannten PDFs enthalten Text und welche nicht?

Hallo,

je nach verwendetem Multifunktionsgerät sind in einem Büro über die Jahre PDFs mit OCR- und PDFs ohne OCR (nur Bild, ohne enthaltenem Text) entstanden und zu einem Riesenhaufen PDFs geworden.
Wie könnte man die OCR-PDFs von den nicht-OCR-PDFs trennen?

lG

Content-Key: 526149

Url: https://administrator.de/contentid/526149

Printed on: April 19, 2024 at 06:04 o'clock

Mitglied: 142232
142232 Dec 16, 2019 updated at 12:39:25 (UTC)
Goto Top
Mit pdftk oder iTextSharp Text mit der Skriptsprache seiner Wahl extrahieren, wenn nix da verschiebe in Ordner x wenn doch in y.
Member: godlie
godlie Dec 16, 2019 at 12:50:32 (UTC)
Goto Top
Hallo,

ich würde mir da mithilfe von qpdf --json file.pdf ein Script zusammensetzen, welches eine Auswertung der Objects macht.
Member: beidermachtvongreyscull
Solution beidermachtvongreyscull Dec 16, 2019 at 13:29:44 (UTC)
Goto Top
Member: hanheik
hanheik Dec 16, 2019 at 13:43:40 (UTC)
Goto Top
Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!
Mitglied: 142232
142232 Dec 16, 2019 updated at 14:03:32 (UTC)
Goto Top
Zitat von @hanheik:

Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!
Achtung das kann dir zum Verhängnis werden wenn Kompression im PDF ins Spiel kommt, wasserdicht ist das auf jeden Fall nicht.
Member: hanheik
hanheik Mar 13, 2020 at 15:40:00 (UTC)
Goto Top
Man kann auch mit Total Commander und Plugin xPDFSearch im Feld Text nach * suchen, dann kommen die PDFs mit Textebene raus.