Welche gescannten PDFs enthalten Text und welche nicht?
Hallo,
je nach verwendetem Multifunktionsgerät sind in einem Büro über die Jahre PDFs mit OCR- und PDFs ohne OCR (nur Bild, ohne enthaltenem Text) entstanden und zu einem Riesenhaufen PDFs geworden.
Wie könnte man die OCR-PDFs von den nicht-OCR-PDFs trennen?
lG
je nach verwendetem Multifunktionsgerät sind in einem Büro über die Jahre PDFs mit OCR- und PDFs ohne OCR (nur Bild, ohne enthaltenem Text) entstanden und zu einem Riesenhaufen PDFs geworden.
Wie könnte man die OCR-PDFs von den nicht-OCR-PDFs trennen?
lG
Please also mark the comments that contributed to the solution of the article
Content-Key: 526149
Url: https://administrator.de/contentid/526149
Printed on: April 19, 2024 at 06:04 o'clock
6 Comments
Latest comment
Mit pdftk oder iTextSharp Text mit der Skriptsprache seiner Wahl extrahieren, wenn nix da verschiebe in Ordner x wenn doch in y.
Hallo,
ich würde mir da mithilfe von qpdf --json file.pdf ein Script zusammensetzen, welches eine Auswertung der Objects macht.
ich würde mir da mithilfe von qpdf --json file.pdf ein Script zusammensetzen, welches eine Auswertung der Objects macht.
Ich finde diesen Lösungsansatz interessant:
https://askubuntu.com/questions/1094198/is-there-a-simple-way-to-identif ...
https://askubuntu.com/questions/1094198/is-there-a-simple-way-to-identif ...
Achtung das kann dir zum Verhängnis werden wenn Kompression im PDF ins Spiel kommt, wasserdicht ist das auf jeden Fall nicht.