Welche gescannten PDFs enthalten Text und welche nicht?
Hallo,
je nach verwendetem Multifunktionsgerät sind in einem Büro über die Jahre PDFs mit OCR- und PDFs ohne OCR (nur Bild, ohne enthaltenem Text) entstanden und zu einem Riesenhaufen PDFs geworden.
Wie könnte man die OCR-PDFs von den nicht-OCR-PDFs trennen?
lG
je nach verwendetem Multifunktionsgerät sind in einem Büro über die Jahre PDFs mit OCR- und PDFs ohne OCR (nur Bild, ohne enthaltenem Text) entstanden und zu einem Riesenhaufen PDFs geworden.
Wie könnte man die OCR-PDFs von den nicht-OCR-PDFs trennen?
lG
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 526149
Url: https://administrator.de/forum/welche-gescannten-pdfs-enthalten-text-und-welche-nicht-526149.html
Ausgedruckt am: 16.02.2025 um 19:02 Uhr
6 Kommentare
Neuester Kommentar
![142232](/images/members/profile_male_48x48.png)
Mit pdftk oder iTextSharp Text mit der Skriptsprache seiner Wahl extrahieren, wenn nix da verschiebe in Ordner x wenn doch in y.
Hallo,
ich würde mir da mithilfe von qpdf --json file.pdf ein Script zusammensetzen, welches eine Auswertung der Objects macht.
ich würde mir da mithilfe von qpdf --json file.pdf ein Script zusammensetzen, welches eine Auswertung der Objects macht.
Ich finde diesen Lösungsansatz interessant:
https://askubuntu.com/questions/1094198/is-there-a-simple-way-to-identif ...
https://askubuntu.com/questions/1094198/is-there-a-simple-way-to-identif ...
![142232](/images/members/profile_male_48x48.png)
Achtung das kann dir zum Verhängnis werden wenn Kompression im PDF ins Spiel kommt, wasserdicht ist das auf jeden Fall nicht.