hanheik (Level 2)

16.12.2019

1393

6

0

Welche gescannten PDFs enthalten Text und welche nicht?

gelöstFrage Off Topic

Hallo,

je nach verwendetem Multifunktionsgerät sind in einem Büro über die Jahre PDFs mit OCR- und PDFs ohne OCR (nur Bild, ohne enthaltenem Text) entstanden und zu einem Riesenhaufen PDFs geworden.
Wie könnte man die OCR-PDFs von den nicht-OCR-PDFs trennen?

lG

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 526149

Url: https://administrator.de/forum/welche-gescannten-pdfs-enthalten-text-und-welche-nicht-526149.html

Ausgedruckt am: 20.07.2025 um 07:07 Uhr

6 Kommentare

Neuester Kommentar

Mit pdftk oder iTextSharp Text mit der Skriptsprache seiner Wahl extrahieren, wenn nix da verschiebe in Ordner x wenn doch in y.

Hallo,

ich würde mir da mithilfe von qpdf --json file.pdf ein Script zusammensetzen, welches eine Auswertung der Objects macht.

Ich finde diesen Lösungsansatz interessant:
askubuntu.com/questions/1094198/is-there-a-simple-way-to-identif ...

Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!

Zitat von @hanheik:

Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!

Achtung das kann dir zum Verhängnis werden wenn Kompression im PDF ins Spiel kommt, wasserdicht ist das auf jeden Fall nicht.

Man kann auch mit Total Commander und Plugin xPDFSearch im Feld Text nach * suchen, dann kommen die PDFs mit Textebene raus.

gelöstFrage Off Topic

Mehr von hanheik

CSV-Export ohne Leerzeilen?hanheik - 1 Kommentar

SMB 3 auf Windows Server aktivieren?hanheik - 61 Kommentare

Welcher DNS-Server im Windows-LAN?hanheik - 11 Kommentare

Powerpoint: Bild bei Mouseoverhanheik - 1 Kommentar

Heiß diskutiert

Ruckus - Das Security DesasterMysticFoxDE - 33 Kommentare

Empfehlung für einen passenden Monitor und eine Tastatur gesuchtAbstrackterSystemimperator - 32 Kommentare

KVM over IPBernie24 - 24 Kommentare

Hyper-VA HA Cluster Problem Live-Migrationkilltec - 22 Kommentare

Drucker funktioniert nur an 1 Netzwerkport nicht, andere Drucker schonkpunkt - 19 Kommentare

Netzwerkfreigabe überschriebenEl-Tunox - 18 Kommentare

LAPS Umstellung - Probleme mit der Administratoranmeldung bei DomänenbenutzerTschakalaka - 17 Kommentare

Wireguard Client zerstört eigene KonfigurationDexx024 - 17 Kommentare

MacBook Pro M1 will kein Microsoft Remote mehr. Welche Alternative?kreuzberger - 16 Kommentare