16.12.2019

1387

Welche gescannten PDFs enthalten Text und welche nicht?

Hallo,

je nach verwendetem Multifunktionsgerät sind in einem Büro über die Jahre PDFs mit OCR- und PDFs ohne OCR (nur Bild, ohne enthaltenem Text) entstanden und zu einem Riesenhaufen PDFs geworden.
Wie könnte man die OCR-PDFs von den nicht-OCR-PDFs trennen?

lG

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 526149

Url: https://administrator.de/forum/welche-gescannten-pdfs-enthalten-text-und-welche-nicht-526149.html

Ausgedruckt am: 06.07.2025 um 04:07 Uhr

6 Kommentare

Neuester Kommentar

Mit pdftk oder iTextSharp Text mit der Skriptsprache seiner Wahl extrahieren, wenn nix da verschiebe in Ordner x wenn doch in y.

Hallo,

ich würde mir da mithilfe von qpdf --json file.pdf ein Script zusammensetzen, welches eine Auswertung der Objects macht.

Ich finde diesen Lösungsansatz interessant:
askubuntu.com/questions/1094198/is-there-a-simple-way-to-identif ...

Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!

Zitat von @hanheik:

Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!

Achtung das kann dir zum Verhängnis werden wenn Kompression im PDF ins Spiel kommt, wasserdicht ist das auf jeden Fall nicht.

Man kann auch mit Total Commander und Plugin xPDFSearch im Feld Text nach * suchen, dann kommen die PDFs mit Textebene raus.

gelöstFrage Off Topic

Mehr von hanheik

CSV-Export ohne Leerzeilen?hanheik - 1 Kommentar

SMB 3 auf Windows Server aktivieren?hanheik - 61 Kommentare

Welcher DNS-Server im Windows-LAN?hanheik - 11 Kommentare

Powerpoint: Bild bei Mouseoverhanheik - 1 Kommentar

Heiß diskutiert

Entwicklertagebuch: Release 7 - Neuer Aufbauadmtech - 30 Kommentare

Nach Austausch von Verzeichnis-Icons sind die Verzeichnisse nicht mehr sichtbarYan2021 - 29 Kommentare

Bitte um Einrichtung eines Entwicklungsbereichs Künstliche IntelligenzSPOK71 - 28 Kommentare

Probleme mit Netzwerkverbindung bzw. Internetdergaertner - 25 Kommentare

Synology und die Abzock-ArieVisucius - 23 Kommentare

M365 Störung - Weiß jemand was da los ist?TurnschuhIT - 22 Kommentare

Outlook Crashnachgefragt - 20 Kommentare

Microsoft lehnt Mails ab. Microsoft hat aber kein Problem mit meinen MailsBAMA1971 - 19 Kommentare

GibberLink: Totgesagte leben länger - Das Faxgerät ist zurück !SPOK71 - 17 Kommentare