josephusflavius
Goto Top

Windows 10 Such- bzw. OCR-Tool für PDF Files

Hallo,

wir haben da Tausende von PDF Files, die ab und zu durchgeschucht werden müssen.

Kennt jemand ein Windows 10 Desktop Tool ggf. mit Cloud-Dienst, das diese Suche schnell erledigen könnte.
Da die alte PDF noch ohne Texterkennung angelegt worden sind, müsste auch dieses noch gemacht werden.

Das einzige Tool, was ich kenne ist Evernote Pro.

Hat jemand bessere Vorschläge?

Vielen Dank!

JoFla

Content-ID: 5255604016

Url: https://administrator.de/contentid/5255604016

Ausgedruckt am: 18.12.2024 um 06:12 Uhr

DerWoWusste
DerWoWusste 08.01.2023 um 12:15:43 Uhr
Goto Top
Hi.

Mit Sicherheit möchtest Du nicht bei jeder neuen Suche wieder und wieder OCR ausführen.
Somit solltest Du das OCR einmal für alle bestehenden PDFs durchziehen (dazu würde eine Trial von Adobe Acrobat genügen, die hat auch einen Automationswizard für Multi-OCR) und dann kannst Du z.B. schon mit dem kostenlosen Adobe Reader suchen (der kann ja angewiesen werden, alle PDFs in einer Ordnerstruktur zu durchsuchen).
JosephusFlavius
JosephusFlavius 08.01.2023 um 12:19:44 Uhr
Goto Top
Ok, vielen Dank für den Hinweis.

LG

JoFla
Crusher79
Crusher79 08.01.2023 um 12:43:02 Uhr
Goto Top
Hallo,

https://github.com/tesseract-ocr/tesseract

Gibt auch PDF Plugins für Linux. Normal werden ja meist Bilder durchlaufen. Das wäre zumindest komplett kostenlos und man kann später den Textstream der PDF hinzufügen.

Gibt ziig Anleitungen dazu. Nutzen auch einige DMS. Wobei die die Daten zusätzlich in einer SQL speichen.

Entweder unter Windows oder Linux. Man auch unter Windows 10 ja Linux in der nativen VM laufen lassen. Viele Pakete wurden aber auch für Windows portiert.


Ansonsten wäre auch hier PowerShell dein Freund. Tesseract lässt sich ja komplett via Command-Line bedienen.

Sonst wäre die Frage, wie es weiter gehen soll. Mit den neuen Daten kann man die Files dann auch in Ordner packen etc. Oder man nimmt gleich ein DMS. face-wink

Tesseract erfreut sich große Beliebtheit. Würde mir das einmal asnsehen. Auch wenn das hin und her - PDF to TIFF - und wieder zurück komisch anmutet, sind es doch meist nur wenige Zeilen Code.

mfg Crusher
jsysde
jsysde 08.01.2023 um 12:43:10 Uhr
Goto Top
Mahlzeit.

Wenn du die Möglichkeit hast, dafür ne Docker-Instanz zu nutzen:
https://github.com/paperless-ngx/paperless-ngx

Cheers,
jsysde
NordicMike
NordicMike 09.01.2023 um 10:37:16 Uhr
Goto Top
Sind das eingescannte PDF`s, also Bilder? Oder sind das durchsuchbare PDF's?