Windows 10 Such- bzw. OCR-Tool für PDF Files
Hallo,
wir haben da Tausende von PDF Files, die ab und zu durchgeschucht werden müssen.
Kennt jemand ein Windows 10 Desktop Tool ggf. mit Cloud-Dienst, das diese Suche schnell erledigen könnte.
Da die alte PDF noch ohne Texterkennung angelegt worden sind, müsste auch dieses noch gemacht werden.
Das einzige Tool, was ich kenne ist Evernote Pro.
Hat jemand bessere Vorschläge?
Vielen Dank!
JoFla
wir haben da Tausende von PDF Files, die ab und zu durchgeschucht werden müssen.
Kennt jemand ein Windows 10 Desktop Tool ggf. mit Cloud-Dienst, das diese Suche schnell erledigen könnte.
Da die alte PDF noch ohne Texterkennung angelegt worden sind, müsste auch dieses noch gemacht werden.
Das einzige Tool, was ich kenne ist Evernote Pro.
Hat jemand bessere Vorschläge?
Vielen Dank!
JoFla
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 5255604016
Url: https://administrator.de/contentid/5255604016
Ausgedruckt am: 18.12.2024 um 06:12 Uhr
5 Kommentare
Neuester Kommentar
Hi.
Mit Sicherheit möchtest Du nicht bei jeder neuen Suche wieder und wieder OCR ausführen.
Somit solltest Du das OCR einmal für alle bestehenden PDFs durchziehen (dazu würde eine Trial von Adobe Acrobat genügen, die hat auch einen Automationswizard für Multi-OCR) und dann kannst Du z.B. schon mit dem kostenlosen Adobe Reader suchen (der kann ja angewiesen werden, alle PDFs in einer Ordnerstruktur zu durchsuchen).
Mit Sicherheit möchtest Du nicht bei jeder neuen Suche wieder und wieder OCR ausführen.
Somit solltest Du das OCR einmal für alle bestehenden PDFs durchziehen (dazu würde eine Trial von Adobe Acrobat genügen, die hat auch einen Automationswizard für Multi-OCR) und dann kannst Du z.B. schon mit dem kostenlosen Adobe Reader suchen (der kann ja angewiesen werden, alle PDFs in einer Ordnerstruktur zu durchsuchen).
Hallo,
https://github.com/tesseract-ocr/tesseract
Gibt auch PDF Plugins für Linux. Normal werden ja meist Bilder durchlaufen. Das wäre zumindest komplett kostenlos und man kann später den Textstream der PDF hinzufügen.
Gibt ziig Anleitungen dazu. Nutzen auch einige DMS. Wobei die die Daten zusätzlich in einer SQL speichen.
Entweder unter Windows oder Linux. Man auch unter Windows 10 ja Linux in der nativen VM laufen lassen. Viele Pakete wurden aber auch für Windows portiert.
Ansonsten wäre auch hier PowerShell dein Freund. Tesseract lässt sich ja komplett via Command-Line bedienen.
Sonst wäre die Frage, wie es weiter gehen soll. Mit den neuen Daten kann man die Files dann auch in Ordner packen etc. Oder man nimmt gleich ein DMS.
Tesseract erfreut sich große Beliebtheit. Würde mir das einmal asnsehen. Auch wenn das hin und her - PDF to TIFF - und wieder zurück komisch anmutet, sind es doch meist nur wenige Zeilen Code.
mfg Crusher
https://github.com/tesseract-ocr/tesseract
Gibt auch PDF Plugins für Linux. Normal werden ja meist Bilder durchlaufen. Das wäre zumindest komplett kostenlos und man kann später den Textstream der PDF hinzufügen.
Gibt ziig Anleitungen dazu. Nutzen auch einige DMS. Wobei die die Daten zusätzlich in einer SQL speichen.
Entweder unter Windows oder Linux. Man auch unter Windows 10 ja Linux in der nativen VM laufen lassen. Viele Pakete wurden aber auch für Windows portiert.
Ansonsten wäre auch hier PowerShell dein Freund. Tesseract lässt sich ja komplett via Command-Line bedienen.
Sonst wäre die Frage, wie es weiter gehen soll. Mit den neuen Daten kann man die Files dann auch in Ordner packen etc. Oder man nimmt gleich ein DMS.
Tesseract erfreut sich große Beliebtheit. Würde mir das einmal asnsehen. Auch wenn das hin und her - PDF to TIFF - und wieder zurück komisch anmutet, sind es doch meist nur wenige Zeilen Code.
mfg Crusher
Mahlzeit.
Wenn du die Möglichkeit hast, dafür ne Docker-Instanz zu nutzen:
https://github.com/paperless-ngx/paperless-ngx
Cheers,
jsysde
Wenn du die Möglichkeit hast, dafür ne Docker-Instanz zu nutzen:
https://github.com/paperless-ngx/paperless-ngx
Cheers,
jsysde