imkimkimk
Goto Top

Eingescannte Dokumente durchsuchen

Hallo,

ich bin auf der Suche nach einem Tool mit dem ich eingescannte Dokumente(als pdf) durchsuchen kann.
Natürlich gibt es solche Lösungen für Unternehmen, die sind dann entsprechend teuer. Ich suche aber etwas was man auch als Privatanwender nutzen kann und nach möglichkeit keine Cloud-Lösung ist.

hat jemand einen Tipp für mich? face-smile

Content-ID: 489779

Url: https://administrator.de/contentid/489779

Ausgedruckt am: 22.11.2024 um 02:11 Uhr

Henere
Henere 29.08.2019 um 16:11:35 Uhr
Goto Top
Servus. Schau dir mal Paperport an.
Floooh
Floooh 29.08.2019 aktualisiert um 16:15:28 Uhr
Goto Top
Windows oder Linux?

https://www.linux-magazin.de/ausgaben/2004/04/finden-im-sauseschritt/

Kostenfrei und schnell aufgesetzt. face-smile
erikro
erikro 29.08.2019 um 16:22:41 Uhr
Goto Top
Moin,

was Du suchst ist ein Document Management System (kurz DMS). Da gibt es auch einiges als freeware oder open source. Empfehlen kann ich Dir nichts, da das stark von der Art der Dokumente und den Zielen abhängt, was man so braucht.

Liebe Grüße

Erik
em-pie
em-pie 29.08.2019 um 17:17:53 Uhr
Goto Top
Moin,

@erikro
Was er sucht ist OCR nicht DMS. Er will die Dokumente ja nicht verwalten sondern durchsuchbar machen...

Gruß
em-pie
erikro
erikro 29.08.2019 um 17:19:54 Uhr
Goto Top
Zitat von @em-pie:

Moin,

@erikro
Was er sucht ist OCR nicht DMS. Er will die Dokumente ja nicht verwalten sondern durchsuchbar machen...

Das verstehe ich anders. Eingescannte Dokumente (Plural) durchsuchen heißt m. E., dass er verschiedene PDFs nach Schlagworten durchsuchen möchte. Aber vielleicht klärt das der TO mal. face-wink
NetzwerkDude
NetzwerkDude 29.08.2019 um 17:58:06 Uhr
Goto Top
tesseract-ocr

Ganz gut dank API / Kommandozeileninterface, hab mir letztes Jahr z.B. daraus ein Tool gehackt das die Rechnungen / Lieferscheine nach der Referenznummer und Dokumentenart benennt - Erfolgsquote ~ 95%
Pjordorf
Pjordorf 29.08.2019 um 23:11:47 Uhr
Goto Top
Hallo,

Zitat von @imkimkimk:
ich bin auf der Suche nach einem Tool mit dem ich eingescannte Dokumente(als pdf) durchsuchen kann.
Was ist in dein PDF enthalten? Ein eingescanntes Bild? Nur eingescannter Text der schon mit OCR behandelt wurde? Fragen über fragen. Nur weil etwas wie ein A aussieht muss es noch lange kein A sein, es kann auch nur das Bild eines A sein, und Text durchsuchen setzt nunmal Text voraus. Schon mal dir ein PDF auf Dateiebene angesehen wie die sich unterscheiden?

Gruß,
Peter
beidermachtvongreyscull
beidermachtvongreyscull 30.08.2019 aktualisiert um 07:17:31 Uhr
Goto Top
Habe ich:

Schau Dir mal PDF X-Change Editor an.

Eine der kostenlosen Funktionen ist auch, dass Du damit PDF-Dokumente durchsuchbar machen und als solche speichern kannst.

Ferner: Du kannst kostenpflichtige Funktionen sogar ausblenden, wenn Du nicht bezahlen willst.

https://www.tracker-software.com/product/pdf-xchange-editor
Questionmark93
Questionmark93 30.08.2019 um 11:46:49 Uhr
Goto Top
Also ich verstehe das auch so, dass da schon eine OCR Erkennung drüber ist beim Einscannen?
Also wenn das schon der Fall ist dann reicht ein Ordner und in dem Ordner kannst du eigentlich
mit Parametern suchen über die Windowssuche oben rechts im Eck

inhalt:"Rechnung muss bis zum 12.09.2019 bezahlt werden!"

Das wäre der einfachste Weg
Questionmark93
Questionmark93 30.08.2019 um 12:19:48 Uhr
Goto Top
Zitat von @NetzwerkDude:

tesseract-ocr

Ganz gut dank API / Kommandozeileninterface, hab mir letztes Jahr z.B. daraus ein Tool gehackt das die Rechnungen / Lieferscheine nach der Referenznummer und Dokumentenart benennt - Erfolgsquote ~ 95%

Nach Anleitung oder selbst? Hast du dazu die Seite (Kenne mich in dem Bereich Programmierung nicht aus)
NetzwerkDude
NetzwerkDude 30.08.2019 aktualisiert um 12:26:19 Uhr
Goto Top
Selbst, schlussendlich gehts darum wie man am besten OCR Fehler behandelt (da gerne mal zufällige zeichen erkannt werden) - und da muss man schauen ob man besser mit RegEx oder Levenshtein Distanz fährt usw.

Das Tool ist leider nicht allzu universell da ich mit einem sehr speziellen Regex die Firmenspezifischen Infos rausziehe.

Schlussendlich sinds zwei Schritte:
- Ursprungsscan behandeln (begradigen, optimalen Kontrast finden etc.) und an tesseract übergeben
- die Ausgabe durchsuchen