Eingescannte Dokumente durchsuchen
Hallo,
ich bin auf der Suche nach einem Tool mit dem ich eingescannte Dokumente(als pdf) durchsuchen kann.
Natürlich gibt es solche Lösungen für Unternehmen, die sind dann entsprechend teuer. Ich suche aber etwas was man auch als Privatanwender nutzen kann und nach möglichkeit keine Cloud-Lösung ist.
hat jemand einen Tipp für mich?
ich bin auf der Suche nach einem Tool mit dem ich eingescannte Dokumente(als pdf) durchsuchen kann.
Natürlich gibt es solche Lösungen für Unternehmen, die sind dann entsprechend teuer. Ich suche aber etwas was man auch als Privatanwender nutzen kann und nach möglichkeit keine Cloud-Lösung ist.
hat jemand einen Tipp für mich?
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 489779
Url: https://administrator.de/forum/eingescannte-dokumente-durchsuchen-489779.html
Ausgedruckt am: 22.12.2024 um 22:12 Uhr
11 Kommentare
Neuester Kommentar
Windows oder Linux?
https://www.linux-magazin.de/ausgaben/2004/04/finden-im-sauseschritt/
Kostenfrei und schnell aufgesetzt.
https://www.linux-magazin.de/ausgaben/2004/04/finden-im-sauseschritt/
Kostenfrei und schnell aufgesetzt.
Moin,
@erikro
Was er sucht ist OCR nicht DMS. Er will die Dokumente ja nicht verwalten sondern durchsuchbar machen...
Gruß
em-pie
@erikro
Was er sucht ist OCR nicht DMS. Er will die Dokumente ja nicht verwalten sondern durchsuchbar machen...
Gruß
em-pie
Zitat von @em-pie:
Moin,
@erikro
Was er sucht ist OCR nicht DMS. Er will die Dokumente ja nicht verwalten sondern durchsuchbar machen...
Moin,
@erikro
Was er sucht ist OCR nicht DMS. Er will die Dokumente ja nicht verwalten sondern durchsuchbar machen...
Das verstehe ich anders. Eingescannte Dokumente (Plural) durchsuchen heißt m. E., dass er verschiedene PDFs nach Schlagworten durchsuchen möchte. Aber vielleicht klärt das der TO mal.
Hallo,
Gruß,
Peter
Zitat von @imkimkimk:
ich bin auf der Suche nach einem Tool mit dem ich eingescannte Dokumente(als pdf) durchsuchen kann.
Was ist in dein PDF enthalten? Ein eingescanntes Bild? Nur eingescannter Text der schon mit OCR behandelt wurde? Fragen über fragen. Nur weil etwas wie ein A aussieht muss es noch lange kein A sein, es kann auch nur das Bild eines A sein, und Text durchsuchen setzt nunmal Text voraus. Schon mal dir ein PDF auf Dateiebene angesehen wie die sich unterscheiden?ich bin auf der Suche nach einem Tool mit dem ich eingescannte Dokumente(als pdf) durchsuchen kann.
Gruß,
Peter
Habe ich:
Schau Dir mal PDF X-Change Editor an.
Eine der kostenlosen Funktionen ist auch, dass Du damit PDF-Dokumente durchsuchbar machen und als solche speichern kannst.
Ferner: Du kannst kostenpflichtige Funktionen sogar ausblenden, wenn Du nicht bezahlen willst.
https://www.tracker-software.com/product/pdf-xchange-editor
Schau Dir mal PDF X-Change Editor an.
Eine der kostenlosen Funktionen ist auch, dass Du damit PDF-Dokumente durchsuchbar machen und als solche speichern kannst.
Ferner: Du kannst kostenpflichtige Funktionen sogar ausblenden, wenn Du nicht bezahlen willst.
https://www.tracker-software.com/product/pdf-xchange-editor
Also ich verstehe das auch so, dass da schon eine OCR Erkennung drüber ist beim Einscannen?
Also wenn das schon der Fall ist dann reicht ein Ordner und in dem Ordner kannst du eigentlich
mit Parametern suchen über die Windowssuche oben rechts im Eck
inhalt:"Rechnung muss bis zum 12.09.2019 bezahlt werden!"
Das wäre der einfachste Weg
Also wenn das schon der Fall ist dann reicht ein Ordner und in dem Ordner kannst du eigentlich
mit Parametern suchen über die Windowssuche oben rechts im Eck
inhalt:"Rechnung muss bis zum 12.09.2019 bezahlt werden!"
Das wäre der einfachste Weg
Zitat von @NetzwerkDude:
tesseract-ocr
Ganz gut dank API / Kommandozeileninterface, hab mir letztes Jahr z.B. daraus ein Tool gehackt das die Rechnungen / Lieferscheine nach der Referenznummer und Dokumentenart benennt - Erfolgsquote ~ 95%
tesseract-ocr
Ganz gut dank API / Kommandozeileninterface, hab mir letztes Jahr z.B. daraus ein Tool gehackt das die Rechnungen / Lieferscheine nach der Referenznummer und Dokumentenart benennt - Erfolgsquote ~ 95%
Nach Anleitung oder selbst? Hast du dazu die Seite (Kenne mich in dem Bereich Programmierung nicht aus)
Selbst, schlussendlich gehts darum wie man am besten OCR Fehler behandelt (da gerne mal zufällige zeichen erkannt werden) - und da muss man schauen ob man besser mit RegEx oder Levenshtein Distanz fährt usw.
Das Tool ist leider nicht allzu universell da ich mit einem sehr speziellen Regex die Firmenspezifischen Infos rausziehe.
Schlussendlich sinds zwei Schritte:
- Ursprungsscan behandeln (begradigen, optimalen Kontrast finden etc.) und an tesseract übergeben
- die Ausgabe durchsuchen
Das Tool ist leider nicht allzu universell da ich mit einem sehr speziellen Regex die Firmenspezifischen Infos rausziehe.
Schlussendlich sinds zwei Schritte:
- Ursprungsscan behandeln (begradigen, optimalen Kontrast finden etc.) und an tesseract übergeben
- die Ausgabe durchsuchen