Eingescannte Dokumente durchsuchen

Hallo,

ich bin auf der Suche nach einem Tool mit dem ich eingescannte Dokumente(als pdf) durchsuchen kann.
Natürlich gibt es solche Lösungen für Unternehmen, die sind dann entsprechend teuer. Ich suche aber etwas was man auch als Privatanwender nutzen kann und nach möglichkeit keine Cloud-Lösung ist.

hat jemand einen Tipp für mich?

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 489779

Url: https://administrator.de/forum/eingescannte-dokumente-durchsuchen-489779.html

Ausgedruckt am: 18.07.2025 um 02:07 Uhr

11 Kommentare

Neuester Kommentar

Servus. Schau dir mal Paperport an.

Windows oder Linux?

linux-magazin.de/ausgaben/2004/04/finden-im-sauseschritt/

Kostenfrei und schnell aufgesetzt.

Moin,

was Du suchst ist ein Document Management System (kurz DMS). Da gibt es auch einiges als freeware oder open source. Empfehlen kann ich Dir nichts, da das stark von der Art der Dokumente und den Zielen abhängt, was man so braucht.

Liebe Grüße

Erik

Moin,

@erikro
Was er sucht ist OCR nicht DMS. Er will die Dokumente ja nicht verwalten sondern durchsuchbar machen...

Gruß
em-pie

Zitat von @em-pie:

Moin,

@erikro
Was er sucht ist OCR nicht DMS. Er will die Dokumente ja nicht verwalten sondern durchsuchbar machen...

Das verstehe ich anders. Eingescannte Dokumente (Plural) durchsuchen heißt m. E., dass er verschiedene PDFs nach Schlagworten durchsuchen möchte. Aber vielleicht klärt das der TO mal.

tesseract-ocr

Ganz gut dank API / Kommandozeileninterface, hab mir letztes Jahr z.B. daraus ein Tool gehackt das die Rechnungen / Lieferscheine nach der Referenznummer und Dokumentenart benennt - Erfolgsquote ~ 95%

Hallo,

Zitat von @imkimkimk:
ich bin auf der Suche nach einem Tool mit dem ich eingescannte Dokumente(als pdf) durchsuchen kann.

Was ist in dein PDF enthalten? Ein eingescanntes Bild? Nur eingescannter Text der schon mit OCR behandelt wurde? Fragen über fragen. Nur weil etwas wie ein A aussieht muss es noch lange kein A sein, es kann auch nur das Bild eines A sein, und Text durchsuchen setzt nunmal Text voraus. Schon mal dir ein PDF auf Dateiebene angesehen wie die sich unterscheiden?

Gruß,
Peter

Habe ich:

Schau Dir mal PDF X-Change Editor an.

Eine der kostenlosen Funktionen ist auch, dass Du damit PDF-Dokumente durchsuchbar machen und als solche speichern kannst.

Ferner: Du kannst kostenpflichtige Funktionen sogar ausblenden, wenn Du nicht bezahlen willst.

tracker-software.com/product/pdf-xchange-editor

Also ich verstehe das auch so, dass da schon eine OCR Erkennung drüber ist beim Einscannen?
Also wenn das schon der Fall ist dann reicht ein Ordner und in dem Ordner kannst du eigentlich
mit Parametern suchen über die Windowssuche oben rechts im Eck

inhalt:"Rechnung muss bis zum 12.09.2019 bezahlt werden!"

Das wäre der einfachste Weg

Zitat von @NetzwerkDude:

tesseract-ocr

Ganz gut dank API / Kommandozeileninterface, hab mir letztes Jahr z.B. daraus ein Tool gehackt das die Rechnungen / Lieferscheine nach der Referenznummer und Dokumentenart benennt - Erfolgsquote ~ 95%

Nach Anleitung oder selbst? Hast du dazu die Seite (Kenne mich in dem Bereich Programmierung nicht aus)

Selbst, schlussendlich gehts darum wie man am besten OCR Fehler behandelt (da gerne mal zufällige zeichen erkannt werden) - und da muss man schauen ob man besser mit RegEx oder Levenshtein Distanz fährt usw.

Das Tool ist leider nicht allzu universell da ich mit einem sehr speziellen Regex die Firmenspezifischen Infos rausziehe.

Schlussendlich sinds zwei Schritte:
- Ursprungsscan behandeln (begradigen, optimalen Kontrast finden etc.) und an tesseract übergeben
- die Ausgabe durchsuchen

Frage Microsoft Windows 10

Mehr von imkimkimk

Windows Server 2019 Feature installation geht nichtimkimkimk - 3 Kommentare

SQL Server verweigert verbindungimkimkimk - 21 Kommentare

PHP und MS SQLimkimkimk - 1 Kommentar

Capture Card geht nur wenige Sekundenimkimkimk - 1 Kommentar

Heiß diskutiert