Software zum Inhaltsvergleich von PDF-Dateien von verschiedenen Scannern

Hallo,

ich bin auf der Suche nach einer guten Software, die es mir ermöglicht zu prüfen, ob in einem Ordnerpfad bereits ein oder mehrere Dokumente vorhanden sind, die identisch oder ähnlich sind.

Das Problem hierbei ist jedoch, dass die Dokumente teilweise von Hand geschrieben wurden und blöderweise teilweise mehrfach mit verschiedenen Scannern und Scan-Profilen eingescannt und abgelegt wurden.

Jedes PDF hat genau eine Seite, ist jedoch unterschiedlich groß, da mal in S/W bzw. Farbe oder mit 200x200 dpi bzw. 600x600 dpi gescannt wurde, ab und zu auch etwas schief.

Ich benötige keine Software, die dies zu 100 % genau erkennt, jedoch Vorschläge gibt, welche Datei einer anderen ähnelt. PDF24 habe ich bereits ausprobiert und es bringt nicht das gewünschte Ergebnis.

Ziel ist es, in einem Quellordner von mehreren Tausend Dokumenten zu reduzieren und im besten Fall nur eine einzige Datei von einem Blatt zu besitzten.

Gerne unter Windows, damit auch unsere Bürokräfte diese Arbeit erledigen können (wenig Linux-Erfahrende Enduser).

Viele Grüße

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 71572178629

Url: https://administrator.de/forum/software-zum-inhaltsvergleich-von-pdf-dateien-von-verschiedenen-scannern-71572178629.html

Ausgedruckt am: 26.07.2025 um 02:07 Uhr

3 Kommentare

Neuester Kommentar

Also ich bin da bei einer KI wie AI.SEE

Moin Moin,

Zone-OCR und Vorlagen Abgleich wie in Scanner Vision würden mir da in den Kopf kommen.

triumph-adler.com/ta-de-de/software/scannen

utax.com/de-de/software/software-solution/capture-and-distributi ...

Mit ScannerVision kann Ich Dokumente, die eine Struktur haben, erfassen und automatisch weiter verarbeiten.

api-ta-prod.utax.de/resource/blob/8368/4765a0d0dccf27dec3c637370 ...

api-ta-prod.utax.de/resource/blob/81402/1afe4e3b2334126170853d01 ...

Ich kann Vorlagen einscannen und Bereiche festlegen die eine bestimmte Bedeutung haben (zB Datum / VertragsNr / KundenNr / ProjektNr / ...).
Sobald die Vorlage erkannt wird, wird sie automatisch, so wie der Admin es festlegt.., weiter verarbeitet.

Und der Fantasie sind kaum Grenzen gesetzt.

Ich kann MetaDaten, wie Auflösung / Farbe / HerkunftsOrt.. auch in den Dateinamen einfließen lassen.

Und man kann über eine Test-Version reden :-p
Bzw nach einem UTAX Partner sich erkundigen der dies zeigt.

Die Anwender KÖNNEN Ihre Daten auch mittels eines Tools direkt nach ScannerVision importieren und die Meta-Daten händisch anpassen.
Aber wenn es strukturierte Dokumente sind, wo sich Daten an ~ der gleichen Stelle sind, mit einer Toleranz die Ich (der Admin) selbst festlege, kann dies automatisch erfolgen.

Wenn es natürlich nur "Schmierblätter" sind, die zwar wichtige Daten enthalten aber keinerlei Struktur, dann muss das schon Händisch weiter verarbeitet werden.
Aber Schieflage kann ja schon mal korregiert werden automatisch, das was identisch ist zusammengefasst, etc

Viel Erfolg.
Tom