qwertzy0815
Goto Top

Tool zum automatisierten Finden ähnlicher PDFs gesucht

Hallo zusammen,

nach ergebnisloser Netzsuche wende ich mich (ohne all zu große Hoffnung) an Euch.

Kennt jemand ein Tool mit dem man Verzeichnispfade / Laufwerke gezielt nach PDF-Dateien durchsuchen und diese automatisiert auf "Ähnlichkeit" miteinander vergleichen kann. Ich habe deswegen nicht all zu viel Hoffnung, da die PDFs Scans, also Bilddaten, enthalten.

Ziel soll es sein, doppelte Scans zu finden und anhand der Suchergebnisse nach händischem Vergleich die Doppel zu eliminieren.

Ich weiß, dass sowas bei Audio- oder Bilddaten ganz gut funktioniert. In Tools wie bspw. Anti-Twin oder AllDup lassen sich Kriterien oder Prozentzahlen für die Übereinstimmung bei diesen Dateitypen einstellen. Sowas bräuchte ich für PDFs.

Kennt da jemand was?

Content-ID: 671101

Url: https://administrator.de/forum/tool-zum-automatisierten-finden-aehnlicher-pdfs-gesucht-671101.html

Printed on: February 9, 2025 at 07:02 o'clock

DivideByZero
DivideByZero Feb 03, 2025 at 02:24:02 (UTC)
Goto Top
Moin,

So direkt kenne ich nichts. Mit Umweg : erst einmal über alles OCR drüber laufen lassen. Dann Texte extrahieren und diese vergleichen. Ist aufwändig, lohnt sich also nur bei großen Mengen.

Gruß

DivideByZero
eggired
eggired Feb 03, 2025 at 05:51:46 (UTC)
Goto Top
Moin,

ad hoc kenne ich keine direkte Lösung.

Ein möglicher Ansatz wäre ggf. noch, mit Powershell eine Auflistung aller Dateien zu erzeugen mit Pfad, Dateinamen, Zeitstempel der Dateierstellung (optional auch Änderung) und dem Dateihash.

Die Liste könnte dann in eine Exceldatei eingelesen werden, um z. B. bei den Hashwerten doppelte Ergebnisse über die „Doppelte Werte finden“-Funktion zu finden. So könnest Du mögliche „Verdachtsfälle“ ermitteln, um dann weiter prüfen zu können.

Viele Grüße
eggired
MirkoKR
MirkoKR Feb 03, 2025 at 09:01:59 (UTC)
Goto Top
Moin.

Kenne zwar auch kein Tool aus der Anwendung, aber habe sowas schon gelesen:

eine Websuche nach "KI PDF vergleichen" brachte als erstes dieses, was schon dem entsprechen könnte:

Adobe Acrobat: PDF vergleichen
DivideByZero
DivideByZero Feb 03, 2025 at 09:17:12 (UTC)
Goto Top
Moin,

der Ansatz von @MirkoKR hat mich zu einer passenden Google-Suche geführt.
Schau Dir mal an: PDF-Dokumente automatisiert vergleichen.

Da wird auf ein kostenpflichtiges Tool PDiff verwiesen, das laut Artikel und Herstellerbeschreibung in der teureren Version auch über die Kommandozeile und mit Ordnerstrukturen arbeitet: Automatisierung für große Datenbestände. Preis aber nicht ersichtlich, kann also teuer sein. Das Tool kenne ich auch nicht. Ob die im Artikel erwähnte kleinere Version PDiff Express auch ausreicht, keine Ahnung.

Gruß

DivideByZero
qwertzy0815
qwertzy0815 Feb 03, 2025 at 12:52:02 (UTC)
Goto Top
Zitat von @DivideByZero:
... erst einmal über alles OCR drüber laufen lassen. Dann Texte extrahieren und diese vergleichen.
Einen ähnlichen gedanklichen Ansatz hatte ich auch schon. Da ich aber mit Texterkennungen bisher durchweg schlechte Erfahrungen gemacht habe und es sich nicht nur um PDFs mit Textinhalten handelt, wäre ich in die Richtung gegangen, die PDFs irgendwie in Bilder zu wandeln und diese automatisiert auf Ähnlichkeiten zu überprüfen.
Nur: Solch eine Prozedur ist aufwendig (Zeit und Speicher). Und es ist fraglich, wie zuverlässig die Vergleichsprogramme nach einer solchen Umwandlung noch arbeiten. Darum hoffe ich auf andere Ansätze mit einer "All-in-One-Lösung".

Zitat von @eggired:
Ein möglicher Ansatz wäre ggf. noch, mit Powershell eine Auflistung aller Dateien zu erzeugen mit Pfad, Dateinamen, Zeitstempel der Dateierstellung (optional auch Änderung) und dem Dateihash.
Die Scans wurden zu unterschiedlichen Zeiten erzeugt (dadurch entstanden ja die möglichen Doppel, Stichwort "viele Köche...") und willkürlich benannt. Eine Liste mit diesen "Äußerlichkeiten" wird also nichts bringen.

Zitat von @MirkoKR:
eine Websuche nach "KI PDF vergleichen" brachte als erstes dieses, was schon dem entsprechen könnte:
Adobe Acrobat: PDF vergleichen
Solche Tools habe ich im Netz ebenfalls gefunden. Sie scheinen aber nur dazu zu dienen, Änderungen innerhalb einzelner PDFs hervorzuheben; also bspw. Bearbeitungsschritte oder Unterschiede im Text. Das nützt mir nichts, da ich ein Tool brauche, das große Mengen von PDFs untereinander vergleicht und eben nicht einzelne Abweichungen optisch darstellt. Mein Ziel es, eine Auflistung möglicher gleicher PDFs zu erhalten, die dann durchgeschaut werden.
MirkoKR
MirkoKR Feb 03, 2025 at 13:43:32 (UTC)
Goto Top
Zitat von @qwertzy0815:

Solche Tools habe ich im Netz ebenfalls gefunden. Sie scheinen aber nur dazu zu dienen, Änderungen innerhalb einzelner PDFs hervorzuheben; also bspw. Bearbeitungsschritte oder Unterschiede im Text. Das nützt mir nichts, da ich ein Tool brauche, das große Mengen von PDFs untereinander vergleicht und eben nicht einzelne Abweichungen optisch darstellt. Mein Ziel es, eine Auflistung möglicher gleicher PDFs zu erhalten, die dann durchgeschaut werden.

Also mein Link zum Acrobat nennt explizit auch das Vergleichen von Scans ... und es werden wohl - wie bei solchen Tools meist üblich - wohl in beiden Dokumenten die Abweichungen hervorgehoben 🤔
qwertzy0815
qwertzy0815 Feb 03, 2025 at 13:43:48 (UTC)
Goto Top
Zitat von @DivideByZero:

Moin,

der Ansatz von @MirkoKR hat mich zu einer passenden Google-Suche geführt.
Schau Dir mal an: PDF-Dokumente automatisiert vergleichen.

Da wird auf ein kostenpflichtiges Tool PDiff verwiesen, das laut Artikel und Herstellerbeschreibung in der teureren Version auch über die Kommandozeile und mit Ordnerstrukturen arbeitet: Automatisierung für große Datenbestände. Preis aber nicht ersichtlich, kann also teuer sein. Das Tool kenne ich auch nicht. Ob die im Artikel erwähnte kleinere Version PDiff Express auch ausreicht, keine Ahnung.

Gruß

DivideByZero
Auweia. Bei dem Heise-Artikel war ich während meiner Suche auch schon und habe ihn verworfen, da zuerst auf den Vergleich einzelner PDFs eingegangen wird und die Bilder das auch im weiteren Verlauf vermuten lassen.

Die Internetsite von CSci Computer Science GmbH zum Thema ist hoch interessant. Ich habe eben die 10 Insider-Tipps gelesen und sie scheint leider meine Befürchtung zu bestätigen, dass es praktisch nicht möglich sein dürfte, Scan-PDFs vernünftig zu vergleichen (s. insbesondere Tipp 4).
Es heißt dort zwar, dass ein grafikbasierter Vergleich von PDF zwar prinzipiell möglich ist, aber bei Scans aufgrund der Wandlung von analog nach digital vorab zu riesigem Bearbeitungsaufwand der Bilder führen muss.

Klar. Und hier liegt auch der Unterschied zum Vergleich ähnlicher Bilder oder Audios, auf die sich einige Softwaren zur Doppelsuche spezialisiert haben. Im Falle von Bildern werden ähnliche wahrscheinlich dann gefunden, wenn sie digital nachbearbeitet wurden (Kompression, Dimensionen o. Ä.). Bei Audios kann ich die digitalen Wellenmuster vergleichen.

PDiff scheint hier zwar einen professionellen Ansatz zu suchen, kann mich aber aufgrund der dargestellten Problemen nicht überzeugen.

Ich bin von dem Ergebnis nicht überrascht. Wie geschrieben hatte ich von vornherein nicht viel Hoffnung. Ich denke, ich werde nach augenscheinlichen Doppeln anhand ähnlicher Benennung u. Ä. suchen und verbleibende Redundanzen erstmal in Kauf nehmen.

Danke Euch allen!
MirkoKR
MirkoKR Feb 03, 2025 updated at 13:48:50 (UTC)
Goto Top
... dein verlinkter Vergleich ist von 02.2024, also deutlich borher - seitdem wurde im Acrobat und anderen Tools viel KI verbaut, die die Ergebnisse wohl deutlich verbessern .
.
qwertzy0815
qwertzy0815 Feb 03, 2025 updated at 13:54:53 (UTC)
Goto Top
Zitat von @MirkoKR:
Also mein Link zum Acrobat nennt explizit auch das Vergleichen von Scans ... und es werden wohl - wie bei solchen Tools meist üblich - wohl in beiden Dokumenten die Abweichungen hervorgehoben 🤔

Oh. Entschuldige! Jetzt hab ich's auch entdeckt. Adobe Pro kommt aber nicht in Frage, da ich es einfach zu teuer finde und mir die Abopflicht widerstrebt.
qwertzy0815
qwertzy0815 Feb 03, 2025 at 13:58:42 (UTC)
Goto Top
Zitat von @MirkoKR:
... dein verlinkter Vergleich ist von 02.2024, also deutlich borher - seitdem wurde im Acrobat und anderen Tools viel KI verbaut, die die Ergebnisse wohl deutlich verbessern .
Mhm. In Richtung KI ging auch meine Hoffnung. Es scheint ja aber (noch) keine brauchbaren Erfahrungswerte zum Vergleich von Scans zu geben?
MirkoKR
MirkoKR Feb 03, 2025 at 14:13:47 (UTC)
Goto Top
Aus Interesse recherchiere ich auch ein wenig und bin auf diesen interessanten Artikel gestoßen, welcher auch Know How zur Dokumentenverwaltung / -vergleich liefert:

https://pdf.wondershare.de/pdf-tips/ai-pdf-compare.html
cse
cse Feb 04, 2025 updated at 12:47:01 (UTC)
Goto Top
Hidiho,

warum nicht Anti-Twin nehmen und einfach den Filter auf PDF setzen?

2025-02-04 13_43_12-anti-twin anleitung und 3 weitere seiten - geschäftlich – microsoft​ edge

#meinezweipfennig

VG
CSE
DivideByZero
DivideByZero Feb 04, 2025 at 13:24:30 (UTC)
Goto Top
Hidiho,
warum nicht Anti-Twin nehmen und einfach den Filter auf PDF setzen?

Weil es ja um ggf. unterschiedlich gescannte Inhalte geht, die dann - sofern nicht der Textlayer verglichen wird - auch zu entscheidend unterschiedlichen Dateiinhalten führen.
qwertzy0815
qwertzy0815 Feb 04, 2025 updated at 14:44:12 (UTC)
Goto Top
Genau.

Ganz zu Anfang habe ich es mit AntiTwin (, von dem ich großer Fan bin,) versucht. U. a. ermöglicht es die Suche nach Ähnlichkeiten von Bildern durch prozentuale Einstellung des Übereinstimmungsgrades. D. h. hier wird (neben anderen Kriterien) pixelgenau verglichen. Und genau das macht es bei PDFs nicht. Schließlich ist PDF ja ein Container, der unterschiedliche Inhalte enthalten kann (Grafiken, Text und wer weiß was noch). Um pixelgenau vergleichen zu können, müsste also praktisch eine Umwandlung in ein Grafikformat erfolgen oder zumindest andere Bestandteile ignoriert werden.

AntiTwin beschwert sich nicht, wenn PDFs verglichen werden. Das macht es mit keiner Datei. Es wirft aber einfach nur unbrauchbare Ergebnisse aus: Bei mir wird, je nach "Schärfeeinstellung" der gewünschten Vergleichsprozente, entweder nichts oder aber alles für Duplikate befunden.
cse
cse Feb 04, 2025 at 14:48:27 (UTC)
Goto Top
ok verstehe, schade.
DivideByZero
DivideByZero Feb 04, 2025 at 15:22:25 (UTC)
Goto Top
Zitat von @qwertzy0815:
Um pixelgenau vergleichen zu können, müsste also praktisch eine Umwandlung in ein Grafikformat erfolgen oder zumindest andere Bestandteile ignoriert werden.

Das wäre natürlich auch noch eine Möglichkeit. Alle PDFs in Grafiken umwandeln lassen (automatisiert, Kommandozeile), dann die Grafiken vergleichen und dann ggf. die Original-PDFs mitlöschen.
MirkoKR
MirkoKR Feb 04, 2025 at 18:56:57 (UTC)
Goto Top
Mal von einer anderen Seite gedacht:

Das multiple Scannen eliminieren:

- vorgegebene Syntax der Speicherdatei: z.B.
[kundennr]-[RGNr | AuftragNr]-[JJJJ-MM-TT].pdf

- Bearbeitungsstempel auf Original
-- vor/nach dem Scan

- Stempel mit festen Feldern, die vom Scanner ausgewertet und die Datei entsprechend gespeichert wird

Sowas gibt es z.B. im Rechnungswesen

Ich habe mal sowas bei einer Ex-Firma für Aufträge der Kunden eingerichtet.

Dazu habe ich für den Netzwerk Twain-Drucker/Scanner auf einem PC "naps" installiert mit spezieller Speicherberechtigung auf einem Netzlaufwerk. Hier kann man den Dateinamen und Pfad dynamisch vordefinieren ...die MAs mussten nur den Kunden-Unterordner anhand der Kundennr auswählen und das Dokument markieren ...

... sowas lässt sich aber automatisieren, entweder, wenn die Daten eindeutig [ungefähr] an derselben Stelle stehen, oder eben einem Systemstempel mit festen Feldern.

Auch eine Abfragemaske nach dem Scan und vor dem Speichern wäre mit Tools wohl machbar ...

... frei nach dem Motto: die Aufgabe ist nicht neu, also gibt es sicher Lösungsansätze ...
NordicMike
NordicMike Feb 05, 2025 at 09:05:43 (UTC)
Goto Top
Adobe Pro kommt aber nicht in Frage, da ich es einfach zu teuer finde und mir die Abopflicht widerstrebt.
Als OCR Alternative macht es auch Nuance Omnipage, sogar automatisiert im Hintergrund. Falls viel Arbeit wenig Geld kosten darf, gäbe es noch gebrauchte Lizenzen in der Bucht.

"Durchsuchbare PDFs" lassen sich schonmal gut prüfen und filtern. Wenn dann alle PDFs mit Text schon mal eliminiert sind, bleiben nur noch die PDFs mit den Bildern, also ohne Text, übrig. Evl sind es dann gar nicht mehr so viele.
qwertzy0815
qwertzy0815 Feb 06, 2025 updated at 19:44:46 (UTC)
Goto Top
Ich habe nun eine brauchbare Lösung gefunden.

Der Ansatz, die PDFs in reine Bilddaten zu konvertieren und sie dann zu vergleichen, scheint brauchbare Ergebnisse zu liefern.

Fürs Konvertieren verwende ich die Batchfunktionalität von IrfanView, zum Vergleichen kommt Anti-Twin zum Einsatz.

Um ehrlich zu sein, hätte ich nicht gedacht, dass die Umwandelei ins Grafikformat tatsächlich so praktikabel ist. Es funktioniert aber ordentlich und die Trefferquote erscheint mir sehr zufriedenstellend.

Danke für all Eure Hilfe!
DivideByZero
DivideByZero Feb 06, 2025 at 21:03:39 (UTC)
Goto Top
Danke, dass Du die Lösung genannt hast.
Dann fehlt ja nur noch:; Wie kann ich einen Beitrag als gelöst markieren?.
qwertzy0815
qwertzy0815 Feb 06, 2025 at 21:14:24 (UTC)
Goto Top
Ups.
Örlödicht. face-smile