Tool zum automatisierten Finden ähnlicher PDFs gesucht
Hallo zusammen,
nach ergebnisloser Netzsuche wende ich mich (ohne all zu große Hoffnung) an Euch.
Kennt jemand ein Tool mit dem man Verzeichnispfade / Laufwerke gezielt nach PDF-Dateien durchsuchen und diese automatisiert auf "Ähnlichkeit" miteinander vergleichen kann. Ich habe deswegen nicht all zu viel Hoffnung, da die PDFs Scans, also Bilddaten, enthalten.
Ziel soll es sein, doppelte Scans zu finden und anhand der Suchergebnisse nach händischem Vergleich die Doppel zu eliminieren.
Ich weiß, dass sowas bei Audio- oder Bilddaten ganz gut funktioniert. In Tools wie bspw. Anti-Twin oder AllDup lassen sich Kriterien oder Prozentzahlen für die Übereinstimmung bei diesen Dateitypen einstellen. Sowas bräuchte ich für PDFs.
Kennt da jemand was?
nach ergebnisloser Netzsuche wende ich mich (ohne all zu große Hoffnung) an Euch.
Kennt jemand ein Tool mit dem man Verzeichnispfade / Laufwerke gezielt nach PDF-Dateien durchsuchen und diese automatisiert auf "Ähnlichkeit" miteinander vergleichen kann. Ich habe deswegen nicht all zu viel Hoffnung, da die PDFs Scans, also Bilddaten, enthalten.
Ziel soll es sein, doppelte Scans zu finden und anhand der Suchergebnisse nach händischem Vergleich die Doppel zu eliminieren.
Ich weiß, dass sowas bei Audio- oder Bilddaten ganz gut funktioniert. In Tools wie bspw. Anti-Twin oder AllDup lassen sich Kriterien oder Prozentzahlen für die Übereinstimmung bei diesen Dateitypen einstellen. Sowas bräuchte ich für PDFs.
Kennt da jemand was?
Please also mark the comments that contributed to the solution of the article
Content-ID: 671101
Url: https://administrator.de/forum/tool-zum-automatisierten-finden-aehnlicher-pdfs-gesucht-671101.html
Printed on: February 9, 2025 at 07:02 o'clock
21 Comments
Latest comment
Moin,
ad hoc kenne ich keine direkte Lösung.
Ein möglicher Ansatz wäre ggf. noch, mit Powershell eine Auflistung aller Dateien zu erzeugen mit Pfad, Dateinamen, Zeitstempel der Dateierstellung (optional auch Änderung) und dem Dateihash.
Die Liste könnte dann in eine Exceldatei eingelesen werden, um z. B. bei den Hashwerten doppelte Ergebnisse über die „Doppelte Werte finden“-Funktion zu finden. So könnest Du mögliche „Verdachtsfälle“ ermitteln, um dann weiter prüfen zu können.
Viele Grüße
eggired
ad hoc kenne ich keine direkte Lösung.
Ein möglicher Ansatz wäre ggf. noch, mit Powershell eine Auflistung aller Dateien zu erzeugen mit Pfad, Dateinamen, Zeitstempel der Dateierstellung (optional auch Änderung) und dem Dateihash.
Die Liste könnte dann in eine Exceldatei eingelesen werden, um z. B. bei den Hashwerten doppelte Ergebnisse über die „Doppelte Werte finden“-Funktion zu finden. So könnest Du mögliche „Verdachtsfälle“ ermitteln, um dann weiter prüfen zu können.
Viele Grüße
eggired
Moin.
Kenne zwar auch kein Tool aus der Anwendung, aber habe sowas schon gelesen:
eine Websuche nach "KI PDF vergleichen" brachte als erstes dieses, was schon dem entsprechen könnte:
Adobe Acrobat: PDF vergleichen
Kenne zwar auch kein Tool aus der Anwendung, aber habe sowas schon gelesen:
eine Websuche nach "KI PDF vergleichen" brachte als erstes dieses, was schon dem entsprechen könnte:
Adobe Acrobat: PDF vergleichen
Moin,
der Ansatz von @MirkoKR hat mich zu einer passenden Google-Suche geführt.
Schau Dir mal an: PDF-Dokumente automatisiert vergleichen.
Da wird auf ein kostenpflichtiges Tool PDiff verwiesen, das laut Artikel und Herstellerbeschreibung in der teureren Version auch über die Kommandozeile und mit Ordnerstrukturen arbeitet: Automatisierung für große Datenbestände. Preis aber nicht ersichtlich, kann also teuer sein. Das Tool kenne ich auch nicht. Ob die im Artikel erwähnte kleinere Version PDiff Express auch ausreicht, keine Ahnung.
Gruß
DivideByZero
der Ansatz von @MirkoKR hat mich zu einer passenden Google-Suche geführt.
Schau Dir mal an: PDF-Dokumente automatisiert vergleichen.
Da wird auf ein kostenpflichtiges Tool PDiff verwiesen, das laut Artikel und Herstellerbeschreibung in der teureren Version auch über die Kommandozeile und mit Ordnerstrukturen arbeitet: Automatisierung für große Datenbestände. Preis aber nicht ersichtlich, kann also teuer sein. Das Tool kenne ich auch nicht. Ob die im Artikel erwähnte kleinere Version PDiff Express auch ausreicht, keine Ahnung.
Gruß
DivideByZero
Zitat von @qwertzy0815:
Solche Tools habe ich im Netz ebenfalls gefunden. Sie scheinen aber nur dazu zu dienen, Änderungen innerhalb einzelner PDFs hervorzuheben; also bspw. Bearbeitungsschritte oder Unterschiede im Text. Das nützt mir nichts, da ich ein Tool brauche, das große Mengen von PDFs untereinander vergleicht und eben nicht einzelne Abweichungen optisch darstellt. Mein Ziel es, eine Auflistung möglicher gleicher PDFs zu erhalten, die dann durchgeschaut werden.
Solche Tools habe ich im Netz ebenfalls gefunden. Sie scheinen aber nur dazu zu dienen, Änderungen innerhalb einzelner PDFs hervorzuheben; also bspw. Bearbeitungsschritte oder Unterschiede im Text. Das nützt mir nichts, da ich ein Tool brauche, das große Mengen von PDFs untereinander vergleicht und eben nicht einzelne Abweichungen optisch darstellt. Mein Ziel es, eine Auflistung möglicher gleicher PDFs zu erhalten, die dann durchgeschaut werden.
Also mein Link zum Acrobat nennt explizit auch das Vergleichen von Scans ... und es werden wohl - wie bei solchen Tools meist üblich - wohl in beiden Dokumenten die Abweichungen hervorgehoben 🤔
Aus Interesse recherchiere ich auch ein wenig und bin auf diesen interessanten Artikel gestoßen, welcher auch Know How zur Dokumentenverwaltung / -vergleich liefert:
https://pdf.wondershare.de/pdf-tips/ai-pdf-compare.html
https://pdf.wondershare.de/pdf-tips/ai-pdf-compare.html
Zitat von @qwertzy0815:
Um pixelgenau vergleichen zu können, müsste also praktisch eine Umwandlung in ein Grafikformat erfolgen oder zumindest andere Bestandteile ignoriert werden.
Um pixelgenau vergleichen zu können, müsste also praktisch eine Umwandlung in ein Grafikformat erfolgen oder zumindest andere Bestandteile ignoriert werden.
Das wäre natürlich auch noch eine Möglichkeit. Alle PDFs in Grafiken umwandeln lassen (automatisiert, Kommandozeile), dann die Grafiken vergleichen und dann ggf. die Original-PDFs mitlöschen.
Mal von einer anderen Seite gedacht:
Das multiple Scannen eliminieren:
- vorgegebene Syntax der Speicherdatei: z.B.
[kundennr]-[RGNr | AuftragNr]-[JJJJ-MM-TT].pdf
- Bearbeitungsstempel auf Original
-- vor/nach dem Scan
- Stempel mit festen Feldern, die vom Scanner ausgewertet und die Datei entsprechend gespeichert wird
Sowas gibt es z.B. im Rechnungswesen
Ich habe mal sowas bei einer Ex-Firma für Aufträge der Kunden eingerichtet.
Dazu habe ich für den Netzwerk Twain-Drucker/Scanner auf einem PC "naps" installiert mit spezieller Speicherberechtigung auf einem Netzlaufwerk. Hier kann man den Dateinamen und Pfad dynamisch vordefinieren ...die MAs mussten nur den Kunden-Unterordner anhand der Kundennr auswählen und das Dokument markieren ...
... sowas lässt sich aber automatisieren, entweder, wenn die Daten eindeutig [ungefähr] an derselben Stelle stehen, oder eben einem Systemstempel mit festen Feldern.
Auch eine Abfragemaske nach dem Scan und vor dem Speichern wäre mit Tools wohl machbar ...
... frei nach dem Motto: die Aufgabe ist nicht neu, also gibt es sicher Lösungsansätze ...
Das multiple Scannen eliminieren:
- vorgegebene Syntax der Speicherdatei: z.B.
[kundennr]-[RGNr | AuftragNr]-[JJJJ-MM-TT].pdf
- Bearbeitungsstempel auf Original
-- vor/nach dem Scan
- Stempel mit festen Feldern, die vom Scanner ausgewertet und die Datei entsprechend gespeichert wird
Sowas gibt es z.B. im Rechnungswesen
Ich habe mal sowas bei einer Ex-Firma für Aufträge der Kunden eingerichtet.
Dazu habe ich für den Netzwerk Twain-Drucker/Scanner auf einem PC "naps" installiert mit spezieller Speicherberechtigung auf einem Netzlaufwerk. Hier kann man den Dateinamen und Pfad dynamisch vordefinieren ...die MAs mussten nur den Kunden-Unterordner anhand der Kundennr auswählen und das Dokument markieren ...
... sowas lässt sich aber automatisieren, entweder, wenn die Daten eindeutig [ungefähr] an derselben Stelle stehen, oder eben einem Systemstempel mit festen Feldern.
Auch eine Abfragemaske nach dem Scan und vor dem Speichern wäre mit Tools wohl machbar ...
... frei nach dem Motto: die Aufgabe ist nicht neu, also gibt es sicher Lösungsansätze ...
Adobe Pro kommt aber nicht in Frage, da ich es einfach zu teuer finde und mir die Abopflicht widerstrebt.
Als OCR Alternative macht es auch Nuance Omnipage, sogar automatisiert im Hintergrund. Falls viel Arbeit wenig Geld kosten darf, gäbe es noch gebrauchte Lizenzen in der Bucht."Durchsuchbare PDFs" lassen sich schonmal gut prüfen und filtern. Wenn dann alle PDFs mit Text schon mal eliminiert sind, bleiben nur noch die PDFs mit den Bildern, also ohne Text, übrig. Evl sind es dann gar nicht mehr so viele.
Danke, dass Du die Lösung genannt hast.
Dann fehlt ja nur noch:; Wie kann ich einen Beitrag als gelöst markieren?.
Dann fehlt ja nur noch:; Wie kann ich einen Beitrag als gelöst markieren?.