tantalos
Goto Top

Suche über größeren PDF-Datenbestand

Hallo,

wir suchen nach einer Möglichkeit für eine effiziente Suche über einen größeren Bestand von PDF-Dateien.

Beim Datenbestand handelt es sich um ca. 500.000 bis 1.000.000 PDF-Dateien, über die bereits eine OCR lief, so dass sie durchsuchbar sind.

Die Dateien sind in einer Verzeichnisstruktur abgelegt.

Benötigt wird eine Suchfunktion, bei der man den gesamten Dateibestand (Inhalte aller Dateien, nicht nur Dateinamen) nach einem oder mehreren Strings durchsuchen lassen kann (bspw. Rechnungsnummer, Datum, Firmenname). Die Strings müssen dabei über AND und OR verknüpfbar sein. Nice to have wären zusätzlich NOT und XOR.

Es sollen dann alle Dateien angezeigt werden, deren Inhalte mit den Suchparametern matchen.

Nice to have wäre es, wenn man durch einfachen Klick auf eine Datei in der Suchergebnisliste eine Vorschau eingeblendet bekommen würde.

Der Datenbestand liegt

  • entweder auf einem lokalen Laufwerk in einer virtuellen Maschine auf Basis von Windows Server 2025. In diesem Falle würde man in dieser VM eingeloggt sein und die Suche in dieser Windows-Sitzung stattfinden.
  • oder auf einem unter Linux gehosteten Samba-Share, das auf einer Remote-Maschine unter Windows 11 als Netzlaufwerk eingebunden ist. In diesem Fall fände die Suche auf der Remote-Maschine unter Windows 11 statt.

Wie würdet Ihr das Ganze aufbauen?

Welche Software würdet Ihr zur Suche nehmen?

Wie würdet Ihr das Windows konfigurieren?


Wichtig:
  • Es soll explizit kein DMS zum Einsatz kommen.
  • Die Suche soll schnell abgeschlossen sein, d.h. es muss irgendeine Art von Indizierung geben.

Für sachdienliche Hinweise sehr dankbar,

tantalos

Content-ID: 670519

Url: https://administrator.de/forum/suche-ueber-groesseren-pdf-datenbestand-670519.html

Printed on: January 20, 2025 at 20:01 o'clock

kreuzberger
kreuzberger Jan 06, 2025 at 21:52:02 (UTC)
Goto Top
Moin @tantalos

also . .. . eigentlich kann sowas Adobe Acrobat Pro selbst, so dass anmit dem Acrobat Reader vom Client aus auf einem Server sekundenschnell suchen kann.

Es kann aber sein, dass es ratsam ist andere Systeme für so große Mengen gibt. Ggf, mit SQL oder ähnlichem.

Kreuzberger
DivideByZero
DivideByZero Jan 07, 2025 at 00:11:21 (UTC)
Goto Top
Moin,

Daten auf eine Synology, dort Universal Search.

Gruß

DivideByZero
StefanKittel
StefanKittel Jan 07, 2025 at 00:21:13 (UTC)
Goto Top
Moin,

mir kommen hier die Begriffe ELK-Stack und Elasticsearch in den Kopf.
Aber das müsste man erst erstellen.

Ich würde prüfen ob man diese PDF-Dateien nicht in Text-Dateien umwandeln kann um sie einfacher zu durchsuchen.

Was fertiges habe ich aber nicht zur Hand.

Stefan
Moritz2009
Moritz2009 Jan 07, 2025 updated at 00:29:50 (UTC)
Goto Top
Hallo,
die Verzeichnisstruktur in DMS-Office-n-PDF importieren und suchen.
Es gibt eine Testversion.

Gruß Moritz2009
tantalos
tantalos Jan 07, 2025 at 02:32:38 (UTC)
Goto Top
Danke schon mal für Eure Antworten.

Gibt es ein dem Acrobat Pro vergleichbares Programm, das ohne Abo-Modell funktioniert?

Oder ein Desktop-Such-Tool, das indiziert und in dem man sucht?

Gibt es eine Lösung mit Windows-Bordmitteln (Explorer)?
kreuzberger
kreuzberger Jan 07, 2025 at 03:01:38 (UTC)
Goto Top
Das was Adobe Pro da macht ist eben eine Eigenentwicklung von Adobe. Da gibt es keinen weg daran vorbei.

Andere Such-Tools: Benutze er seinen LieblungsBrowser und seine Lieblungssuchmaschine.

Kreuzberger
gastric
gastric Jan 07, 2025 updated at 06:50:12 (UTC)
Goto Top
ThePinky777
ThePinky777 Jan 07, 2025 updated at 07:14:57 (UTC)
Goto Top
Man kann Indexierung am Server im Verzeichnis machen und am Client als Bibliothek einbinden und dann indexiert drin suchen:

hier mal ne alte Anleitung wie das zu machen ist:
https://cloudtec.ch/blog/tech/add-a-search-indexed-network-share-to-your ...

man muss den ordner am File Server indexieren und das share dann als Bibliothek am Client verbinden dann nutzt der Client den Index vom Server.
Damit kann man prima volltext suche machen, gibt halt keine and or xnor oder solche funktionen....
Kostet dafür auch nix face-smile
mylight
mylight Jan 07, 2025 at 08:18:34 (UTC)
Goto Top
Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.
IceAge
IceAge Jan 07, 2025 at 08:30:27 (UTC)
Goto Top
Guten Morgen,

wir nutzen dafür die DOCBOX mit dem Modul Foldersync, hier ein Link zum Video des Herstellers.

Grüße Ice
ThePinky777
ThePinky777 Jan 07, 2025 updated at 08:59:15 (UTC)
Goto Top
Zitat von @mylight:

Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.

da musst du aufpassen bei ca. 90.000 Dateien gibts da sync probleme OneDrive technisch, hatten wir mal gesprengt und dann war das geheule mega. sharepoint ist nicht als datenmüllhalde geeignet will ich damit sagen.
hschnei
hschnei Jan 07, 2025 at 09:33:58 (UTC)
Goto Top
Bei grösseren Datenmengen hilft:

https://www.dtsearch.com/

MfG
Hans-Jürgen
mbehrens
mbehrens Jan 07, 2025 at 16:32:55 (UTC)
Goto Top
Zitat von @StefanKittel:

mir kommen hier die Begriffe ELK-Stack und Elasticsearch in den Kopf.

Elastic viel mir auch als erstes ein.

Was fertiges habe ich aber nicht zur Hand.

Es kommt eben auch stark darauf an, in welchem Umfeld man in Zukunft leben will. Fileserver, DB, DMS, ...
pantox
pantox Jan 08, 2025 at 08:11:56 (UTC)
Goto Top
Hallo tantalos,

unter Windows Server sollte zunächst die Rolle "Windows Search" installiert werden.

Als nächstes wird ein Filterpack für PDF benötigt um auch die Inhalte zu indizieren. Von Adobe heißt dies "PDF iFilter 64" zu finden unter: http://ftp.adobe.com/pub/adobe/acrobat/win/11.x/PDFFilter64Setup.msi (Firefox kann noch FTP-Links verarbeiten)

Installieren und den Programmpfad: C:\Program Files\Adobe\Adobe PDF iFilter 11 for 64-bit platforms\bin in der PATH-Variable eintragen.

Dann muss in den Indizierungoptionen der Pfad/die Pfade zu den PDF-Dateien aufgenommen werden und in den Erweiterten Optionen bei dem Dateityp "pdf" der PDF iFilter ausgewählt und zusätzlich "Eigenschaften und Dateiinhalte indizieren" aktiviert werden.

Die Indexerstellung könnte bei der Menge an PDF-Dateien ein Wochenende in Anspruch nehmen.

Hinweis: Sollte die Netzwerkfreigabe über ein DFS erfolgen, nutzt der ganze Zauber nichts. Nach meiner Erfahrung mit funktionierte die Suche bis Windows Server 2016 über DFS-Pfade nicht, nur über UNC-Pfad verknüpfte Netzlaufwerke. Ist wohl ein bekannter Bug, der bislang nicht gefixt wurde.

Für die Suche auf dem Client kann ich neben dem Explorer "Agent Ransack" von Mythicsoft emfehlen. (https://www.mythicsoft.com/agentransack/) Hier wird ebenfalls eine Volltextsuche durchgeführt und in der Ergebnisliste eine Vorschau der Fundstelle im Dokument angegeben.


Gruß pantox
Enterprise
Enterprise Jan 13, 2025 at 09:16:41 (UTC)
Goto Top
Flash600
Flash600 Jan 13, 2025 at 18:55:34 (UTC)
Goto Top
Hallo,

probier mal "everything"
gastric
gastric Jan 13, 2025 updated at 19:07:18 (UTC)
Goto Top
Zitat von @Flash600:

Hallo,

probier mal "everything"

Erwähnen sollte man hier aber, dass everything nur die MFT indiziert aber nicht die Inhalte der Dateien und kann deshalb ausschließlich über den Datei-/Ordnernamen suchen (das aber dafür rasend schnell)