tantalos
Goto Top

Suche über größeren PDF-Datenbestand

Hallo,

wir suchen nach einer Möglichkeit für eine effiziente Suche über einen größeren Bestand von PDF-Dateien.

Beim Datenbestand handelt es sich um ca. 500.000 bis 1.000.000 PDF-Dateien, über die bereits eine OCR lief, so dass sie durchsuchbar sind.

Die Dateien sind in einer Verzeichnisstruktur abgelegt.

Benötigt wird eine Suchfunktion, bei der man den gesamten Dateibestand (Inhalte aller Dateien, nicht nur Dateinamen) nach einem oder mehreren Strings durchsuchen lassen kann (bspw. Rechnungsnummer, Datum, Firmenname). Die Strings müssen dabei über AND und OR verknüpfbar sein. Nice to have wären zusätzlich NOT und XOR.

Es sollen dann alle Dateien angezeigt werden, deren Inhalte mit den Suchparametern matchen.

Nice to have wäre es, wenn man durch einfachen Klick auf eine Datei in der Suchergebnisliste eine Vorschau eingeblendet bekommen würde.

Der Datenbestand liegt

  • entweder auf einem lokalen Laufwerk in einer virtuellen Maschine auf Basis von Windows Server 2025. In diesem Falle würde man in dieser VM eingeloggt sein und die Suche in dieser Windows-Sitzung stattfinden.
  • oder auf einem unter Linux gehosteten Samba-Share, das auf einer Remote-Maschine unter Windows 11 als Netzlaufwerk eingebunden ist. In diesem Fall fände die Suche auf der Remote-Maschine unter Windows 11 statt.

Wie würdet Ihr das Ganze aufbauen?

Welche Software würdet Ihr zur Suche nehmen?

Wie würdet Ihr das Windows konfigurieren?


Wichtig:
  • Es soll explizit kein DMS zum Einsatz kommen.
  • Die Suche soll schnell abgeschlossen sein, d.h. es muss irgendeine Art von Indizierung geben.

Für sachdienliche Hinweise sehr dankbar,

tantalos

Content-ID: 670519

Url: https://administrator.de/forum/suche-ueber-groesseren-pdf-datenbestand-670519.html

Ausgedruckt am: 08.01.2025 um 03:01 Uhr

kreuzberger
kreuzberger 06.01.2025 um 22:52:02 Uhr
Goto Top
Moin @tantalos

also . .. . eigentlich kann sowas Adobe Acrobat Pro selbst, so dass anmit dem Acrobat Reader vom Client aus auf einem Server sekundenschnell suchen kann.

Es kann aber sein, dass es ratsam ist andere Systeme für so große Mengen gibt. Ggf, mit SQL oder ähnlichem.

Kreuzberger
DivideByZero
DivideByZero 07.01.2025 um 01:11:21 Uhr
Goto Top
Moin,

Daten auf eine Synology, dort Universal Search.

Gruß

DivideByZero
StefanKittel
StefanKittel 07.01.2025 um 01:21:13 Uhr
Goto Top
Moin,

mir kommen hier die Begriffe ELK-Stack und Elasticsearch in den Kopf.
Aber das müsste man erst erstellen.

Ich würde prüfen ob man diese PDF-Dateien nicht in Text-Dateien umwandeln kann um sie einfacher zu durchsuchen.

Was fertiges habe ich aber nicht zur Hand.

Stefan
Moritz2009
Moritz2009 07.01.2025 aktualisiert um 01:29:50 Uhr
Goto Top
Hallo,
die Verzeichnisstruktur in DMS-Office-n-PDF importieren und suchen.
Es gibt eine Testversion.

Gruß Moritz2009
tantalos
tantalos 07.01.2025 um 03:32:38 Uhr
Goto Top
Danke schon mal für Eure Antworten.

Gibt es ein dem Acrobat Pro vergleichbares Programm, das ohne Abo-Modell funktioniert?

Oder ein Desktop-Such-Tool, das indiziert und in dem man sucht?

Gibt es eine Lösung mit Windows-Bordmitteln (Explorer)?
kreuzberger
kreuzberger 07.01.2025 um 04:01:38 Uhr
Goto Top
Das was Adobe Pro da macht ist eben eine Eigenentwicklung von Adobe. Da gibt es keinen weg daran vorbei.

Andere Such-Tools: Benutze er seinen LieblungsBrowser und seine Lieblungssuchmaschine.

Kreuzberger
gastric
gastric 07.01.2025 aktualisiert um 07:50:12 Uhr
Goto Top
ThePinky777
ThePinky777 07.01.2025 aktualisiert um 08:14:57 Uhr
Goto Top
Man kann Indexierung am Server im Verzeichnis machen und am Client als Bibliothek einbinden und dann indexiert drin suchen:

hier mal ne alte Anleitung wie das zu machen ist:
https://cloudtec.ch/blog/tech/add-a-search-indexed-network-share-to-your ...

man muss den ordner am File Server indexieren und das share dann als Bibliothek am Client verbinden dann nutzt der Client den Index vom Server.
Damit kann man prima volltext suche machen, gibt halt keine and or xnor oder solche funktionen....
Kostet dafür auch nix face-smile
mylight
mylight 07.01.2025 um 09:18:34 Uhr
Goto Top
Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.
IceAge
IceAge 07.01.2025 um 09:30:27 Uhr
Goto Top
Guten Morgen,

wir nutzen dafür die DOCBOX mit dem Modul Foldersync, hier ein Link zum Video des Herstellers.

Grüße Ice
ThePinky777
ThePinky777 07.01.2025 aktualisiert um 09:59:15 Uhr
Goto Top
Zitat von @mylight:

Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.

da musst du aufpassen bei ca. 90.000 Dateien gibts da sync probleme OneDrive technisch, hatten wir mal gesprengt und dann war das geheule mega. sharepoint ist nicht als datenmüllhalde geeignet will ich damit sagen.
hschnei
hschnei 07.01.2025 um 10:33:58 Uhr
Goto Top
Bei grösseren Datenmengen hilft:

https://www.dtsearch.com/

MfG
Hans-Jürgen
mbehrens
mbehrens 07.01.2025 um 17:32:55 Uhr
Goto Top
Zitat von @StefanKittel:

mir kommen hier die Begriffe ELK-Stack und Elasticsearch in den Kopf.

Elastic viel mir auch als erstes ein.

Was fertiges habe ich aber nicht zur Hand.

Es kommt eben auch stark darauf an, in welchem Umfeld man in Zukunft leben will. Fileserver, DB, DMS, ...