Suche über größeren PDF-Datenbestand
Hallo,
wir suchen nach einer Möglichkeit für eine effiziente Suche über einen größeren Bestand von PDF-Dateien.
Beim Datenbestand handelt es sich um ca. 500.000 bis 1.000.000 PDF-Dateien, über die bereits eine OCR lief, so dass sie durchsuchbar sind.
Die Dateien sind in einer Verzeichnisstruktur abgelegt.
Benötigt wird eine Suchfunktion, bei der man den gesamten Dateibestand (Inhalte aller Dateien, nicht nur Dateinamen) nach einem oder mehreren Strings durchsuchen lassen kann (bspw. Rechnungsnummer, Datum, Firmenname). Die Strings müssen dabei über AND und OR verknüpfbar sein. Nice to have wären zusätzlich NOT und XOR.
Es sollen dann alle Dateien angezeigt werden, deren Inhalte mit den Suchparametern matchen.
Nice to have wäre es, wenn man durch einfachen Klick auf eine Datei in der Suchergebnisliste eine Vorschau eingeblendet bekommen würde.
Der Datenbestand liegt
Wie würdet Ihr das Ganze aufbauen?
Welche Software würdet Ihr zur Suche nehmen?
Wie würdet Ihr das Windows konfigurieren?
Wichtig:
Für sachdienliche Hinweise sehr dankbar,
tantalos
wir suchen nach einer Möglichkeit für eine effiziente Suche über einen größeren Bestand von PDF-Dateien.
Beim Datenbestand handelt es sich um ca. 500.000 bis 1.000.000 PDF-Dateien, über die bereits eine OCR lief, so dass sie durchsuchbar sind.
Die Dateien sind in einer Verzeichnisstruktur abgelegt.
Benötigt wird eine Suchfunktion, bei der man den gesamten Dateibestand (Inhalte aller Dateien, nicht nur Dateinamen) nach einem oder mehreren Strings durchsuchen lassen kann (bspw. Rechnungsnummer, Datum, Firmenname). Die Strings müssen dabei über AND und OR verknüpfbar sein. Nice to have wären zusätzlich NOT und XOR.
Es sollen dann alle Dateien angezeigt werden, deren Inhalte mit den Suchparametern matchen.
Nice to have wäre es, wenn man durch einfachen Klick auf eine Datei in der Suchergebnisliste eine Vorschau eingeblendet bekommen würde.
Der Datenbestand liegt
- entweder auf einem lokalen Laufwerk in einer virtuellen Maschine auf Basis von Windows Server 2025. In diesem Falle würde man in dieser VM eingeloggt sein und die Suche in dieser Windows-Sitzung stattfinden.
- oder auf einem unter Linux gehosteten Samba-Share, das auf einer Remote-Maschine unter Windows 11 als Netzlaufwerk eingebunden ist. In diesem Fall fände die Suche auf der Remote-Maschine unter Windows 11 statt.
Wie würdet Ihr das Ganze aufbauen?
Welche Software würdet Ihr zur Suche nehmen?
Wie würdet Ihr das Windows konfigurieren?
Wichtig:
- Es soll explizit kein DMS zum Einsatz kommen.
- Die Suche soll schnell abgeschlossen sein, d.h. es muss irgendeine Art von Indizierung geben.
Für sachdienliche Hinweise sehr dankbar,
tantalos
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 670519
Url: https://administrator.de/forum/suche-ueber-groesseren-pdf-datenbestand-670519.html
Ausgedruckt am: 08.01.2025 um 03:01 Uhr
13 Kommentare
Neuester Kommentar
Moin @tantalos
also . .. . eigentlich kann sowas Adobe Acrobat Pro selbst, so dass anmit dem Acrobat Reader vom Client aus auf einem Server sekundenschnell suchen kann.
Es kann aber sein, dass es ratsam ist andere Systeme für so große Mengen gibt. Ggf, mit SQL oder ähnlichem.
Kreuzberger
also . .. . eigentlich kann sowas Adobe Acrobat Pro selbst, so dass anmit dem Acrobat Reader vom Client aus auf einem Server sekundenschnell suchen kann.
Es kann aber sein, dass es ratsam ist andere Systeme für so große Mengen gibt. Ggf, mit SQL oder ähnlichem.
Kreuzberger
Man kann Indexierung am Server im Verzeichnis machen und am Client als Bibliothek einbinden und dann indexiert drin suchen:
hier mal ne alte Anleitung wie das zu machen ist:
https://cloudtec.ch/blog/tech/add-a-search-indexed-network-share-to-your ...
man muss den ordner am File Server indexieren und das share dann als Bibliothek am Client verbinden dann nutzt der Client den Index vom Server.
Damit kann man prima volltext suche machen, gibt halt keine and or xnor oder solche funktionen....
Kostet dafür auch nix
hier mal ne alte Anleitung wie das zu machen ist:
https://cloudtec.ch/blog/tech/add-a-search-indexed-network-share-to-your ...
man muss den ordner am File Server indexieren und das share dann als Bibliothek am Client verbinden dann nutzt der Client den Index vom Server.
Damit kann man prima volltext suche machen, gibt halt keine and or xnor oder solche funktionen....
Kostet dafür auch nix
Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.
Guten Morgen,
wir nutzen dafür die DOCBOX mit dem Modul Foldersync, hier ein Link zum Video des Herstellers.
Grüße Ice
wir nutzen dafür die DOCBOX mit dem Modul Foldersync, hier ein Link zum Video des Herstellers.
Grüße Ice
Zitat von @mylight:
Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.
Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.
da musst du aufpassen bei ca. 90.000 Dateien gibts da sync probleme OneDrive technisch, hatten wir mal gesprengt und dann war das geheule mega. sharepoint ist nicht als datenmüllhalde geeignet will ich damit sagen.
Zitat von @StefanKittel:
mir kommen hier die Begriffe ELK-Stack und Elasticsearch in den Kopf.
Elastic viel mir auch als erstes ein.
Was fertiges habe ich aber nicht zur Hand.
Es kommt eben auch stark darauf an, in welchem Umfeld man in Zukunft leben will. Fileserver, DB, DMS, ...