Suche über größeren PDF-Datenbestand
Hallo,
wir suchen nach einer Möglichkeit für eine effiziente Suche über einen größeren Bestand von PDF-Dateien.
Beim Datenbestand handelt es sich um ca. 500.000 bis 1.000.000 PDF-Dateien, über die bereits eine OCR lief, so dass sie durchsuchbar sind.
Die Dateien sind in einer Verzeichnisstruktur abgelegt.
Benötigt wird eine Suchfunktion, bei der man den gesamten Dateibestand (Inhalte aller Dateien, nicht nur Dateinamen) nach einem oder mehreren Strings durchsuchen lassen kann (bspw. Rechnungsnummer, Datum, Firmenname). Die Strings müssen dabei über AND und OR verknüpfbar sein. Nice to have wären zusätzlich NOT und XOR.
Es sollen dann alle Dateien angezeigt werden, deren Inhalte mit den Suchparametern matchen.
Nice to have wäre es, wenn man durch einfachen Klick auf eine Datei in der Suchergebnisliste eine Vorschau eingeblendet bekommen würde.
Der Datenbestand liegt
Wie würdet Ihr das Ganze aufbauen?
Welche Software würdet Ihr zur Suche nehmen?
Wie würdet Ihr das Windows konfigurieren?
Wichtig:
Für sachdienliche Hinweise sehr dankbar,
tantalos
wir suchen nach einer Möglichkeit für eine effiziente Suche über einen größeren Bestand von PDF-Dateien.
Beim Datenbestand handelt es sich um ca. 500.000 bis 1.000.000 PDF-Dateien, über die bereits eine OCR lief, so dass sie durchsuchbar sind.
Die Dateien sind in einer Verzeichnisstruktur abgelegt.
Benötigt wird eine Suchfunktion, bei der man den gesamten Dateibestand (Inhalte aller Dateien, nicht nur Dateinamen) nach einem oder mehreren Strings durchsuchen lassen kann (bspw. Rechnungsnummer, Datum, Firmenname). Die Strings müssen dabei über AND und OR verknüpfbar sein. Nice to have wären zusätzlich NOT und XOR.
Es sollen dann alle Dateien angezeigt werden, deren Inhalte mit den Suchparametern matchen.
Nice to have wäre es, wenn man durch einfachen Klick auf eine Datei in der Suchergebnisliste eine Vorschau eingeblendet bekommen würde.
Der Datenbestand liegt
- entweder auf einem lokalen Laufwerk in einer virtuellen Maschine auf Basis von Windows Server 2025. In diesem Falle würde man in dieser VM eingeloggt sein und die Suche in dieser Windows-Sitzung stattfinden.
- oder auf einem unter Linux gehosteten Samba-Share, das auf einer Remote-Maschine unter Windows 11 als Netzlaufwerk eingebunden ist. In diesem Fall fände die Suche auf der Remote-Maschine unter Windows 11 statt.
Wie würdet Ihr das Ganze aufbauen?
Welche Software würdet Ihr zur Suche nehmen?
Wie würdet Ihr das Windows konfigurieren?
Wichtig:
- Es soll explizit kein DMS zum Einsatz kommen.
- Die Suche soll schnell abgeschlossen sein, d.h. es muss irgendeine Art von Indizierung geben.
Für sachdienliche Hinweise sehr dankbar,
tantalos
Please also mark the comments that contributed to the solution of the article
Content-ID: 670519
Url: https://administrator.de/forum/suche-ueber-groesseren-pdf-datenbestand-670519.html
Printed on: January 20, 2025 at 20:01 o'clock
17 Comments
Latest comment
Moin @tantalos
also . .. . eigentlich kann sowas Adobe Acrobat Pro selbst, so dass anmit dem Acrobat Reader vom Client aus auf einem Server sekundenschnell suchen kann.
Es kann aber sein, dass es ratsam ist andere Systeme für so große Mengen gibt. Ggf, mit SQL oder ähnlichem.
Kreuzberger
also . .. . eigentlich kann sowas Adobe Acrobat Pro selbst, so dass anmit dem Acrobat Reader vom Client aus auf einem Server sekundenschnell suchen kann.
Es kann aber sein, dass es ratsam ist andere Systeme für so große Mengen gibt. Ggf, mit SQL oder ähnlichem.
Kreuzberger
Man kann Indexierung am Server im Verzeichnis machen und am Client als Bibliothek einbinden und dann indexiert drin suchen:
hier mal ne alte Anleitung wie das zu machen ist:
https://cloudtec.ch/blog/tech/add-a-search-indexed-network-share-to-your ...
man muss den ordner am File Server indexieren und das share dann als Bibliothek am Client verbinden dann nutzt der Client den Index vom Server.
Damit kann man prima volltext suche machen, gibt halt keine and or xnor oder solche funktionen....
Kostet dafür auch nix
hier mal ne alte Anleitung wie das zu machen ist:
https://cloudtec.ch/blog/tech/add-a-search-indexed-network-share-to-your ...
man muss den ordner am File Server indexieren und das share dann als Bibliothek am Client verbinden dann nutzt der Client den Index vom Server.
Damit kann man prima volltext suche machen, gibt halt keine and or xnor oder solche funktionen....
Kostet dafür auch nix
Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.
Guten Morgen,
wir nutzen dafür die DOCBOX mit dem Modul Foldersync, hier ein Link zum Video des Herstellers.
Grüße Ice
wir nutzen dafür die DOCBOX mit dem Modul Foldersync, hier ein Link zum Video des Herstellers.
Grüße Ice
Zitat von @mylight:
Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.
Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.
da musst du aufpassen bei ca. 90.000 Dateien gibts da sync probleme OneDrive technisch, hatten wir mal gesprengt und dann war das geheule mega. sharepoint ist nicht als datenmüllhalde geeignet will ich damit sagen.
Zitat von @StefanKittel:
mir kommen hier die Begriffe ELK-Stack und Elasticsearch in den Kopf.
Elastic viel mir auch als erstes ein.
Was fertiges habe ich aber nicht zur Hand.
Es kommt eben auch stark darauf an, in welchem Umfeld man in Zukunft leben will. Fileserver, DB, DMS, ...
Hallo tantalos,
unter Windows Server sollte zunächst die Rolle "Windows Search" installiert werden.
Als nächstes wird ein Filterpack für PDF benötigt um auch die Inhalte zu indizieren. Von Adobe heißt dies "PDF iFilter 64" zu finden unter: http://ftp.adobe.com/pub/adobe/acrobat/win/11.x/PDFFilter64Setup.msi (Firefox kann noch FTP-Links verarbeiten)
Installieren und den Programmpfad: C:\Program Files\Adobe\Adobe PDF iFilter 11 for 64-bit platforms\bin in der PATH-Variable eintragen.
Dann muss in den Indizierungoptionen der Pfad/die Pfade zu den PDF-Dateien aufgenommen werden und in den Erweiterten Optionen bei dem Dateityp "pdf" der PDF iFilter ausgewählt und zusätzlich "Eigenschaften und Dateiinhalte indizieren" aktiviert werden.
Die Indexerstellung könnte bei der Menge an PDF-Dateien ein Wochenende in Anspruch nehmen.
Hinweis: Sollte die Netzwerkfreigabe über ein DFS erfolgen, nutzt der ganze Zauber nichts. Nach meiner Erfahrung mit funktionierte die Suche bis Windows Server 2016 über DFS-Pfade nicht, nur über UNC-Pfad verknüpfte Netzlaufwerke. Ist wohl ein bekannter Bug, der bislang nicht gefixt wurde.
Für die Suche auf dem Client kann ich neben dem Explorer "Agent Ransack" von Mythicsoft emfehlen. (https://www.mythicsoft.com/agentransack/) Hier wird ebenfalls eine Volltextsuche durchgeführt und in der Ergebnisliste eine Vorschau der Fundstelle im Dokument angegeben.
Gruß pantox
unter Windows Server sollte zunächst die Rolle "Windows Search" installiert werden.
Als nächstes wird ein Filterpack für PDF benötigt um auch die Inhalte zu indizieren. Von Adobe heißt dies "PDF iFilter 64" zu finden unter: http://ftp.adobe.com/pub/adobe/acrobat/win/11.x/PDFFilter64Setup.msi (Firefox kann noch FTP-Links verarbeiten)
Installieren und den Programmpfad: C:\Program Files\Adobe\Adobe PDF iFilter 11 for 64-bit platforms\bin in der PATH-Variable eintragen.
Dann muss in den Indizierungoptionen der Pfad/die Pfade zu den PDF-Dateien aufgenommen werden und in den Erweiterten Optionen bei dem Dateityp "pdf" der PDF iFilter ausgewählt und zusätzlich "Eigenschaften und Dateiinhalte indizieren" aktiviert werden.
Die Indexerstellung könnte bei der Menge an PDF-Dateien ein Wochenende in Anspruch nehmen.
Hinweis: Sollte die Netzwerkfreigabe über ein DFS erfolgen, nutzt der ganze Zauber nichts. Nach meiner Erfahrung mit funktionierte die Suche bis Windows Server 2016 über DFS-Pfade nicht, nur über UNC-Pfad verknüpfte Netzlaufwerke. Ist wohl ein bekannter Bug, der bislang nicht gefixt wurde.
Für die Suche auf dem Client kann ich neben dem Explorer "Agent Ransack" von Mythicsoft emfehlen. (https://www.mythicsoft.com/agentransack/) Hier wird ebenfalls eine Volltextsuche durchgeführt und in der Ergebnisliste eine Vorschau der Fundstelle im Dokument angegeben.
Gruß pantox
Erwähnen sollte man hier aber, dass everything nur die MFT indiziert aber nicht die Inhalte der Dateien und kann deshalb ausschließlich über den Datei-/Ordnernamen suchen (das aber dafür rasend schnell)