06.01.2025

2836

Suche über größeren PDF-Datenbestand

Hallo,

wir suchen nach einer Möglichkeit für eine effiziente Suche über einen größeren Bestand von PDF-Dateien.

Beim Datenbestand handelt es sich um ca. 500.000 bis 1.000.000 PDF-Dateien, über die bereits eine OCR lief, so dass sie durchsuchbar sind.

Die Dateien sind in einer Verzeichnisstruktur abgelegt.

Benötigt wird eine Suchfunktion, bei der man den gesamten Dateibestand (Inhalte aller Dateien, nicht nur Dateinamen) nach einem oder mehreren Strings durchsuchen lassen kann (bspw. Rechnungsnummer, Datum, Firmenname). Die Strings müssen dabei über AND und OR verknüpfbar sein. Nice to have wären zusätzlich NOT und XOR.

Es sollen dann alle Dateien angezeigt werden, deren Inhalte mit den Suchparametern matchen.

Nice to have wäre es, wenn man durch einfachen Klick auf eine Datei in der Suchergebnisliste eine Vorschau eingeblendet bekommen würde.

Der Datenbestand liegt

entweder auf einem lokalen Laufwerk in einer virtuellen Maschine auf Basis von Windows Server 2025. In diesem Falle würde man in dieser VM eingeloggt sein und die Suche in dieser Windows-Sitzung stattfinden.
oder auf einem unter Linux gehosteten Samba-Share, das auf einer Remote-Maschine unter Windows 11 als Netzlaufwerk eingebunden ist. In diesem Fall fände die Suche auf der Remote-Maschine unter Windows 11 statt.

Wie würdet Ihr das Ganze aufbauen?

Welche Software würdet Ihr zur Suche nehmen?

Wie würdet Ihr das Windows konfigurieren?

Wichtig:

Es soll explizit kein DMS zum Einsatz kommen.
Die Suche soll schnell abgeschlossen sein, d.h. es muss irgendeine Art von Indizierung geben.

Für sachdienliche Hinweise sehr dankbar,

tantalos

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 670519

Url: https://administrator.de/forum/suche-ueber-groesseren-pdf-datenbestand-670519.html

Ausgedruckt am: 20.07.2025 um 04:07 Uhr

17 Kommentare

Neuester Kommentar

Moin @tantalos

also . .. . eigentlich kann sowas Adobe Acrobat Pro selbst, so dass anmit dem Acrobat Reader vom Client aus auf einem Server sekundenschnell suchen kann.

Es kann aber sein, dass es ratsam ist andere Systeme für so große Mengen gibt. Ggf, mit SQL oder ähnlichem.

Kreuzberger

Moin,

Daten auf eine Synology, dort Universal Search.

Gruß

DivideByZero

Moin,

mir kommen hier die Begriffe ELK-Stack und Elasticsearch in den Kopf.
Aber das müsste man erst erstellen.

Ich würde prüfen ob man diese PDF-Dateien nicht in Text-Dateien umwandeln kann um sie einfacher zu durchsuchen.

Was fertiges habe ich aber nicht zur Hand.

Stefan

Hallo,
die Verzeichnisstruktur in DMS-Office-n-PDF importieren und suchen.
Es gibt eine Testversion.

Gruß Moritz2009

Danke schon mal für Eure Antworten.

Gibt es ein dem Acrobat Pro vergleichbares Programm, das ohne Abo-Modell funktioniert?

Oder ein Desktop-Such-Tool, das indiziert und in dem man sucht?

Gibt es eine Lösung mit Windows-Bordmitteln (Explorer)?

Das was Adobe Pro da macht ist eben eine Eigenentwicklung von Adobe. Da gibt es keinen weg daran vorbei.

Andere Such-Tools: Benutze er seinen LieblungsBrowser und seine Lieblungssuchmaschine.

Kreuzberger

Gruß gastric

Man kann Indexierung am Server im Verzeichnis machen und am Client als Bibliothek einbinden und dann indexiert drin suchen:

hier mal ne alte Anleitung wie das zu machen ist:
cloudtec.ch/blog/tech/add-a-search-indexed-network-share-to-your ...

man muss den ordner am File Server indexieren und das share dann als Bibliothek am Client verbinden dann nutzt der Client den Index vom Server.
Damit kann man prima volltext suche machen, gibt halt keine and or xnor oder solche funktionen....
Kostet dafür auch nix

Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.

Guten Morgen,

wir nutzen dafür die DOCBOX mit dem Modul Foldersync, hier ein Link zum Video des Herstellers.

Grüße Ice

Zitat von @mylight:

Hallo, ich habe leider keine perfekte Lösung und auch nicht ganz so viele Dateien (ca. 100.000 PDFs).
Die synchronisiere ich alle paar Tage manuell über meinen PC von unserem File-Server mit einem robocopy Skript (nur neue/geänderte Dateien) in ein mit OneDrive synchronisiertes Verzeichnis in einen Teams Kanal (also in eine Sharepoint Online Bibliothek). Dann können die User dort im Index suchen. Bei uns haben alle User M365 Lizenzen (wg. Teams), wir arbeiten aber i.d.R. auf Fileservern, da unsere Applikationen die Daten weiter auf einer Fileshare benötigen.

da musst du aufpassen bei ca. 90.000 Dateien gibts da sync probleme OneDrive technisch, hatten wir mal gesprengt und dann war das geheule mega. sharepoint ist nicht als datenmüllhalde geeignet will ich damit sagen.

Bei grösseren Datenmengen hilft:

dtsearch.com/

MfG
Hans-Jürgen

Zitat von @StefanKittel:

mir kommen hier die Begriffe ELK-Stack und Elasticsearch in den Kopf.

Elastic viel mir auch als erstes ein.

Was fertiges habe ich aber nicht zur Hand.

Es kommt eben auch stark darauf an, in welchem Umfeld man in Zukunft leben will. Fileserver, DB, DMS, ...

Hallo tantalos,

unter Windows Server sollte zunächst die Rolle "Windows Search" installiert werden.

Als nächstes wird ein Filterpack für PDF benötigt um auch die Inhalte zu indizieren. Von Adobe heißt dies "PDF iFilter 64" zu finden unter: ftp.adobe.com/pub/adobe/acrobat/win/11.x/PDFFilter64Setup.msi (Firefox kann noch FTP-Links verarbeiten)

Installieren und den Programmpfad: C:\Program Files\Adobe\Adobe PDF iFilter 11 for 64-bit platforms\bin in der PATH-Variable eintragen.

Dann muss in den Indizierungoptionen der Pfad/die Pfade zu den PDF-Dateien aufgenommen werden und in den Erweiterten Optionen bei dem Dateityp "pdf" der PDF iFilter ausgewählt und zusätzlich "Eigenschaften und Dateiinhalte indizieren" aktiviert werden.

Die Indexerstellung könnte bei der Menge an PDF-Dateien ein Wochenende in Anspruch nehmen.

Hinweis: Sollte die Netzwerkfreigabe über ein DFS erfolgen, nutzt der ganze Zauber nichts. Nach meiner Erfahrung mit funktionierte die Suche bis Windows Server 2016 über DFS-Pfade nicht, nur über UNC-Pfad verknüpfte Netzlaufwerke. Ist wohl ein bekannter Bug, der bislang nicht gefixt wurde.

Für die Suche auf dem Client kann ich neben dem Explorer "Agent Ransack" von Mythicsoft emfehlen. (mythicsoft.com/agentransack/) Hier wird ebenfalls eine Volltextsuche durchgeführt und in der Ergebnisliste eine Vorschau der Fundstelle im Dokument angegeben.

Gruß pantox

linuxnews.de/das-papierlose-buero-paperwork-und-paperless-ngx/

Hallo,

probier mal "everything"

Zitat von @Flash600:

Hallo,

probier mal "everything"

Erwähnen sollte man hier aber, dass everything nur die MFT indiziert aber nicht die Inhalte der Dateien und kann deshalb ausschließlich über den Datei-/Ordnernamen suchen (das aber dafür rasend schnell)

Frage Windows Tools Windows Server 2025 Windows 11 Microsoft

Mehr von tantalos

L2TP IPsec VPN: SHA256 und AES256 möglich?tantalos - 2 Kommentare

Software RAID 10 unter Server 2022tantalos - 9 Kommentare

96 GB Module DDR5 ECC RDIMMtantalos - 4 Kommentare

Schnurlos-Headset an Fritzbox als TK-Anlagetantalos - 4 Kommentare

Heiß diskutiert