FileServer automatische PDF-OCR-Umwandlung
Hallo zusammen,
Folgendes Projekt steht bei uns an: abgelegte und zukünftig abzulegende pdf-Dateien sollen automatisch in maschinenlesbares Format (Pdf/A) konvertiert werden, damit diese dann mittels der Windows-Indizierung (Microsoft IFilter) ausgewertet werden können. Umgebung: 3 kleinere Terminal Server (2008 R2 + 2012 R2) + 1 Fileserver (2012)
Anforderungen:
- Umwandlung von 'eingescannten' Pdfs in maschinenlesbare Pdfs (Pdf/A) mittels OCR
- Umwandlung muss automatisch ohne Anwenderinput anlaufen (Überwachung von benutzerdefinierten Ordnern)
Ich habe dazu nun schon etwas recherchiert und die einzigen Produkte die dieses out-of-box unterstützen, scheinen hochspezialisierte Serverlösungen à la ABBYY Recognition Server oder IRISDocument Server zu sein. Diese bieten einen für unsere Zweck viel zu großen Funktionsumfang und liegen zudem auch ziemlich außerhalb des geplanten Budgets.
Gibt es da günstigere Lösungen? Gerne auch unter Nutzungen mehrerer, verschiedener Programme. Von Skriptlösungen (tesseract o.ä.) halte ich eher wenig, da die zu indizierenden Dateien zu sensibel sind und ich Datenverlust/Korruption fürchte..
Danke für eure Antworten,
Ralf
Folgendes Projekt steht bei uns an: abgelegte und zukünftig abzulegende pdf-Dateien sollen automatisch in maschinenlesbares Format (Pdf/A) konvertiert werden, damit diese dann mittels der Windows-Indizierung (Microsoft IFilter) ausgewertet werden können. Umgebung: 3 kleinere Terminal Server (2008 R2 + 2012 R2) + 1 Fileserver (2012)
Anforderungen:
- Umwandlung von 'eingescannten' Pdfs in maschinenlesbare Pdfs (Pdf/A) mittels OCR
- Umwandlung muss automatisch ohne Anwenderinput anlaufen (Überwachung von benutzerdefinierten Ordnern)
Ich habe dazu nun schon etwas recherchiert und die einzigen Produkte die dieses out-of-box unterstützen, scheinen hochspezialisierte Serverlösungen à la ABBYY Recognition Server oder IRISDocument Server zu sein. Diese bieten einen für unsere Zweck viel zu großen Funktionsumfang und liegen zudem auch ziemlich außerhalb des geplanten Budgets.
Gibt es da günstigere Lösungen? Gerne auch unter Nutzungen mehrerer, verschiedener Programme. Von Skriptlösungen (tesseract o.ä.) halte ich eher wenig, da die zu indizierenden Dateien zu sensibel sind und ich Datenverlust/Korruption fürchte..
Danke für eure Antworten,
Ralf
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 275347
Url: https://administrator.de/forum/fileserver-automatische-pdf-ocr-umwandlung-275347.html
Ausgedruckt am: 19.12.2024 um 16:12 Uhr
3 Kommentare
Neuester Kommentar
Sers,
schau dir mal AutoOCR an. Wenn dir die Überwachung von nur einem Ordner reicht sollte die Light Version auch passen.
Grüße,
Philip
schau dir mal AutoOCR an. Wenn dir die Überwachung von nur einem Ordner reicht sollte die Light Version auch passen.
Grüße,
Philip