Quick n Dirty OCR für Scanner nachrüsten mit OpenSource mitteln

Abend,

wenn ihr Nerzwerkfähige MFPs habt und die leute wie blöd Sachen einscannen und sich dann beschweren das man in den Scans nicht volltext suchen kann, hier eine Idee:
Statt jedem User die feinheiten der OCR Methodik näherzubringen, direkt die gescannten Dateien abfangen, mit dem OpenSource Tool tesseract-ocr bearbeiten und dem User das fertige Dokument präsentieren.

Ausgangssituation, was ihr braucht:
Ein MPF / Scanner der die Scans als Multipage-TIFF auf einem Netzwerkshare ablegt
Ein Linux Server der zwei Shares bereitstellt (ShareA, ShareB z.B. via Samba) + auf dem tesseract-ocr in einer halbwegs aktuellen Version installiert ist.

HowTo:
1. Nun stellt man den Scanner so ein das er Dateien in guter Qualität (>= 300dpi für tesseract) auf Share A legt

2. Auf dem Server läuft folgendes Skript:

#/bin/bash

echo "Überwache: " $1  
echo "Ausgabe in:" $2  

inotifywait -mrq -e create --format %w%f $1 | while read FILE
do	
	NewName=$(basename $FILE .tif)
	OutName=$2/$NewName
	(tesseract -l deu $FILE $OutName pdf && rm $FILE) & 
done

Das skript akzeptiert zwei Parameter, daher startet man es so:

skript.sh "/lokaler/pfad/zum/shareA" "/lokaler/pfad/zum/shareB"

3. User haben Zugriff auf Share B und bekommen dort ihre durchsuchbaren PDFs

Was dieses Skript nicht tut und wo es noch mangelt (Da Quick & Dirty):
- hat keinerlei fehlerhandling
- fest eingestellt auf deutsche sprache
- hat keinen DOS schutz, wenn der User 6000 Dateien gleichzeitig ablegt, wird der Server wohl schwer zu schwitzen haben
- die Scans werden nicht voraufbereitet, dabei wäre es eine gute Idee z.B. es vorher mit magick o.ä. zu begradigen + die farbtiefe zu reduzieren