Quick n Dirty OCR für Scanner nachrüsten mit OpenSource mitteln
Abend,
wenn ihr Nerzwerkfähige MFPs habt und die leute wie blöd Sachen einscannen und sich dann beschweren das man in den Scans nicht volltext suchen kann, hier eine Idee:
Statt jedem User die feinheiten der OCR Methodik näherzubringen, direkt die gescannten Dateien abfangen, mit dem OpenSource Tool tesseract-ocr bearbeiten und dem User das fertige Dokument präsentieren.
Ausgangssituation, was ihr braucht:
Ein MPF / Scanner der die Scans als Multipage-TIFF auf einem Netzwerkshare ablegt
Ein Linux Server der zwei Shares bereitstellt (ShareA, ShareB z.B. via Samba) + auf dem tesseract-ocr in einer halbwegs aktuellen Version installiert ist.
HowTo:
1. Nun stellt man den Scanner so ein das er Dateien in guter Qualität (>= 300dpi für tesseract) auf Share A legt
2. Auf dem Server läuft folgendes Skript:
Das skript akzeptiert zwei Parameter, daher startet man es so:
3. User haben Zugriff auf Share B und bekommen dort ihre durchsuchbaren PDFs
Was dieses Skript nicht tut und wo es noch mangelt (Da Quick & Dirty):
- hat keinerlei fehlerhandling
- fest eingestellt auf deutsche sprache
- hat keinen DOS schutz, wenn der User 6000 Dateien gleichzeitig ablegt, wird der Server wohl schwer zu schwitzen haben
- die Scans werden nicht voraufbereitet, dabei wäre es eine gute Idee z.B. es vorher mit magick o.ä. zu begradigen + die farbtiefe zu reduzieren
wenn ihr Nerzwerkfähige MFPs habt und die leute wie blöd Sachen einscannen und sich dann beschweren das man in den Scans nicht volltext suchen kann, hier eine Idee:
Statt jedem User die feinheiten der OCR Methodik näherzubringen, direkt die gescannten Dateien abfangen, mit dem OpenSource Tool tesseract-ocr bearbeiten und dem User das fertige Dokument präsentieren.
Ausgangssituation, was ihr braucht:
Ein MPF / Scanner der die Scans als Multipage-TIFF auf einem Netzwerkshare ablegt
Ein Linux Server der zwei Shares bereitstellt (ShareA, ShareB z.B. via Samba) + auf dem tesseract-ocr in einer halbwegs aktuellen Version installiert ist.
HowTo:
1. Nun stellt man den Scanner so ein das er Dateien in guter Qualität (>= 300dpi für tesseract) auf Share A legt
2. Auf dem Server läuft folgendes Skript:
#/bin/bash
echo "Überwache: " $1
echo "Ausgabe in:" $2
inotifywait -mrq -e create --format %w%f $1 | while read FILE
do
NewName=$(basename $FILE .tif)
OutName=$2/$NewName
(tesseract -l deu $FILE $OutName pdf && rm $FILE) &
done
skript.sh "/lokaler/pfad/zum/shareA" "/lokaler/pfad/zum/shareB"
3. User haben Zugriff auf Share B und bekommen dort ihre durchsuchbaren PDFs
Was dieses Skript nicht tut und wo es noch mangelt (Da Quick & Dirty):
- hat keinerlei fehlerhandling
- fest eingestellt auf deutsche sprache
- hat keinen DOS schutz, wenn der User 6000 Dateien gleichzeitig ablegt, wird der Server wohl schwer zu schwitzen haben
- die Scans werden nicht voraufbereitet, dabei wäre es eine gute Idee z.B. es vorher mit magick o.ä. zu begradigen + die farbtiefe zu reduzieren
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 416640
Url: https://administrator.de/knowledge/quick-n-dirty-ocr-fuer-scanner-nachruesten-mit-opensource-mitteln-416640.html
Ausgedruckt am: 26.01.2025 um 07:01 Uhr
1 Kommentar