netzwerkdude
Goto Top

Quick n Dirty OCR für Scanner nachrüsten mit OpenSource mitteln

Abend,

wenn ihr Nerzwerkfähige MFPs habt und die leute wie blöd Sachen einscannen und sich dann beschweren das man in den Scans nicht volltext suchen kann, hier eine Idee:
Statt jedem User die feinheiten der OCR Methodik näherzubringen, direkt die gescannten Dateien abfangen, mit dem OpenSource Tool tesseract-ocr bearbeiten und dem User das fertige Dokument präsentieren.

Ausgangssituation, was ihr braucht:
Ein MPF / Scanner der die Scans als Multipage-TIFF auf einem Netzwerkshare ablegt
Ein Linux Server der zwei Shares bereitstellt (ShareA, ShareB z.B. via Samba) + auf dem tesseract-ocr in einer halbwegs aktuellen Version installiert ist.

HowTo:
1. Nun stellt man den Scanner so ein das er Dateien in guter Qualität (>= 300dpi für tesseract) auf Share A legt

2. Auf dem Server läuft folgendes Skript:
#/bin/bash

echo "Überwache: " $1  
echo "Ausgabe in:" $2  

inotifywait -mrq -e create --format %w%f $1 | while read FILE
do	
	NewName=$(basename $FILE .tif)
	OutName=$2/$NewName
	(tesseract -l deu $FILE $OutName pdf && rm $FILE) & 
done
Das skript akzeptiert zwei Parameter, daher startet man es so:
skript.sh "/lokaler/pfad/zum/shareA" "/lokaler/pfad/zum/shareB"  

3. User haben Zugriff auf Share B und bekommen dort ihre durchsuchbaren PDFs


Was dieses Skript nicht tut und wo es noch mangelt (Da Quick & Dirty):

- hat keinerlei fehlerhandling
- fest eingestellt auf deutsche sprache
- hat keinen DOS schutz, wenn der User 6000 Dateien gleichzeitig ablegt, wird der Server wohl schwer zu schwitzen haben
- die Scans werden nicht voraufbereitet, dabei wäre es eine gute Idee z.B. es vorher mit magick o.ä. zu begradigen + die farbtiefe zu reduzieren

Content-Key: 416640

Url: https://administrator.de/contentid/416640

Printed on: April 20, 2024 at 00:04 o'clock

Member: beidermachtvongreyscull
beidermachtvongreyscull Jan 07, 2021 at 13:33:06 (UTC)
Goto Top
Gefällt mir!
Dankeschön!