Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Quick n Dirty OCR für Scanner nachrüsten mit OpenSource mitteln

Mitglied: NetzwerkDude

NetzwerkDude (Level 2) - Jetzt verbinden

12.02.2019, aktualisiert 13.02.2019, 548 Aufrufe, 5 Danke

Abend,

wenn ihr Nerzwerkfähige MFPs habt und die leute wie blöd Sachen einscannen und sich dann beschweren das man in den Scans nicht volltext suchen kann, hier eine Idee:
Statt jedem User die feinheiten der OCR Methodik näherzubringen, direkt die gescannten Dateien abfangen, mit dem OpenSource Tool tesseract-ocr bearbeiten und dem User das fertige Dokument präsentieren.

Ausgangssituation, was ihr braucht:
Ein MPF / Scanner der die Scans als Multipage-TIFF auf einem Netzwerkshare ablegt
Ein Linux Server der zwei Shares bereitstellt (ShareA, ShareB z.B. via Samba) + auf dem tesseract-ocr in einer halbwegs aktuellen Version installiert ist.

HowTo:
1. Nun stellt man den Scanner so ein das er Dateien in guter Qualität (>= 300dpi für tesseract) auf Share A legt

2. Auf dem Server läuft folgendes Skript:
01.
#/bin/bash
02.

03.
echo "Überwache: " $1
04.
echo "Ausgabe in:" $2
05.

06.
inotifywait -mrq -e create --format %w%f $1 | while read FILE
07.
do	
08.
	NewName=$(basename $FILE .tif)
09.
	OutName=$2/$NewName
10.
	(tesseract -l deu $FILE $OutName pdf && rm $FILE) & 
11.
done
Das skript akzeptiert zwei Parameter, daher startet man es so:
01.
skript.sh "/lokaler/pfad/zum/shareA" "/lokaler/pfad/zum/shareB"
3. User haben Zugriff auf Share B und bekommen dort ihre durchsuchbaren PDFs


Was dieses Skript nicht tut und wo es noch mangelt (Da Quick & Dirty):

- hat keinerlei fehlerhandling
- fest eingestellt auf deutsche sprache
- hat keinen DOS schutz, wenn der User 6000 Dateien gleichzeitig ablegt, wird der Server wohl schwer zu schwitzen haben
- die Scans werden nicht voraufbereitet, dabei wäre es eine gute Idee z.B. es vorher mit magick o.ä. zu begradigen + die farbtiefe zu reduzieren
Ähnliche Inhalte
Windows 10

Windows 10: Alle Einträge aus dem Schnellzugriff (Quick access) im Explorer mit Powershell entfernen

Tipp von colinardoWindows 103 Kommentare

Wer es gebrauchen kann, ein Powershell-Einzeiler zum Entfernen aller Einträge aus dem Schnellzugriff (quick access) im Windows-Explorer. Und schon ...

Neue Wissensbeiträge
Windows 7

Windows 7 u. Server 2008 (R2) SHA-2-Update kommt am 12. März 2019

Information von kgborn vor 1 TagWindows 75 Kommentare

Kleine Info für die Admins der oben genannten Maschinen. Ab Juli 2019 werden Updates von Microsoft nur noch mit ...

Firewall
PfSense 2.5.0 benötigt doch kein AES-NI
Information von ChriBo vor 2 TagenFirewall2 Kommentare

Hallo, Wie sich einige hier erinnern werden hat Jim Thompson in diesem Aritkel beschrieben, daß ab Version 2.5.0 ein ...

Internet
Copyright-Reform: Upload-Filter
Information von Frank vor 4 TagenInternet1 Kommentar

Hallo, viele Menschen reden aktuell von Upload-Filtern. Sie reden darüber, als wären es eine Selbstverständlichkeit, das Upload-Filter den Seitenbetreibern ...

Google Android

Blokada: Tracking und Werbung unter Android unterbinden

Information von AnkhMorpork vor 4 TagenGoogle Android1 Kommentar

In Ergänzung zu meinem vorherigen Beitrag: Blokada efficiently blocks ads, tracking and malware. It saves your data plan, makes ...

Heiß diskutierte Inhalte
Hardware
IT-Werkzeugkoffer bis 50,- EUR
gelöst Frage von departure69Hardware44 Kommentare

Hallo. Ich bin als IT-Systembetreuer einer Gemeinde zusätzlich auch der IT-Systembetreuer einer Grund- und Hauptschule. Dort muß ich jedoch ...

Netzwerke
Verteilung von Programmdaten außerhalb des internen Netzwerkes
Frage von mertaufmbergNetzwerke27 Kommentare

Guten Morgen liebe Administratoren, ich versuche zurzeit eine möglichst sichere und einfache Lösung zu suchen, um ein Programmverzeichnis über ...

Netzwerkmanagement
Richtfunknetzwerk mit vielen Hops stabiler gestalten
Frage von turti83Netzwerkmanagement22 Kommentare

Hallo, in meinem Dorf habe ich vor ca. einem Jahr ein Backbone aufgebaut um die Nachbarschaft mit Internet zu ...

Hyper-V
Intel MSC Raid 5 Rebuild
Frage von DannysHyper-V19 Kommentare

Hallo Community, Ich habe einen Modul Server von Intel in Betrieb. Dort ist eine Festplatte aus dem Raid 5 ...