OCR als Web-Anwendung Auf Linux Server
Hallo @all,
vorweg: Ich habe immer noch mit den Folgen eines Schlaganfalls zu kämpfen, also wenn ich Schreibfehler mache bitte seit nachsichtig.
Zu meiner Frage/ Problem
Wir haben einen Web-Anwendung bei der wir Text aus Bildern (JPG) auslesen.
Das machen wir derzeit über Azure. Dies dauert jedoch sehr lange und die OCR liest nur englisch aus.
Da wir aber in den Bildern nur deutsche Texte haben, werden Umlaute nicht angezeigt und Worte wie „Produkt“ als „product“ angezeigt.
Meine Frage: Welche Software könntet ihr mir empfehlen um die OCR auf einem eigenen Linux Server zu betreiben?
Oder kennt ihr ggf. einen externen OCR-Dienst der bezahlbar und schnell ist. Ich bin für jede Lösung oder auch Denkanstoss offen.
Viele Grüße
vorweg: Ich habe immer noch mit den Folgen eines Schlaganfalls zu kämpfen, also wenn ich Schreibfehler mache bitte seit nachsichtig.
Zu meiner Frage/ Problem
Wir haben einen Web-Anwendung bei der wir Text aus Bildern (JPG) auslesen.
Das machen wir derzeit über Azure. Dies dauert jedoch sehr lange und die OCR liest nur englisch aus.
Da wir aber in den Bildern nur deutsche Texte haben, werden Umlaute nicht angezeigt und Worte wie „Produkt“ als „product“ angezeigt.
Meine Frage: Welche Software könntet ihr mir empfehlen um die OCR auf einem eigenen Linux Server zu betreiben?
Oder kennt ihr ggf. einen externen OCR-Dienst der bezahlbar und schnell ist. Ich bin für jede Lösung oder auch Denkanstoss offen.
Viele Grüße
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 638580
Url: https://administrator.de/contentid/638580
Ausgedruckt am: 22.11.2024 um 00:11 Uhr
4 Kommentare
Neuester Kommentar
Mahlzeit!
Ich wünsche Dir ein gutes neues Jahr und weiterhin gute Besserung!
Ist die Web-Anwendung speziell nur für diesen einen Zweck da oder ist OCR eine "Unterfunktion"?
Ich frage deshalb, weil ich derzeit einen manuellen Prozess dahinter vermute.
Dies könnte mit TesseractOCR z.B. auch auf Dateisystemebene abgebildet werden. Es gibt auch andere Alternativen, die JPG nach PDF wandeln. PDF-Editoren wie z.B. PDF-XChange Editor beherrschen die Durchsuchbarmachung in der kostenlosen Version bereits.
Falls Du automatische Lösungen suchst, geht es wahrscheinlich nicht mehr gänzlich kostenlos, außer Du hast Programmier- und Scriptungkenntnisse. Dann wäre über CUPS und TesseractOCR durchaus etwas machbar.
Gruß
bdmvg
Ich wünsche Dir ein gutes neues Jahr und weiterhin gute Besserung!
Ist die Web-Anwendung speziell nur für diesen einen Zweck da oder ist OCR eine "Unterfunktion"?
Ich frage deshalb, weil ich derzeit einen manuellen Prozess dahinter vermute.
Dies könnte mit TesseractOCR z.B. auch auf Dateisystemebene abgebildet werden. Es gibt auch andere Alternativen, die JPG nach PDF wandeln. PDF-Editoren wie z.B. PDF-XChange Editor beherrschen die Durchsuchbarmachung in der kostenlosen Version bereits.
Falls Du automatische Lösungen suchst, geht es wahrscheinlich nicht mehr gänzlich kostenlos, außer Du hast Programmier- und Scriptungkenntnisse. Dann wäre über CUPS und TesseractOCR durchaus etwas machbar.
Gruß
bdmvg
Hab vor paar Jahren den Tip hier gepostet wie man tesseract via bash automatisieren kann:
Quick n Dirty OCR für Scanner nachrüsten mit OpenSource mitteln
seinerzeit über einen share, aber genausogut können es verzeichnisse auf einem webserver sein
Quick n Dirty OCR für Scanner nachrüsten mit OpenSource mitteln
seinerzeit über einen share, aber genausogut können es verzeichnisse auf einem webserver sein
Keine fertige Lösung, aber das hier zeigt wie man Dateien "OCRen" kann. Voraussetzung: Ubuntu
Zum Umwandeln ruft man dann ocrmypdf auf, z.B.
Die Qualität des Textes ist relativ brauchbar. Nicht zu vergleich z.B. mit Bezahlsoftware wie Abby Finereader oder Acrobat, aber dafür ist alles erst einmal kostenlos.
sudo apt-get -y remove ocrmypdf
sudo apt-get -y update
sudo apt-get -y install \
ghostscript \
icc-profiles-free \
liblept5 \
libxml2 \
pngquant \
python3-pip \
tesseract-ocr \
zlib1g \
unpaper \
parallel
sudo apt install -y tesseract-ocr-deu
sudo apt install ocrmypdf
Zum Umwandeln ruft man dann ocrmypdf auf, z.B.
ocrmypdf --force-ocr -l eng+deu --output-type pdf --deskew --clean --clean-final --optimize 0 --jbig2-lossy --pdfa-image-compression jpeg --fast-web-view 0 a.pdf b.pdf
Die Qualität des Textes ist relativ brauchbar. Nicht zu vergleich z.B. mit Bezahlsoftware wie Abby Finereader oder Acrobat, aber dafür ist alles erst einmal kostenlos.