stefankittel
Goto Top

David Kriesel: Traue keinem Scan, den du nicht selbst gefälscht hast - Immer noch aktuell aber anders

Hallo,

dies ist keine Frage. Nur ein einfacher Beitrag.

Ich habe vor ein paar Jahren dieses Video von einem Vortrag von David Kriesel gesehen.
Darin geht es darum, dass die Scan-Funktion von großen Kopiersystemen fehlerhaft funktioniert.
https://www.youtube.com/watch?v=7FeqF1-Z1g0

Ich schaue mir das gerne jährlich an als Mahnmal was so alles schiefgehen kann.

Bis gestern hatte ich davon aber keinen Kontakt.
Nun bekam ich gestern eine Mail von einem Kunden, dass er ein Postfach nicht auf einem PC einrichten kann.
Das Postfach sei defekt oder Jemand hätte das Kennwort geändert.

Ok, ich schaue mir das mit meiner Dokumentation an und kann ohne Probleme auf das Postfach zugreifen.

Wir haben es dann zusammen per TV probiert und siehe da, mit meinem Kennwort geht es, mit seinem nicht.

Er hat einen Scan von meinem Papierausdruck den er damals als Dokumentation erhalten hat.
Auf der Anzeige des PDF steht das Kennwort korrekt. Wenn man es aber kopiert, wird aus einem S eine 5.

Hier hat also die Texterkennung vom Canon Kopierer den Text falsch erkannt. Dies kann man aber nur erkennen wenn man den Eintrag in der Zwischenablage penibel vergleicht. Nicht nett vom Kopierer...

Stefan

Content-ID: 1573607197

Url: https://administrator.de/contentid/1573607197

Ausgedruckt am: 19.11.2024 um 07:11 Uhr

Ex0r2k16
Ex0r2k16 01.12.2021 aktualisiert um 08:39:34 Uhr
Goto Top
Uff...kannst du dem David ja mal weiterleiten ;) Vielleicht gibts ja nen Scannergate 2.0

/Edit: Welches Drucker Modell war das denn?
IceAge
IceAge 01.12.2021 aktualisiert um 11:46:41 Uhr
Goto Top
Mahlzeit,

das von dir beschriebene Problem ist/war nicht der Scanner, sondern die OCR Texterkennung, welches Texte aus Bilder konvertiert und hier gibt es nunmal keine 100%... Deine Erkenntnis hat also absolut nix mit dem verlinkten Beitrag bzgl. dem Verfälschen durch das Kompressionsverfahren zu tun.

Grüße I.
Ex0r2k16
Ex0r2k16 01.12.2021 um 11:34:12 Uhr
Goto Top
ups. Überlesen. Thx
StefanKittel
StefanKittel 01.12.2021 um 11:46:30 Uhr
Goto Top
Zitat von @IceAge:
das Problem ist/war nicht der Scanner, sondern die OCR Texterkennung, welches Texte aus Bilder konvertiert und hier gibt es nunmal keine 100%... Deine Erkenntnis hat also absolut nix mit dem verlinkten Beitrag bzgl. dem Verfälschen durch das Kompressionsverfahren zu tun.
Die technische Ursache ist eine völlig Andere, aber die Auswirkungen für die Anwender sind sehr ähnlich.
Es findet in einem deutlich kleinerem Rahmen statt und es ist kein Fehlfunktion oder Bug.
Dir Ursache ist ein falsches Verständnis der Anwender dieser Technik.

Es ändert aber nichts daran, dass Anwender ein Dokument einscannen und den Inhalt rauskopieren ohne ihn zu kontrollieren.

Es gibt schlicht kein Bewustsein zu diesem "Problem".
St-Andreas
St-Andreas 02.12.2021 um 11:14:24 Uhr
Goto Top
Daher immer Dokumentationen von Kennwörtern quittieren lassen und auch quittieren lassen, dass die Kennwörter getestet wurden und funktionieren.
the-buccaneer
the-buccaneer 02.12.2021 um 16:42:26 Uhr
Goto Top
Hallo Stefan!

Der Vortrag ist auch in meinen Top 10. face-wink

Aber deinen Fall verstehe ich noch nicht ganz:

Papierausdruck (korrekt) --> Scan to PDF mit Canongerät (Anzeige am Bildschirm korrekt) --> Copy/Paste über Zwischenablage (Fehler)? Wo wäre da der Canon beteiligt? Mein Problem ist der Begriff "kopieren"

"Auf der Anzeige des PDF steht das Kennwort korrekt. Wenn man es aber kopiert, wird aus einem S eine 5."

Oder geht es doch um eine Papierkopie des Ausdrucks vom gescannten PDF??? face-wink

Nur so aus Neugier...

VG
Buc
StefanKittel
StefanKittel 02.12.2021 um 17:18:03 Uhr
Goto Top
Hallo,
das Gerät wurde an einem Canon-Kopierer eingescant und als PDF auf dem Server gespeichert.

Der Kopierer hat eine Bitmap eingescannt und danach per OCR eine Texterkennung durchgeführt.
Er hat dann die Bitmap mit dem erkannten Text im Dokument gespeichert.

Wenn es nur eine Bitmap wäre, könnte man den Inhalt nicht rauskopieren.
Durch die Texterkennung des Kopierer gibt es eine Inhaltsebene, so dass man den Text markieren und kopieren kann.

Diese beiden Ebenen sind unabhängig.

Die Bitmap ist korrekt. Es ist also nicht der Fehler den David beschrieben hat.

Aber die Inhaltsebene enthält den erkannten falschen Text.
Aus einer 5 wurde ein S.

Klar, ist OCR, da kann das mal passieren.

Das "Problem" hier ist, dass man die Bitmap sieht, die Datenebene aber nicht. Diese wird erst sichtbar wenn man sie über die Zwischenablage rauskopiert.

Das ist kein Fehler. Aber es ist für den Anwender tükisch weil er damit nicht rechnet.

Wenn im PDF der erkannte Text stehen würde, dann könnte man durch vergleichen den Unterschied sehen.
Dann hätte man aber wieder Davids Problem, dass die ursprünglichen Daten weg sind.

Es ist halt "nur" ein tükisches Problem mit dem der Anwender nicht rechnet.

Stefan
the-buccaneer
the-buccaneer 02.12.2021 um 18:29:45 Uhr
Goto Top
Danke dir. Ich lerne grade was. Bitte korrigiere mich, wenn ich das falsch verstehe.

Es ist also so, dass ich in einem gescannten PDF (immer?) 2 Inhaltsebenen habe wenn ich das standardmässig als Textdokument scanne. Das zugrundeliegende Bitmap (hier offenbar ohne "Komprimierung") UND den enthaltenen Text der mir aber gar nicht angezeigt wird?
Warum tut das blöde PDF dann so als würde es mir Text anzeigen????
Sind da beide Ebenen im Dokument gespeichert oder findet die OCR erst beim Öffnen durch den Betrachter statt?

Und das entspricht dem PDF-Standard? Super gelöst. Hut ab. face-wink

VG
Buc
StefanKittel
StefanKittel 02.12.2021 um 19:16:46 Uhr
Goto Top
Zitat von @the-buccaneer:
Es ist also so, dass ich in einem gescannten PDF (immer?) 2 Inhaltsebenen habe wenn ich das standardmässig als Textdokument scanne. Das zugrundeliegende Bitmap (hier offenbar ohne "Komprimierung") UND den enthaltenen Text der mir aber gar nicht angezeigt wird?
Ja

Warum tut das blöde PDF dann so als würde es mir Text anzeigen????
Weil es praktisch ist.
Man sieht auf dem Bildschirm das gescannte Dokument.
Das ist eine Bitmap. Kein Text. Also kann man nichts rauskopieren was nicht auch wieder Bitmap/Grafik ist.

Die Leute wollen aber den Inhalt rauskopieren und irgendwo weiterverarbeiten.

Sind da beide Ebenen im Dokument gespeichert oder findet die OCR erst beim Öffnen durch den Betrachter statt?
2 Ebenen.
Oder besser: Es gibt in einem PDF-Dokument viele Objekte. Zu jedem ist die Position und die Ebene gespeichert.

Für OCR müsste das PDF-Programm viel mehr "Intelligenz" haben und würde länger zum öffnen brauchen.

Und das entspricht dem PDF-Standard? Super gelöst. Hut ab. face-wink
Ja
Ich sehe aber auch keine Möglichkeit das besser zu machen.

Du hast ein Stück Papier mit Text.
Der Scanner macht draus eine Bitmap.

A)
Als Bitmap speichern ohne OCR.
Kein kopieren des Textes aus dem PDF.

B)
Als Bitmap speichern mit OCR. Anzeige Bitmap.
Dann kommst Du zu diesem Problem.

C)
Als Bitmap speichern mit OCR. Anzeige OCR.
Dann hättest Du ein anderes Problem.
Der angezeigte Text ist falsch, weil vom OCR falsch erkannt, und wenn Du das Papier nicht mehr hast, kannst Du es mit nichts mehr vergleichen.

Dies Problem betrifft digitale PDFs natürlich nicht, weil die kein OCR nutzen.

OCR ist immer fehleranfällig.
In Abhängigkeit der Software und der Qualität des Scans.
bei 2400 dpi ist die Fehlerrate deutlich geringen als bei 200 dpi. Aber aus Platzgründen sind es halt häufig 200 dpi.

Stefan
ukulele-7
ukulele-7 06.12.2021 um 12:55:31 Uhr
Goto Top
Heute bringen viele Scanner am Markt überhaupt erst eine integrierte OCR-Lösung mit, das ist noch gar nicht lange so selbstverständlich. Die kann auch in der Qualität schwanken oder von der verbauten Hardware abhängen.

Gute OCR kann auch in der Software statt finden (z.B. ein DMS), aber auch hier würde man die OCR möglichst nur einmalig ausführen und dann entweder in das Dokument oder in eine Datenbank abspeichern.
StefanKittel
StefanKittel 06.12.2021 um 14:13:50 Uhr
Goto Top
Hallo,

es ist aus meiner Sicht ein Big-Data-Problem und einer technischen Selbstverständlichkeit.

Big-Data-Problem
Bei eine 5 seitgen PDF-Dokument mit Verkaufszahlen fallen falsche Zahlen nur wenn die Unplausibel werden.
8.000 stattt 1.000.
Aber ob das nun 2.900 oder 2.100 sind, fällt vermutlich spät oder gar nicht auf.
Dramatisch wird dies durch die zunehmende Anzahl an Nullen am Ende.

Technischen Selbstverständlichkeit
Früher, wo ja angeblich alles besser war, war OCR sehr umständlich zu nutzen und die Ergebnisse eher bescheiden.
Da wusste jeder, dass man sich auf den Text nicht verlassen kann.

Heute ist es selbstverständlich und die wenigsten kommen auf die Idee, dass ein Fehler in der Texterkennung passiert sein könnte.


Diese Overlay von Bitmap und Text macht es zu einen Besser, man kann Fehler feststellen und korrigieren, und zugleich schlimmer weil es nicht sichtbar ist.


Ich sehe keine Möglichkeit analoge Dokumente besser zu verarbeiten.
Außer halt gar keine analogen Dokumente zu verwenden. Denn mit digitalen PDFs kann das Problem ja nicht auftreten.


Stefan
the-buccaneer
the-buccaneer 14.12.2021 um 01:10:53 Uhr
Goto Top
Richtig. Technisch ist das wohl so wie du es beschreibst. Mir fällt auch nichts einfaches ein, wie das lösbar sein sollte.

Das Problem ist aber zuerst das mangelnde Problembewusstein. Ich behaupte, dass 99% der Anwender und 80+x Prozent der Admins das nicht auf dem Schirm haben. Mir war das auch neu. Einfach, weil ich mir die Frage dämlicherweise noch nie gestellt habe. Menschliches Normalverhalten. Das geht manchmal übel aus. face-wink

Technisch ist das aber noch nicht ausgereizt. Man könnte z.B. bei einer gewissen Unsicherheit einen Hinweis einblenden: "This PDF contains certain characters with a recognition probability less than 99%. Do you want to compare the original Bitmap to the Textversion?" Dann werden beide angezeigt.

Man könnte mit Google kooperieren, denn die wissen nach Jahren Captchas genau, welches Zeichen mit welcher Wahrscheinlichkeit von Menschen wie gedeutet wird. Google könnte das freigeben. (Haben sie das evtl sogar? Manchmal sind die ja ganz cool...)
Wenn die noch nicht soweit sind, könnte man die "unsicheren" Zeichen ins Web ("Captchas") laden, um die Erkennungsrate zu verbessern. Wenn alle Privatuser das tun (und das tun sie zu 90%!) flutscht das ruckzuck.
Problem: Datenschutz. Aber der ist doch heute allen sowieso egal, ist mein Eindruck...

Warum nicht? OCR auf dem Gerät oder mit der KI in der Cloud. Zur Auswahl. Jedesmal. Voreinstellung nur für Gerät möglich. face-wink

Nur 2 Ideen, die mir spontan einfallen. So wie es aktuell ist, ist das inakzeptabel. Dein Beispiel war ja trivial. Da lassen sich kritischere Szenarien ohne viel Phantasie konstruieren...

VG
Buc

(Der manchmal länger braucht, weil er grad nicht sooo fit ist...)