David Kriesel: Traue keinem Scan, den du nicht selbst gefälscht hast - Immer noch aktuell aber anders
Hallo,
dies ist keine Frage. Nur ein einfacher Beitrag.
Ich habe vor ein paar Jahren dieses Video von einem Vortrag von David Kriesel gesehen.
Darin geht es darum, dass die Scan-Funktion von großen Kopiersystemen fehlerhaft funktioniert.
https://www.youtube.com/watch?v=7FeqF1-Z1g0
Ich schaue mir das gerne jährlich an als Mahnmal was so alles schiefgehen kann.
Bis gestern hatte ich davon aber keinen Kontakt.
Nun bekam ich gestern eine Mail von einem Kunden, dass er ein Postfach nicht auf einem PC einrichten kann.
Das Postfach sei defekt oder Jemand hätte das Kennwort geändert.
Ok, ich schaue mir das mit meiner Dokumentation an und kann ohne Probleme auf das Postfach zugreifen.
Wir haben es dann zusammen per TV probiert und siehe da, mit meinem Kennwort geht es, mit seinem nicht.
Er hat einen Scan von meinem Papierausdruck den er damals als Dokumentation erhalten hat.
Auf der Anzeige des PDF steht das Kennwort korrekt. Wenn man es aber kopiert, wird aus einem S eine 5.
Hier hat also die Texterkennung vom Canon Kopierer den Text falsch erkannt. Dies kann man aber nur erkennen wenn man den Eintrag in der Zwischenablage penibel vergleicht. Nicht nett vom Kopierer...
Stefan
dies ist keine Frage. Nur ein einfacher Beitrag.
Ich habe vor ein paar Jahren dieses Video von einem Vortrag von David Kriesel gesehen.
Darin geht es darum, dass die Scan-Funktion von großen Kopiersystemen fehlerhaft funktioniert.
https://www.youtube.com/watch?v=7FeqF1-Z1g0
Ich schaue mir das gerne jährlich an als Mahnmal was so alles schiefgehen kann.
Bis gestern hatte ich davon aber keinen Kontakt.
Nun bekam ich gestern eine Mail von einem Kunden, dass er ein Postfach nicht auf einem PC einrichten kann.
Das Postfach sei defekt oder Jemand hätte das Kennwort geändert.
Ok, ich schaue mir das mit meiner Dokumentation an und kann ohne Probleme auf das Postfach zugreifen.
Wir haben es dann zusammen per TV probiert und siehe da, mit meinem Kennwort geht es, mit seinem nicht.
Er hat einen Scan von meinem Papierausdruck den er damals als Dokumentation erhalten hat.
Auf der Anzeige des PDF steht das Kennwort korrekt. Wenn man es aber kopiert, wird aus einem S eine 5.
Hier hat also die Texterkennung vom Canon Kopierer den Text falsch erkannt. Dies kann man aber nur erkennen wenn man den Eintrag in der Zwischenablage penibel vergleicht. Nicht nett vom Kopierer...
Stefan
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 1573607197
Url: https://administrator.de/contentid/1573607197
Ausgedruckt am: 19.11.2024 um 07:11 Uhr
12 Kommentare
Neuester Kommentar
Mahlzeit,
das von dir beschriebene Problem ist/war nicht der Scanner, sondern die OCR Texterkennung, welches Texte aus Bilder konvertiert und hier gibt es nunmal keine 100%... Deine Erkenntnis hat also absolut nix mit dem verlinkten Beitrag bzgl. dem Verfälschen durch das Kompressionsverfahren zu tun.
Grüße I.
das von dir beschriebene Problem ist/war nicht der Scanner, sondern die OCR Texterkennung, welches Texte aus Bilder konvertiert und hier gibt es nunmal keine 100%... Deine Erkenntnis hat also absolut nix mit dem verlinkten Beitrag bzgl. dem Verfälschen durch das Kompressionsverfahren zu tun.
Grüße I.
Hallo Stefan!
Der Vortrag ist auch in meinen Top 10.
Aber deinen Fall verstehe ich noch nicht ganz:
Papierausdruck (korrekt) --> Scan to PDF mit Canongerät (Anzeige am Bildschirm korrekt) --> Copy/Paste über Zwischenablage (Fehler)? Wo wäre da der Canon beteiligt? Mein Problem ist der Begriff "kopieren"
"Auf der Anzeige des PDF steht das Kennwort korrekt. Wenn man es aber kopiert, wird aus einem S eine 5."
Oder geht es doch um eine Papierkopie des Ausdrucks vom gescannten PDF???
Nur so aus Neugier...
VG
Buc
Der Vortrag ist auch in meinen Top 10.
Aber deinen Fall verstehe ich noch nicht ganz:
Papierausdruck (korrekt) --> Scan to PDF mit Canongerät (Anzeige am Bildschirm korrekt) --> Copy/Paste über Zwischenablage (Fehler)? Wo wäre da der Canon beteiligt? Mein Problem ist der Begriff "kopieren"
"Auf der Anzeige des PDF steht das Kennwort korrekt. Wenn man es aber kopiert, wird aus einem S eine 5."
Oder geht es doch um eine Papierkopie des Ausdrucks vom gescannten PDF???
Nur so aus Neugier...
VG
Buc
Danke dir. Ich lerne grade was. Bitte korrigiere mich, wenn ich das falsch verstehe.
Es ist also so, dass ich in einem gescannten PDF (immer?) 2 Inhaltsebenen habe wenn ich das standardmässig als Textdokument scanne. Das zugrundeliegende Bitmap (hier offenbar ohne "Komprimierung") UND den enthaltenen Text der mir aber gar nicht angezeigt wird?
Warum tut das blöde PDF dann so als würde es mir Text anzeigen????
Sind da beide Ebenen im Dokument gespeichert oder findet die OCR erst beim Öffnen durch den Betrachter statt?
Und das entspricht dem PDF-Standard? Super gelöst. Hut ab.
VG
Buc
Es ist also so, dass ich in einem gescannten PDF (immer?) 2 Inhaltsebenen habe wenn ich das standardmässig als Textdokument scanne. Das zugrundeliegende Bitmap (hier offenbar ohne "Komprimierung") UND den enthaltenen Text der mir aber gar nicht angezeigt wird?
Warum tut das blöde PDF dann so als würde es mir Text anzeigen????
Sind da beide Ebenen im Dokument gespeichert oder findet die OCR erst beim Öffnen durch den Betrachter statt?
Und das entspricht dem PDF-Standard? Super gelöst. Hut ab.
VG
Buc
Heute bringen viele Scanner am Markt überhaupt erst eine integrierte OCR-Lösung mit, das ist noch gar nicht lange so selbstverständlich. Die kann auch in der Qualität schwanken oder von der verbauten Hardware abhängen.
Gute OCR kann auch in der Software statt finden (z.B. ein DMS), aber auch hier würde man die OCR möglichst nur einmalig ausführen und dann entweder in das Dokument oder in eine Datenbank abspeichern.
Gute OCR kann auch in der Software statt finden (z.B. ein DMS), aber auch hier würde man die OCR möglichst nur einmalig ausführen und dann entweder in das Dokument oder in eine Datenbank abspeichern.
Richtig. Technisch ist das wohl so wie du es beschreibst. Mir fällt auch nichts einfaches ein, wie das lösbar sein sollte.
Das Problem ist aber zuerst das mangelnde Problembewusstein. Ich behaupte, dass 99% der Anwender und 80+x Prozent der Admins das nicht auf dem Schirm haben. Mir war das auch neu. Einfach, weil ich mir die Frage dämlicherweise noch nie gestellt habe. Menschliches Normalverhalten. Das geht manchmal übel aus.
Technisch ist das aber noch nicht ausgereizt. Man könnte z.B. bei einer gewissen Unsicherheit einen Hinweis einblenden: "This PDF contains certain characters with a recognition probability less than 99%. Do you want to compare the original Bitmap to the Textversion?" Dann werden beide angezeigt.
Man könnte mit Google kooperieren, denn die wissen nach Jahren Captchas genau, welches Zeichen mit welcher Wahrscheinlichkeit von Menschen wie gedeutet wird. Google könnte das freigeben. (Haben sie das evtl sogar? Manchmal sind die ja ganz cool...)
Wenn die noch nicht soweit sind, könnte man die "unsicheren" Zeichen ins Web ("Captchas") laden, um die Erkennungsrate zu verbessern. Wenn alle Privatuser das tun (und das tun sie zu 90%!) flutscht das ruckzuck.
Problem: Datenschutz. Aber der ist doch heute allen sowieso egal, ist mein Eindruck...
Warum nicht? OCR auf dem Gerät oder mit der KI in der Cloud. Zur Auswahl. Jedesmal. Voreinstellung nur für Gerät möglich.
Nur 2 Ideen, die mir spontan einfallen. So wie es aktuell ist, ist das inakzeptabel. Dein Beispiel war ja trivial. Da lassen sich kritischere Szenarien ohne viel Phantasie konstruieren...
VG
Buc
(Der manchmal länger braucht, weil er grad nicht sooo fit ist...)
Das Problem ist aber zuerst das mangelnde Problembewusstein. Ich behaupte, dass 99% der Anwender und 80+x Prozent der Admins das nicht auf dem Schirm haben. Mir war das auch neu. Einfach, weil ich mir die Frage dämlicherweise noch nie gestellt habe. Menschliches Normalverhalten. Das geht manchmal übel aus.
Technisch ist das aber noch nicht ausgereizt. Man könnte z.B. bei einer gewissen Unsicherheit einen Hinweis einblenden: "This PDF contains certain characters with a recognition probability less than 99%. Do you want to compare the original Bitmap to the Textversion?" Dann werden beide angezeigt.
Man könnte mit Google kooperieren, denn die wissen nach Jahren Captchas genau, welches Zeichen mit welcher Wahrscheinlichkeit von Menschen wie gedeutet wird. Google könnte das freigeben. (Haben sie das evtl sogar? Manchmal sind die ja ganz cool...)
Wenn die noch nicht soweit sind, könnte man die "unsicheren" Zeichen ins Web ("Captchas") laden, um die Erkennungsrate zu verbessern. Wenn alle Privatuser das tun (und das tun sie zu 90%!) flutscht das ruckzuck.
Problem: Datenschutz. Aber der ist doch heute allen sowieso egal, ist mein Eindruck...
Warum nicht? OCR auf dem Gerät oder mit der KI in der Cloud. Zur Auswahl. Jedesmal. Voreinstellung nur für Gerät möglich.
Nur 2 Ideen, die mir spontan einfallen. So wie es aktuell ist, ist das inakzeptabel. Dein Beispiel war ja trivial. Da lassen sich kritischere Szenarien ohne viel Phantasie konstruieren...
VG
Buc
(Der manchmal länger braucht, weil er grad nicht sooo fit ist...)