springstil
Goto Top

PDF Grafiken rausholen?

Hallo zusammen,

ich muss PDF Dateien (mehrere) per Mail Versenden.

Es geht um Rechnungen die an eine Zentrale Stelle geschickt werden müssen. Mein "Problem" ist das unser System die Rechnungen immer nur einzeln Pro Kunde raussenden kann. Gebraucht wird es aber eine Email am tag mit allen PDF Dateien. Also lasse ich die Emails alle an eine Email Adresse schicken von wo ich mit die dann dank dem Skript von colinardo abhole, sammle und alle aufgelaufenen PDF Dateien dann in einer Email Versende.

Das klappt soweit auch alles super! Nur können die unsere PDF Datei nicht lesen weil es eine Grafik in der Kopf und Fußzeile hat... Die würde ich am liebsten einfach Entfernen. Gibt es eine Möglichkeit Grafiken aus der PDF per Powershell zu entfernen? Alternativ dafür zu sorgen das alles schwarz oder weiß ist und nicht mehr Grau? Denn selbst wenn ich den Druck auf schwarz weiß stelle, bleibt die Schrift grau..

Content-Key: 1692457756

Url: https://administrator.de/contentid/1692457756

Printed on: April 25, 2024 at 08:04 o'clock

Member: beidermachtvongreyscull
beidermachtvongreyscull Jan 05, 2022 updated at 14:02:49 (UTC)
Goto Top
PDFs sind eigentlich Envelopes, die Grafiken um Metadaten wie Felder und Textoverlays usw. erweitern.

Insofern wird es schwer.

Ich würde am Rechnungserstellungsprozess ansetzen und diesen so alternieren, dass immer zwei Rechnungen -Original mit Briefpapier - und eine reine Textkopie erstellt werden.

Beides natürlich als PDF.
Member: Springstil
Springstil Jan 05, 2022 updated at 14:09:45 (UTC)
Goto Top
Zitat von @beidermachtvongreyscull:
Ich würde am Rechnungserstellungsprozess ansetzen und diesen so alternieren, dass immer zwei Rechnungen -Original mit Briefpapier - und eine reine Textkopie erstellt werden.


Und genau das ist das Problem :D Die Anpassung für den Beleg wäre etwas aufwendig und würde leider etwas dauern bis dies Umgesetzt werden kann, da es vom Software Hersteller gemacht werden muss wo wir zur zeit ein paar Probleme mit haben.

Gibt es denn die Möglichkeit ein PDF Drucker einzurichten der alles einfach Schwarz weiß druckt? das würde dann auch gehen, nur bekomme ich PDF 24 nicht so eingerichtet das er mir die PDF in schwarz weiß ausspuckt.
Member: monstermania
monstermania Jan 05, 2022 at 14:31:05 (UTC)
Goto Top
Zitat von @Springstil:
Nur können die unsere PDF Datei nicht lesen weil es eine Grafik in der Kopf und Fußzeile hat...

Hmm,
warum kann der Empfänger die PDF-Dateien denn nicht lesen!?
Handelt es sich um ein natives PDF, oder werden hier Bilder in einer PDF abgelegt. Also ich meine, dass auch der Rechnungstext in der PDF als Bild eingebettet wird?
Ansonsten ist ja nun ein Bild (Briefpapier) in einer PDF kein Hexenwerk und verhindert ein Auslesen eines PDF ja nicht.

Gruß
Dirk
Member: Springstil
Springstil Jan 05, 2022 at 14:39:22 (UTC)
Goto Top
Zitat von @monstermania:

Zitat von @Springstil:
Nur können die unsere PDF Datei nicht lesen weil es eine Grafik in der Kopf und Fußzeile hat...

Hmm,
warum kann der Empfänger die PDF-Dateien denn nicht lesen!?
Handelt es sich um ein natives PDF, oder werden hier Bilder in einer PDF abgelegt. Also ich meine, dass auch der Rechnungstext in der PDF als Bild eingebettet wird?
Ansonsten ist ja nun ein Bild (Briefpapier) in einer PDF kein Hexenwerk und verhindert ein Auslesen eines PDF ja nicht.

Gruß
Dirk

Was soll ich sagen... Man schrieb mir:

Leider können wir das PDF aufgrund der Grautöne in Kopf- und Fußzeile nicht verarbeiten.
Ich vermute, Sie haben uns ein Farb-PDF zur Verfügung gestellt. Bitte prüfen Sie, ob Sie uns ein S/W-PDF zur Verfügung stellen können. Falls ein S/W-PDF möglich ist, dann schicken Sie es bitte als Test an XXXX

Habe es auch mal als Graustufen und schwarz weiß probiert.. Aber das scheint immer noch nicht zu klappen. Daher such ich eine Lösung
Mitglied: 149569
149569 Jan 05, 2022 at 14:53:14 (UTC)
Goto Top
Ghostscript ist dein Freund
gs -o noimage.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf
Member: keine-ahnung
keine-ahnung Jan 05, 2022 at 15:04:04 (UTC)
Goto Top
@Springstil

Gibt es denn die Möglichkeit ein PDF Drucker einzurichten der alles einfach Schwarz weiß druckt?

Ist mit Adobe PDF kein Problem ...

LG, Thomas
Member: monstermania
monstermania Jan 05, 2022 at 15:13:54 (UTC)
Goto Top
Zitat von @Springstil:
Was soll ich sagen... Man schrieb mir:

Leider können wir das PDF aufgrund der Grautöne in Kopf- und Fußzeile nicht verarbeiten.
Ich vermute, Sie haben uns ein Farb-PDF zur Verfügung gestellt. Bitte prüfen Sie, ob Sie uns ein S/W-PDF zur Verfügung stellen können. Falls ein S/W-PDF möglich ist, dann schicken Sie es bitte als Test an XXXX

Habe es auch mal als Graustufen und schwarz weiß probiert.. Aber das scheint immer noch nicht zu klappen. Daher such ich eine Lösung

Ich würde mal nachfragen, was denn bitteschön genau das Problem sein soll.
Ich mach das mit dem Auslesen von PDF schon ne ganze Weile, und mir ist noch kein natives PDF untergekommen, bei dem es Probleme mit Kopf- und Fußgrafiken gegeben hätte (Briefpapier). Und zwar unabhängig davon, ob das PDF nun SW oder farbig gewesen wäre.
Kannst Du mal eines Eurer PDF verlinken, damit man es sich mal ansehen kann?

Gruß
Dirk
Member: beidermachtvongreyscull
beidermachtvongreyscull Jan 05, 2022 at 15:17:11 (UTC)
Goto Top
Zitat von @149569:

Ghostscript ist dein Freund
gs -o noimage.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf

Die Idee ist cool.
Dann bliebe nur der Text im Overlay.
Mitglied: 149569
149569 Jan 05, 2022 updated at 17:10:48 (UTC)
Goto Top
Und wieso man hier die Rechnung nicht gleich im maschinenlesbaren ZUGFeRD Format übermittelt oder an das PDF angängt tja ... da kann man nur hoffen das die da nicht noch ne OCR oder sonst was drüber laufen lassen und dann hinterher potentiell falsche Daten in einer Datenbank landen ...
Abenteuerliche Lösungen die der Jung da umsetzt, zumal man Rechnungen ja heute auch eigentlich digital signieren sollte.
Member: monstermania
monstermania Jan 05, 2022 at 15:51:32 (UTC)
Goto Top
Zitat von @149569:

Und wieso man hier die Rechnung nicht gleich im maschinenlesbaren ZUGFeRD Format übermittelt oder an das PDF angängt tja
Nun, die Software die die Rechnungen erstellt, muss ja das Zugpferd-Format auch erstmal erzeugen können...
BTW: Wer Beleg- bzw. Rechnungsimport im großen Stil macht, dem ist Zugpferd auch ziemlich schnuppe. Ist wieder mal so ein 'deutsches' Ding... face-wink
... da kann man nur hoffen das die da noch ne OCR oder sonst was drüber laufen lassen und dann hinterher potentiell falsche Daten in einer Datenbank landen ...
Was bitteschön sollte eine OCR bei einem nativen PDF nutzen!? Der Text/Zahlen steht ja schon nativ im PDF und läßt sich problemlos daraus extraieren.
OCR macht nur Sinn, wenn es sich um Bilder-PDF handelt (z.B. gescannte PDF).
Abenteuerliche Lösungen die der Jung da umsetzt, zumal man Rechnungen ja heute auch eigentlich digital signieren sollte.
Warum sollte eine Rechnung digital signiert sein!? Wo wäre da der Vorteil aus technischer Sicht?
automatischer Rechnungsimport ist ja nun beileibe keine neue Technologie mehr. Geht selbst mit eingescannten Papierrechnungen und guter OCR leidlich gut.
Abenteuerlich finde ich, dass der Empfänger das PDF nicht verarbeiten kann! face-wink
Mitglied: 149569
149569 Jan 05, 2022 updated at 17:13:15 (UTC)
Goto Top
Zitat von @monstermania:
Was bitteschön sollte eine OCR bei einem nativen PDF nutzen!? Der Text/Zahlen steht ja schon nativ im PDF und läßt sich problemlos daraus extraieren.

Sorry hatte das kleine aber feine "nicht" nach dem "hoffentlich" unterschlagen, denn die Aussage des TO bezüglich Empfänger das der das PDF wegen Kontrastproblemen nicht verarbeiten kann legt nahe, dass die da irgend so ne futelei einsetzen, statt den Text aus dem PDF zu nutzen 😉.

OCR macht nur Sinn, wenn es sich um Bilder-PDF handelt (z.B. gescannte PDF).
Schon klar soweit kann ich auch noch denken.
Warum sollte eine Rechnung digital signiert sein!? Wo wäre da der Vorteil aus technischer Sicht?
Könnte ja sonst wer zwischendurch manipulieren, der TO hat das ja gerade vor und wenn das durch seine Automation dann auch noch irgendwann mal schief läuft und der Empfänger tatsächlich irgend ne OCR Grütze einsetzen sollte, dampft die Kacke vermutlich gewaltig.
Abenteuerlich finde ich, dass der Empfänger das PDF nicht verarbeiten kann! face-wink
Genau das war mein primärer Gedanke zur OCR oben 🤪
Member: Springstil
Springstil Jan 06, 2022 at 07:43:50 (UTC)
Goto Top
Zitat von @149569:

Und wieso man hier die Rechnung nicht gleich im maschinenlesbaren ZUGFeRD Format übermittelt oder an das PDF angängt tja ... da kann man nur hoffen das die da nicht noch ne OCR oder sonst was drüber laufen lassen und dann hinterher potentiell falsche Daten in einer Datenbank landen ...
Abenteuerliche Lösungen die der Jung da umsetzt, zumal man Rechnungen ja heute auch eigentlich digital signieren sollte.

Wie monstermania schon sagt, ich befürchte das unsere Software soweit ich weiß ZUGFeRD nicht kann. Digital Signiert werden müssend die Rechnungen auch nicht, da sie zu den Bestellungen gegen gecheckt werden. Und ob die das per OCR oder wie auch immer einlesen ist mir ehrlich gesagt wurst :D Hauptsache es wird gezahlt.

Es geht bei der ganzen Sache um einen Verband, wir können natürlich auch invoice per EDI Senden, allerdings lohnt sich das bei manchen verbänden nicht die umzustellen da dies auch mit Kosten verbunden ist. Bei 9 von 10 verbänden klappt das mit der PDF super und ohne Probleme.. Nur bei dem einen eben nicht face-smile

Daher verstehe ich auch nicht wieso auf einmal der Header mit dem "Bild" Probleme machen soll..


Zitat von @149569:

Ghostscript ist dein Freund
gs -o noimage.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf

Das sowas mit Ghostscript gehen soll habe ich gesehen, nur weiß ich leider nicht wie ich das für ALLE PDF´s einzeln einsetzen kann?


Zitat von @keine-ahnung:

@Springstil

Gibt es denn die Möglichkeit ein PDF Drucker einzurichten der alles einfach Schwarz weiß druckt?

Ist mit Adobe PDF kein Problem ...

LG, Thomas

Schon versucht, leider bleibt es "grau" und kann angeblich nicht verarbeitet werden.
Mitglied: 149569
149569 Jan 06, 2022 updated at 09:18:10 (UTC)
Goto Top
Zitat von @Springstil:

Das sowas mit Ghostscript gehen soll habe ich gesehen, nur weiß ich leider nicht wie ich das für ALLE PDF´s einzeln einsetzen kann?
Schon mal was von foreach-object gehört? Das gehört ja nun wirklich zu den absoluten PowerShell Grundlagen.
Member: beidermachtvongreyscull
beidermachtvongreyscull Jan 06, 2022 updated at 08:40:43 (UTC)
Goto Top
Zitat von @Springstil:
Wie monstermania schon sagt, ich befürchte das unsere Software soweit ich weiß ZUGFeRD nicht kann. Digital Signiert werden müssend die Rechnungen auch nicht, da sie zu den Bestellungen gegen gecheckt werden. Und ob die das per OCR oder wie auch immer einlesen ist mir ehrlich gesagt wurst :D Hauptsache es wird gezahlt.

Die Idee der digitalen Signatur hat auch andere Bewandnis. Es geht darum, die Rechnung fälschungssicher zu machen und auch so seine Anspruchsbegründung haltbar.

Ein Beispiel:
Euer Haus liefert ein Produkt mit nicht signierter PDF-Rechnung an einen Kunden.
Der Kunde überweist aber nicht auf Euer Konto, sondern auf ein anderes. Nun beginnt der Mahnlauf und der Kunde legt eine Rechnung von Euch vor, mit einem anderen Konto im Abbinder. Er weist nach, wie auch immer, dass die Rechnung von Euch kam. Wäre sie signiert, könntet Ihr Euch drauf berufen, dass die Rechnung gefälscht wurde. So liegt der Ball aber erstmal bei Euch.

Die Signatur der Rechnung dient also erstmal dem Schutz des Rechnungsstellers (vor Betrug auch vor betrügerischen Kunden). Als zweiter Effekt dient sie dem Empfänger (sofern mit Signaturen vertraut) als Möglichkeit, die Originalität zu prüfen.


Wie mit Kondomen:
Lieber haben und nicht brauchen, als brauchen und nicht haben.

bdmvg
Member: monstermania
monstermania Jan 06, 2022 at 10:00:23 (UTC)
Goto Top
@Springstil
Ich würde erstmal versuchen ein oder zwei Eurer PDF mit dem obigen GhostScript Workaround zu behandeln. Einfach von Hand.
Anschließend würde ich dann die Rechnungen dem IT-Verantwortlichen im Verband zur Verfügung stellen, damit er prüfen kann, ob Eure PDF dann verarbeitet werden können.
Ich befürchte, dass es da ein ganz anderes Problem gibt, als Bilder in den Kopf-/ Fußzeilen.
Member: Springstil
Springstil Jan 10, 2022 at 09:33:49 (UTC)
Goto Top
Danke für die Zahlreichen Antworten. Ich denke ich werde Ghostscript nutzen müssen, aber anders als gedacht... Ich muss wirklich alles in schwarz weiß konvertieren und Die KOPF und FUß Zeile muss erhalten blieben.

Ich versuche das jetzt seit 2 Stunden und komme mit Ghostscript unter Windows nicht so klar. Kann mir vielleicht jemand den Befehl dafür zu kommen lassen um mit Ghostscript die PDF in Monochrome zu konvertieren?
Member: beidermachtvongreyscull
beidermachtvongreyscull Jan 10, 2022 at 09:56:06 (UTC)
Goto Top
Zitat von @Springstil:

Danke für die Zahlreichen Antworten. Ich denke ich werde Ghostscript nutzen müssen, aber anders als gedacht... Ich muss wirklich alles in schwarz weiß konvertieren und Die KOPF und FUß Zeile muss erhalten blieben.

Ich versuche das jetzt seit 2 Stunden und komme mit Ghostscript unter Windows nicht so klar. Kann mir vielleicht jemand den Befehl dafür zu kommen lassen um mit Ghostscript die PDF in Monochrome zu konvertieren?

Gugge mal bei SuperUser:
https://superuser.com/questions/200378/converting-a-pdf-to-black-white-w ...
Member: Springstil
Springstil Jan 10, 2022 at 10:14:15 (UTC)
Goto Top

Das habe ich schon versucht, aber leider ohne erfolgt. Daher hoffe ich das mir jemand sagen kann wie ich das richtig unter Windows umsetze
Member: beidermachtvongreyscull
beidermachtvongreyscull Jan 10, 2022 at 10:19:15 (UTC)
Goto Top
Zitat von @Springstil:


Das habe ich schon versucht, aber leider ohne erfolgt. Daher hoffe ich das mir jemand sagen kann wie ich das richtig unter Windows umsetze

Da steht auch drin, dass Du auch mit ImageMagick die Konvertierung machen kannst.
Ich verwende das Tool mit einem Scriptrobot zur Umsetzung von HEIC-Dateien in JPG.

Wenn das bei PDFs auch geht, was spräche denn da dagegen?
Member: Springstil
Springstil Jan 10, 2022 at 10:30:26 (UTC)
Goto Top
Zitat von @beidermachtvongreyscull:
Da steht auch drin, dass Du auch mit ImageMagick die Konvertierung machen kannst.
Ich verwende das Tool mit einem Scriptrobot zur Umsetzung von HEIC-Dateien in JPG.

Wenn das bei PDFs auch geht, was spräche denn da dagegen?


Bei ImageMagick wird der Textblock als Bild gespeichert somit ist damit kein OCR auslesen mehr möglich.

MIt Ghostscript bin ich zumindest soweit das er mir die PDF schreibt, allerdings nur als Graustufe und ich möchte es eigendlich monochrome. Nun weiß ich natürlich nicht ob ich es wirklich erst in PS konvertieren muss und dann wieder zurück in PDF. Da arbeite ich gerade noch dran
Member: beidermachtvongreyscull
beidermachtvongreyscull Jan 10, 2022 at 10:59:22 (UTC)
Goto Top
Dem könnte man mit Tesseract abhelfen, denke ich:

https://de.wikipedia.org/wiki/Tesseract_(Software)
Member: Springstil
Solution Springstil Jan 10, 2022 at 15:31:48 (UTC)
Goto Top
Also das ganze Thema hat sich erledigt ich hab die Nase voll von dem Verein.... Entferne ich die Bilder heißt es das die keinen Bezug mehr zu unserer Firma haben, obwohl dort immer noch Firmenname und Co drin steht, GLN und Lieferantennummer..

Entweder kriegen die jetzt EDI hin oder ich lass die ganze Sache sein. Ich danke aber allen beteiligten für die Hilfe!