springstil
Goto Top

PDF Grafiken rausholen?

Hallo zusammen,

ich muss PDF Dateien (mehrere) per Mail Versenden.

Es geht um Rechnungen die an eine Zentrale Stelle geschickt werden müssen. Mein "Problem" ist das unser System die Rechnungen immer nur einzeln Pro Kunde raussenden kann. Gebraucht wird es aber eine Email am tag mit allen PDF Dateien. Also lasse ich die Emails alle an eine Email Adresse schicken von wo ich mit die dann dank dem Skript von colinardo abhole, sammle und alle aufgelaufenen PDF Dateien dann in einer Email Versende.

Das klappt soweit auch alles super! Nur können die unsere PDF Datei nicht lesen weil es eine Grafik in der Kopf und Fußzeile hat... Die würde ich am liebsten einfach Entfernen. Gibt es eine Möglichkeit Grafiken aus der PDF per Powershell zu entfernen? Alternativ dafür zu sorgen das alles schwarz oder weiß ist und nicht mehr Grau? Denn selbst wenn ich den Druck auf schwarz weiß stelle, bleibt die Schrift grau..

Content-ID: 1692457756

Url: https://administrator.de/contentid/1692457756

Ausgedruckt am: 24.11.2024 um 10:11 Uhr

beidermachtvongreyscull
beidermachtvongreyscull 05.01.2022 aktualisiert um 15:02:49 Uhr
Goto Top
PDFs sind eigentlich Envelopes, die Grafiken um Metadaten wie Felder und Textoverlays usw. erweitern.

Insofern wird es schwer.

Ich würde am Rechnungserstellungsprozess ansetzen und diesen so alternieren, dass immer zwei Rechnungen -Original mit Briefpapier - und eine reine Textkopie erstellt werden.

Beides natürlich als PDF.
Springstil
Springstil 05.01.2022 aktualisiert um 15:09:45 Uhr
Goto Top
Zitat von @beidermachtvongreyscull:
Ich würde am Rechnungserstellungsprozess ansetzen und diesen so alternieren, dass immer zwei Rechnungen -Original mit Briefpapier - und eine reine Textkopie erstellt werden.


Und genau das ist das Problem :D Die Anpassung für den Beleg wäre etwas aufwendig und würde leider etwas dauern bis dies Umgesetzt werden kann, da es vom Software Hersteller gemacht werden muss wo wir zur zeit ein paar Probleme mit haben.

Gibt es denn die Möglichkeit ein PDF Drucker einzurichten der alles einfach Schwarz weiß druckt? das würde dann auch gehen, nur bekomme ich PDF 24 nicht so eingerichtet das er mir die PDF in schwarz weiß ausspuckt.
monstermania
monstermania 05.01.2022 um 15:31:05 Uhr
Goto Top
Zitat von @Springstil:
Nur können die unsere PDF Datei nicht lesen weil es eine Grafik in der Kopf und Fußzeile hat...

Hmm,
warum kann der Empfänger die PDF-Dateien denn nicht lesen!?
Handelt es sich um ein natives PDF, oder werden hier Bilder in einer PDF abgelegt. Also ich meine, dass auch der Rechnungstext in der PDF als Bild eingebettet wird?
Ansonsten ist ja nun ein Bild (Briefpapier) in einer PDF kein Hexenwerk und verhindert ein Auslesen eines PDF ja nicht.

Gruß
Dirk
Springstil
Springstil 05.01.2022 um 15:39:22 Uhr
Goto Top
Zitat von @monstermania:

Zitat von @Springstil:
Nur können die unsere PDF Datei nicht lesen weil es eine Grafik in der Kopf und Fußzeile hat...

Hmm,
warum kann der Empfänger die PDF-Dateien denn nicht lesen!?
Handelt es sich um ein natives PDF, oder werden hier Bilder in einer PDF abgelegt. Also ich meine, dass auch der Rechnungstext in der PDF als Bild eingebettet wird?
Ansonsten ist ja nun ein Bild (Briefpapier) in einer PDF kein Hexenwerk und verhindert ein Auslesen eines PDF ja nicht.

Gruß
Dirk

Was soll ich sagen... Man schrieb mir:

Leider können wir das PDF aufgrund der Grautöne in Kopf- und Fußzeile nicht verarbeiten.
Ich vermute, Sie haben uns ein Farb-PDF zur Verfügung gestellt. Bitte prüfen Sie, ob Sie uns ein S/W-PDF zur Verfügung stellen können. Falls ein S/W-PDF möglich ist, dann schicken Sie es bitte als Test an XXXX

Habe es auch mal als Graustufen und schwarz weiß probiert.. Aber das scheint immer noch nicht zu klappen. Daher such ich eine Lösung
149569
149569 05.01.2022 um 15:53:14 Uhr
Goto Top
Ghostscript ist dein Freund
gs -o noimage.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf
keine-ahnung
keine-ahnung 05.01.2022 um 16:04:04 Uhr
Goto Top
@Springstil

Gibt es denn die Möglichkeit ein PDF Drucker einzurichten der alles einfach Schwarz weiß druckt?

Ist mit Adobe PDF kein Problem ...

LG, Thomas
monstermania
monstermania 05.01.2022 um 16:13:54 Uhr
Goto Top
Zitat von @Springstil:
Was soll ich sagen... Man schrieb mir:

Leider können wir das PDF aufgrund der Grautöne in Kopf- und Fußzeile nicht verarbeiten.
Ich vermute, Sie haben uns ein Farb-PDF zur Verfügung gestellt. Bitte prüfen Sie, ob Sie uns ein S/W-PDF zur Verfügung stellen können. Falls ein S/W-PDF möglich ist, dann schicken Sie es bitte als Test an XXXX

Habe es auch mal als Graustufen und schwarz weiß probiert.. Aber das scheint immer noch nicht zu klappen. Daher such ich eine Lösung

Ich würde mal nachfragen, was denn bitteschön genau das Problem sein soll.
Ich mach das mit dem Auslesen von PDF schon ne ganze Weile, und mir ist noch kein natives PDF untergekommen, bei dem es Probleme mit Kopf- und Fußgrafiken gegeben hätte (Briefpapier). Und zwar unabhängig davon, ob das PDF nun SW oder farbig gewesen wäre.
Kannst Du mal eines Eurer PDF verlinken, damit man es sich mal ansehen kann?

Gruß
Dirk
beidermachtvongreyscull
beidermachtvongreyscull 05.01.2022 um 16:17:11 Uhr
Goto Top
Zitat von @149569:

Ghostscript ist dein Freund
gs -o noimage.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf

Die Idee ist cool.
Dann bliebe nur der Text im Overlay.
149569
149569 05.01.2022 aktualisiert um 18:10:48 Uhr
Goto Top
Und wieso man hier die Rechnung nicht gleich im maschinenlesbaren ZUGFeRD Format übermittelt oder an das PDF angängt tja ... da kann man nur hoffen das die da nicht noch ne OCR oder sonst was drüber laufen lassen und dann hinterher potentiell falsche Daten in einer Datenbank landen ...
Abenteuerliche Lösungen die der Jung da umsetzt, zumal man Rechnungen ja heute auch eigentlich digital signieren sollte.
monstermania
monstermania 05.01.2022 um 16:51:32 Uhr
Goto Top
Zitat von @149569:

Und wieso man hier die Rechnung nicht gleich im maschinenlesbaren ZUGFeRD Format übermittelt oder an das PDF angängt tja
Nun, die Software die die Rechnungen erstellt, muss ja das Zugpferd-Format auch erstmal erzeugen können...
BTW: Wer Beleg- bzw. Rechnungsimport im großen Stil macht, dem ist Zugpferd auch ziemlich schnuppe. Ist wieder mal so ein 'deutsches' Ding... face-wink
... da kann man nur hoffen das die da noch ne OCR oder sonst was drüber laufen lassen und dann hinterher potentiell falsche Daten in einer Datenbank landen ...
Was bitteschön sollte eine OCR bei einem nativen PDF nutzen!? Der Text/Zahlen steht ja schon nativ im PDF und läßt sich problemlos daraus extraieren.
OCR macht nur Sinn, wenn es sich um Bilder-PDF handelt (z.B. gescannte PDF).
Abenteuerliche Lösungen die der Jung da umsetzt, zumal man Rechnungen ja heute auch eigentlich digital signieren sollte.
Warum sollte eine Rechnung digital signiert sein!? Wo wäre da der Vorteil aus technischer Sicht?
automatischer Rechnungsimport ist ja nun beileibe keine neue Technologie mehr. Geht selbst mit eingescannten Papierrechnungen und guter OCR leidlich gut.
Abenteuerlich finde ich, dass der Empfänger das PDF nicht verarbeiten kann! face-wink
149569
149569 05.01.2022 aktualisiert um 18:13:15 Uhr
Goto Top
Zitat von @monstermania:
Was bitteschön sollte eine OCR bei einem nativen PDF nutzen!? Der Text/Zahlen steht ja schon nativ im PDF und läßt sich problemlos daraus extraieren.

Sorry hatte das kleine aber feine "nicht" nach dem "hoffentlich" unterschlagen, denn die Aussage des TO bezüglich Empfänger das der das PDF wegen Kontrastproblemen nicht verarbeiten kann legt nahe, dass die da irgend so ne futelei einsetzen, statt den Text aus dem PDF zu nutzen 😉.

OCR macht nur Sinn, wenn es sich um Bilder-PDF handelt (z.B. gescannte PDF).
Schon klar soweit kann ich auch noch denken.
Warum sollte eine Rechnung digital signiert sein!? Wo wäre da der Vorteil aus technischer Sicht?
Könnte ja sonst wer zwischendurch manipulieren, der TO hat das ja gerade vor und wenn das durch seine Automation dann auch noch irgendwann mal schief läuft und der Empfänger tatsächlich irgend ne OCR Grütze einsetzen sollte, dampft die Kacke vermutlich gewaltig.
Abenteuerlich finde ich, dass der Empfänger das PDF nicht verarbeiten kann! face-wink
Genau das war mein primärer Gedanke zur OCR oben 🤪
Springstil
Springstil 06.01.2022 um 08:43:50 Uhr
Goto Top
Zitat von @149569:

Und wieso man hier die Rechnung nicht gleich im maschinenlesbaren ZUGFeRD Format übermittelt oder an das PDF angängt tja ... da kann man nur hoffen das die da nicht noch ne OCR oder sonst was drüber laufen lassen und dann hinterher potentiell falsche Daten in einer Datenbank landen ...
Abenteuerliche Lösungen die der Jung da umsetzt, zumal man Rechnungen ja heute auch eigentlich digital signieren sollte.

Wie monstermania schon sagt, ich befürchte das unsere Software soweit ich weiß ZUGFeRD nicht kann. Digital Signiert werden müssend die Rechnungen auch nicht, da sie zu den Bestellungen gegen gecheckt werden. Und ob die das per OCR oder wie auch immer einlesen ist mir ehrlich gesagt wurst :D Hauptsache es wird gezahlt.

Es geht bei der ganzen Sache um einen Verband, wir können natürlich auch invoice per EDI Senden, allerdings lohnt sich das bei manchen verbänden nicht die umzustellen da dies auch mit Kosten verbunden ist. Bei 9 von 10 verbänden klappt das mit der PDF super und ohne Probleme.. Nur bei dem einen eben nicht face-smile

Daher verstehe ich auch nicht wieso auf einmal der Header mit dem "Bild" Probleme machen soll..


Zitat von @149569:

Ghostscript ist dein Freund
gs -o noimage.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf

Das sowas mit Ghostscript gehen soll habe ich gesehen, nur weiß ich leider nicht wie ich das für ALLE PDF´s einzeln einsetzen kann?


Zitat von @keine-ahnung:

@Springstil

Gibt es denn die Möglichkeit ein PDF Drucker einzurichten der alles einfach Schwarz weiß druckt?

Ist mit Adobe PDF kein Problem ...

LG, Thomas

Schon versucht, leider bleibt es "grau" und kann angeblich nicht verarbeitet werden.
149569
149569 06.01.2022 aktualisiert um 10:18:10 Uhr
Goto Top
Zitat von @Springstil:

Das sowas mit Ghostscript gehen soll habe ich gesehen, nur weiß ich leider nicht wie ich das für ALLE PDF´s einzeln einsetzen kann?
Schon mal was von foreach-object gehört? Das gehört ja nun wirklich zu den absoluten PowerShell Grundlagen.
beidermachtvongreyscull
beidermachtvongreyscull 06.01.2022 aktualisiert um 09:40:43 Uhr
Goto Top
Zitat von @Springstil:
Wie monstermania schon sagt, ich befürchte das unsere Software soweit ich weiß ZUGFeRD nicht kann. Digital Signiert werden müssend die Rechnungen auch nicht, da sie zu den Bestellungen gegen gecheckt werden. Und ob die das per OCR oder wie auch immer einlesen ist mir ehrlich gesagt wurst :D Hauptsache es wird gezahlt.

Die Idee der digitalen Signatur hat auch andere Bewandnis. Es geht darum, die Rechnung fälschungssicher zu machen und auch so seine Anspruchsbegründung haltbar.

Ein Beispiel:
Euer Haus liefert ein Produkt mit nicht signierter PDF-Rechnung an einen Kunden.
Der Kunde überweist aber nicht auf Euer Konto, sondern auf ein anderes. Nun beginnt der Mahnlauf und der Kunde legt eine Rechnung von Euch vor, mit einem anderen Konto im Abbinder. Er weist nach, wie auch immer, dass die Rechnung von Euch kam. Wäre sie signiert, könntet Ihr Euch drauf berufen, dass die Rechnung gefälscht wurde. So liegt der Ball aber erstmal bei Euch.

Die Signatur der Rechnung dient also erstmal dem Schutz des Rechnungsstellers (vor Betrug auch vor betrügerischen Kunden). Als zweiter Effekt dient sie dem Empfänger (sofern mit Signaturen vertraut) als Möglichkeit, die Originalität zu prüfen.


Wie mit Kondomen:
Lieber haben und nicht brauchen, als brauchen und nicht haben.

bdmvg
monstermania
monstermania 06.01.2022 um 11:00:23 Uhr
Goto Top
@Springstil
Ich würde erstmal versuchen ein oder zwei Eurer PDF mit dem obigen GhostScript Workaround zu behandeln. Einfach von Hand.
Anschließend würde ich dann die Rechnungen dem IT-Verantwortlichen im Verband zur Verfügung stellen, damit er prüfen kann, ob Eure PDF dann verarbeitet werden können.
Ich befürchte, dass es da ein ganz anderes Problem gibt, als Bilder in den Kopf-/ Fußzeilen.
Springstil
Springstil 10.01.2022 um 10:33:49 Uhr
Goto Top
Danke für die Zahlreichen Antworten. Ich denke ich werde Ghostscript nutzen müssen, aber anders als gedacht... Ich muss wirklich alles in schwarz weiß konvertieren und Die KOPF und FUß Zeile muss erhalten blieben.

Ich versuche das jetzt seit 2 Stunden und komme mit Ghostscript unter Windows nicht so klar. Kann mir vielleicht jemand den Befehl dafür zu kommen lassen um mit Ghostscript die PDF in Monochrome zu konvertieren?
beidermachtvongreyscull
beidermachtvongreyscull 10.01.2022 um 10:56:06 Uhr
Goto Top
Zitat von @Springstil:

Danke für die Zahlreichen Antworten. Ich denke ich werde Ghostscript nutzen müssen, aber anders als gedacht... Ich muss wirklich alles in schwarz weiß konvertieren und Die KOPF und FUß Zeile muss erhalten blieben.

Ich versuche das jetzt seit 2 Stunden und komme mit Ghostscript unter Windows nicht so klar. Kann mir vielleicht jemand den Befehl dafür zu kommen lassen um mit Ghostscript die PDF in Monochrome zu konvertieren?

Gugge mal bei SuperUser:
https://superuser.com/questions/200378/converting-a-pdf-to-black-white-w ...
Springstil
Springstil 10.01.2022 um 11:14:15 Uhr
Goto Top

Das habe ich schon versucht, aber leider ohne erfolgt. Daher hoffe ich das mir jemand sagen kann wie ich das richtig unter Windows umsetze
beidermachtvongreyscull
beidermachtvongreyscull 10.01.2022 um 11:19:15 Uhr
Goto Top
Zitat von @Springstil:


Das habe ich schon versucht, aber leider ohne erfolgt. Daher hoffe ich das mir jemand sagen kann wie ich das richtig unter Windows umsetze

Da steht auch drin, dass Du auch mit ImageMagick die Konvertierung machen kannst.
Ich verwende das Tool mit einem Scriptrobot zur Umsetzung von HEIC-Dateien in JPG.

Wenn das bei PDFs auch geht, was spräche denn da dagegen?
Springstil
Springstil 10.01.2022 um 11:30:26 Uhr
Goto Top
Zitat von @beidermachtvongreyscull:
Da steht auch drin, dass Du auch mit ImageMagick die Konvertierung machen kannst.
Ich verwende das Tool mit einem Scriptrobot zur Umsetzung von HEIC-Dateien in JPG.

Wenn das bei PDFs auch geht, was spräche denn da dagegen?


Bei ImageMagick wird der Textblock als Bild gespeichert somit ist damit kein OCR auslesen mehr möglich.

MIt Ghostscript bin ich zumindest soweit das er mir die PDF schreibt, allerdings nur als Graustufe und ich möchte es eigendlich monochrome. Nun weiß ich natürlich nicht ob ich es wirklich erst in PS konvertieren muss und dann wieder zurück in PDF. Da arbeite ich gerade noch dran
beidermachtvongreyscull
beidermachtvongreyscull 10.01.2022 um 11:59:22 Uhr
Goto Top
Dem könnte man mit Tesseract abhelfen, denke ich:

https://de.wikipedia.org/wiki/Tesseract_(Software)
Springstil
Lösung Springstil 10.01.2022 um 16:31:48 Uhr
Goto Top
Also das ganze Thema hat sich erledigt ich hab die Nase voll von dem Verein.... Entferne ich die Bilder heißt es das die keinen Bezug mehr zu unserer Firma haben, obwohl dort immer noch Firmenname und Co drin steht, GLN und Lieferantennummer..

Entweder kriegen die jetzt EDI hin oder ich lass die ganze Sache sein. Ich danke aber allen beteiligten für die Hilfe!