Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

PowerShell - PDF auslesen und trennen

Mitglied: Pat.bat

Pat.bat (Level 1) - Jetzt verbinden

20.05.2019 um 14:08 Uhr, 317 Aufrufe, 4 Kommentare

Hallo zusammen,

ich bin gerade am recherchieren wie ich in einer PDF mit ca. 210 Seiten jede Seite nach einem Stichwort auslesen kann, damit ich dann zb. alle Seiten mit einem Stichwort in eine extra PDF speichern kann. Und das ganze mit ca. 10 Stichwörtern.

Da es wohl mit stock PowerShell nicht wirklich funktioniert bzw nur mit großem Aufwand und man eher eine Bibliothek wie zb. PDFsharp benutzen sollte, wollte ich hier erst einmal nachfragen ob der eine oder andere mit derartigen tools schon gearbeitet hat und was empfehlenswert ist?

Ich habe derzeit erstmal Probleme die pdfsharp.dll in Powershell einzubinden. Danach hatte ich es via Visual Studio und VB.net mittels NuGet versicht, allerdings müsste ich hier komplett neu einarbeiten. Ich hätte die Lösung eigentlich lieber bei PowerShell, da ich derzeit alles damit mache. Oder meint ihr mit VS C#/vb.net gehen die Sachen sowieso besser/einfacher?

Bin mir momentan nicht sicher mit welcher Lösung ich das am besten hinbekomme.


Ich bedanke mich schonmal über eure Erfahrungen und Tips.

Mit freundlichen Grüßen,
Pat
Mitglied: colinardo
20.05.2019, aktualisiert um 18:32 Uhr
Servus Pat,
mein Code aus dem Link von @139708 sollte dir schon eine gute Grundlage mit iText geben.
Etwas optimierter ausgeführt und auf deine Anforderungen angepassten Code kannst du hier als Komplett-Paket inkl. Beispiel herunterladen:
extract_pages_to_new_files_453764.zip

Grüße Uwe
Bitte warten ..
Mitglied: Pat.bat
21.05.2019 um 15:16 Uhr
Hallo,

das funktioniert so schonmal gut. Aber ich verzweifel gerade daran, abzufangen, wenn ein Begriff nicht gefunden wird. Er gibt mir dann eine Fehlermeldung

01.
Ausnahme beim Aufrufen von "Close" mit 0 Argument(en):  "The document has no pages."
02.
In C:\Users\pvoelz\Desktop\PDFsplitter\PDFsplitter.ps1:45 Zeichen:13
03.
+             [void]$doc.Close();[void]$writer.Close;[void]$fs.Close(); ...
04.
+             ~~~~~~~~~~~~~~~~~~
05.
    + CategoryInfo          : NotSpecified: (:) [], MethodInvocationException
06.
    + FullyQualifiedErrorId : IOException
Ich habe nun versucht, mit einer IF Abfrage das abzufangen, das wenn er keine Seiten hat, soll kein Dokument anlegen. Aber leider klappt das nicht, zumindest habe ich noch keine richtige Stelle gefunden, wo ich das implementieren kann.

Er legt halt derzeit ein Dokument an, obwohl er den Begriff nicht im Hauptdokument findet. Möchte man das Dokument öffnen, gibt der Adobe Reader eine Fehlermeldung ab.
Beim versuch eine kleine Remove-Item funktion zu implementieren, wenn das Dokument keine Seiten hat, scheiterts daran, das wohl eine Seite vorhanden ist.

Weiß da jemand wie man das lösen kann?

MfG
Bitte warten ..
Mitglied: colinardo
21.05.2019, aktualisiert um 16:32 Uhr
Aber ich verzweifel gerade daran, abzufangen, wenn ein Begriff nicht gefunden wird.
Tipp: Mit Where-Object die zutreffenden Seiten ausfiltern und nur bei Array größer 0 ein neues Dokument erzeugen, sonst nicht.
Weiß da jemand wie man das lösen kann?
Ja, lad dir das Demo-Package, da ist alles das drin was du brauchst, fix un feddisch
Bitte warten ..
Ähnliche Inhalte
Batch & Shell
Powershell, PDF
Frage von AnkhMorporkBatch & Shell6 Kommentare

Hallo zusammen, ich komme mit der Suche nicht weiter Situation: ca. 2000 PDF-Dateien (Downloads von E-Mails). In der ersten ...

Batch & Shell

Powershell PDF drucken auf verschiedene Drucker

gelöst Frage von ChrissssiBatch & Shell2 Kommentare

Hallo zusammen, Mein Problem ist das ich PDF Dateien habe die ich auf unterschiedliche Drucker automatisch drucken muss. Das ...

Batch & Shell

Powershell PDF Drucken über Scheduler Task

Frage von ChrissssiBatch & Shell4 Kommentare

Hallo zusammen, ich bin hier gerade am verzweifeln Ich habe in Powershell Skript, welchen mir eine PDF drucken soll. ...

Batch & Shell

PDF-Stapelverarbeitung mit PDFTK (in batch, shell, powershell)

gelöst Frage von brause1701Batch & Shell3 Kommentare

Hallo Community, ich möchte beliebig viele PDF-Dateien mit pdftk verarbeiten und in ein Output-Verzeichnis ablegen (evtl. adaptierten Namen). Idealerweise ...

Neue Wissensbeiträge
Windows 10
Windows 10: Netzwerk zeigt Fehler 0x80070035
Tipp von anteNope vor 3 StundenWindows 105 Kommentare

Moin zusammen, ich hatte gerade mal wieder das Vergnügen mit dem obigen Fehler. Unter Borns Blog ist das beschreiben: ...

Windows 10

Bug: Windows 10 Enterprise LTSC erhält Funktionsupdate angeboten

Information von kgborn vor 20 StundenWindows 105 Kommentare

Der Fehler ist mittlerweile zwar korrigiert, aber ich denke, ich stelle die Info doch mal hier für Leute ein, ...

Viren und Trojaner

Entschlüsselungs-Tool für aktuelle GandCrab-Version verfügbar

Information von MrCount vor 1 TagViren und Trojaner

Für alle Betroffenen gibt es offenbar ein Tool zur Entschlüsselung. Dann wird wohl die nächste version von GandCrap nicht ...

LAN, WAN, Wireless
Sophos RED50 stürzt ab und ist danach tot
Information von Ex0r2k16 vor 4 TagenLAN, WAN, Wireless3 Kommentare

Hey, nach meinem Thread bin ich durch Zufall auf das hier gestoßen: Also wenn ihr UTMs und RED50's im ...

Heiß diskutierte Inhalte
Viren und Trojaner
Gefahr - Risiko zwischen doc xls und docx xlsx
Frage von Asker06Viren und Trojaner33 Kommentare

Guten Tag, ich wollte wissen ob die .doc und .xls datein viel gefährlicher sind als .docx und .xlsx?? Ich ...

Sicherheit
Wie sichert (verschlüsselt) ihr eure Passwörter ?
gelöst Frage von decehakanSicherheit20 Kommentare

Hallo Admins, Mittlerweile hat man für jeden Dienst seine Zugangsdaten, sei es Amazon, Bank, FB, etc , vor allem ...

Windows Netzwerk
Standardgateway bei Clients mit statischer IP Adresse ändern
Frage von sammy65Windows Netzwerk19 Kommentare

Hallo miteinander, Wie kann ich über eine GPO die Standardgateway an meinen Clients ändern? Ich habe das versucht?: Es ...

Netzwerkmanagement
VLAN zwischen HP Switchen
gelöst Frage von SykoNFNetzwerkmanagement17 Kommentare

Moin Moin, ich versuche eine ganz einfachen Aufbau von VLAN zu erreichen. Ich habe zwei Switche, HP 1920-48G und ...