Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

PDF splitten nach Ausdruck

Mitglied: Hawkeye101981

Hawkeye101981 (Level 1) - Jetzt verbinden

04.01.2016 um 17:32 Uhr, 1119 Aufrufe, 10 Kommentare

Hallo zusammen,

ich suche eine Möglichkeit per Batch eine PDF-Datei "zu zerschneiden" / splitten und zwar wenn ein bestimmter Suchbegriff in dem Dokument auftaucht.

Ich kann leider nicht den Umweg über eine Konvertierung nach TXT nehmen, da ich die erzwungenden Seitenumbrüche in dem Dokument benötige... hier hätte ich ein Tool gefunden.

Habe auch schon überlegt die PDF in PS zu wandeln und dann zu splitten doch da fehlt mir das nötige Tool...

IST_Zustand:
- Eine PDF mit x-Seiten (Anzahl der Seiten = merh als 100)
- Jeweils zum Ende eines "Kapitels" (Ich nenne es jetzt einmal so) erscheint das Wort "Summe".
- Nach dem Wort "Summe" sollen die bisher aufgelaufenen Seiten in ein separates Dokument gespeichert werden
- und das ganz möglchst in einer Kommandozeile damit ich das in Batch packen kann, eine andere Skriptsprache würde auch gehen...

Kennt jemand ein Tool, welches ich entsprechend nutzen kann??

Beste Grüße
Hawkeye
Mitglied: 114757
04.01.2016 um 17:45 Uhr
Die pdftk commandline tools eignen sich hervorragend für solche Aufgaben:
https://www.pdflabs.com/tools/pdftk-server/

Gruß jodel32
Bitte warten ..
Mitglied: 122990
04.01.2016, aktualisiert um 21:02 Uhr
Moin,
mit der von jodel32 genannten Toolbox und etwas Powershell ginge das so:
01.
# ------- Variablen
02.
$pdfIN = "D:\test.pdf"
03.
$folderOUT = 'D:\Ausgabeordner'
04.
$p2text = 'c:\pdftk\pdftotext.exe'
05.
$pdftk = 'c:\pdftk\pdftk.exe'
06.
# -------
07.
& $p2text $pdfIN "$env:TEMP\extract.txt"
08.
$data = gc "$env:TEMP\extract.txt" | out-string
09.
$totalpages = ($data -split '\x0C').Count - 1
10.
$cpage = 1;$cnt = 1
11.
[regex]::matches($data,'(?si)(.*?Summe.*?\x0C)').Captures | %{
12.
    $pages = [regex]::matches($_.Value, '\x0C').Count
13.
    & $pdftk $pdfIN cat "$cpage-$($cpage + ($pages-1))" output "$folderOUT\$([System.IO.Path]::GetFileNameWithoutExtension($pdfIN))_part$($cnt.toString().PadLeft(2,'0')).pdf"
14.
    $cpage += $pages; $cnt++
15.
}
16.
if ($cpage -le $totalpages){
17.
    & $pdftk $pdfIN cat "$cpage-end" output "$folderOUT\$([System.IO.Path]::GetFileNameWithoutExtension($pdfIN))_part$($cnt.toString().PadLeft(2,'0')).pdf"
18.
}
Gruß grexit
Bitte warten ..
Mitglied: Hawkeye101981
05.01.2016 um 09:10 Uhr
Hallo zusammen,

vielen Dank für die Hilfe. ein Frage habe ich jedoch...

Ich habe nun PDFtk Server installiert, jedoch fehlt mir die pdftotext.exe,
Kann das separat downloaden??

Gruß
Hawk
Bitte warten ..
Mitglied: 122990
05.01.2016, aktualisiert um 09:55 Uhr
Zitat von Hawkeye101981:
Ich habe nun PDFtk Server installiert, jedoch fehlt mir die pdftotext.exe,
Kann das separat downloaden??
Bekommst du hier
ftp://ftp.foolabs.com/pub/xpdf/xpdfbin-win-3.04.zip

http://www.foolabs.com/xpdf/download.html
Bitte warten ..
Mitglied: Hawkeye101981
05.01.2016 um 11:16 Uhr
Hallo zusammen,

habe das tool nun heruntergeladen und das Skript ausgeführt. Jetzt wird mir folgende Fehlermeldung angezeigt:

pdftk.exe : Error: Unexpected range end; expected a page
Bei C:\PDF\Powershell.ps1:13 Zeichen:6

& <<<< $pdftk $pdfIN cat "$cpage-$($cpage + ($pages-1))" output "$folderOUT\$([System.IO.Path]::GetFileNameWithoutExtension($pdfIN))_part$($cnt.toString().PadLeft(2,'0')).pdf"

+ CategoryInfo : NotSpecified: (Error: Unexpect...expected a page:String) [], RemoteException
+ FullyQualifiedErrorId : NativeCommandError

number or legal keyword, here: 1
Exiting.
Errors encountered. No output created.
Done. Input errors, so no output created.

Kann mir das jemand übersetzen??

Danke im voraus!
Bitte warten ..
Mitglied: Hawkeye101981
05.01.2016 um 11:17 Uhr
01.
pdftk.exe : Error: Unexpected range end; expected a page
02.
Bei C:\PDF\Powershell.ps1:13 Zeichen:6
03.
+     & <<<<  $pdftk $pdfIN cat "$cpage-$($cpage + ($pages-1))" output "$folderOUT\$([System.IO.Path]::GetFileNameWithoutExtension($pdfIN))_part$($cnt.toString().PadLeft(2,'0')).pdf"
04.
    + CategoryInfo          : NotSpecified: (Error: Unexpect...expected a page:String) [], RemoteException
05.
    + FullyQualifiedErrorId : NativeCommandError
06.
 
07.
   number or legal keyword, here: 1
08.
   Exiting.
09.
Errors encountered.  No output created.
10.
Done.  Input errors, so no output created.


So sieht es besser aus...
Bitte warten ..
Mitglied: 122990
05.01.2016 um 11:19 Uhr
Dann wird der Text deiner PDFs wohl nicht extrahiert werden können, schau mal in den Inhalt der Datei extract.txt im Temp-Verzeichnis. Ist diese leer und enthält keinen Text deiner PDF-Datei funktioniert es mit diesen PDFs nicht.
Bitte warten ..
Mitglied: Hawkeye101981
05.01.2016 um 13:46 Uhr
Hallo,

danke für die Rückmeldung. Die Extract.TXT kann ich garnicht finden...

Kann es daran liegen, dass die PDF´s auf einem Linux-System erstellt werden??

Gruß
Hawkeye
Bitte warten ..
Mitglied: 122990
05.01.2016, aktualisiert um 13:55 Uhr
Zitat von Hawkeye101981:
danke für die Rückmeldung. Die Extract.TXT kann ich garnicht finden...
Die liegt im Temp-Verzeichnis von Windows
"%TEMP%\extract.txt"
Wenn nicht hast du die Pfade zur text2pdf nicht richtig eingetragen oder deine PDFs sind buggy.
Mach einfach mal eine Umwandlung eines der PDFs mit "pdftotext.exe" auf der Kommandozeile manuell um zu sehen ob er einen Fehler ausgibt.
Kann es daran liegen, dass die PDF´s auf einem Linux-System erstellt werden??
Könnte, kann alle möglich, weiß ich nicht ohne sie hier zu haben ...
Hier geht es mit meinen Testweise aus Word erstellten PDFs einwandfrei, aber es gibt so viele Varianten bei denen der Text nur als OCR-Layer vorliegt wie z.B. bei manchen Rechnungen der Telekom, dann kann es zu solchen Problemen kommen.
Bitte warten ..
Mitglied: Hawkeye101981
05.01.2016 um 15:57 Uhr
Hmmhh... also selbst pdftk direkt aufgerufen hat mit dem Dokuemtn ein Problem.
Liegt somit am PDF selber... schade für die Mühe!!
Bitte warten ..
Ähnliche Inhalte
Drucker und Scanner
Problem mit Ausdruck von PDF Dateien
Frage von CountryBoyDrucker und Scanner4 Kommentare

Hallo zusammen, leider gibt es an einem unserer Rechner ein Problem das mich jetzt schon seit langem beschäftigt. Ich ...

Windows 7

PDF-Ausdruck wird gestaucht, sobald mehr als ein Exemplar gedruckt wird

Frage von cardischWindows 73 Kommentare

Hi@all. Habe hier folgendes Problem, vorab Infos zur Infrastruktur: - Gegeben ist ein PC mit W7-32 (der mit dem ...

Entwicklung

DevExpress Ausdruck generieren

gelöst Frage von TranministratorEntwicklung2 Kommentare

Hello All! weiß jemand ob man mit dem Ausdrucksgenerator so etwas hinbekommt? Vorher: TX - BB - Stirnbänder/Sonnenbl./Masken - ...

Linux Tools

Virtueller Drucker gesucht - netzwerkfähig - postscriptfähig - Ausdruck in PDF Datei - Ablage auf SMB Fileshare

gelöst Frage von kaalaxLinux Tools3 Kommentare

Hallo Adminz, vielleicht gibt es das, was ich suche gar nicht oder noch nicht, jedenfalls blieb meine Suche bisher ...

Neue Wissensbeiträge
Windows Netzwerk

Ereignis-ID 20226 RasClient Ursachencode 829 VPN Verbindung wird abgebrochen

Anleitung von Hardstyles vor 3 TagenWindows Netzwerk

Hallo zusammen, nach Stundenlanger Analysen und test konnten wir den Fehler Lösen. es geht um folgende Fehler Meldung in ...

Windows 10

Windows 10 Version 1903: Update KB4522015 blockt VMware Workstation

Information von kgborn vor 7 TagenWindows 10

Nur eine kurze Information für Leute, die schon Windows 10 Version 1903 in Betrieb haben und dort VMware Workstation ...

VB for Applications

Fritzbox Telefonbuch - XML-Importdatei aus Excel erstellen

Tipp von PeterleB vor 7 TagenVB for Applications1 Kommentar

Das Thema geistert schon seit Jahren durch verschiedene Foren. Habe mich jetzt mal damit etwas intensiver befasst und hoffe, ...

Administrator.de Feedback
Entwicklertagebuch: Editor Version 6
Information von admtech vor 9 TagenAdministrator.de Feedback1 Kommentar

Hallo Administrator User, in der letzten Post habe ich über die berichtet. Hier will ich nun einen ersten Ausblick ...

Heiß diskutierte Inhalte
Festplatten, SSD, Raid
8TB Festplatte "Zerschossen", plötzlich keine Partition, nix. Was kann ich tun?
gelöst Frage von SilberManuelFestplatten, SSD, Raid32 Kommentare

Hi, ich hatte mir mehrere 8TB Platten geholt (externe aus dem Gehäuse geholt und intern verwendet) die ich jetzt ...

Netzwerkmanagement
Servername aus zugreifbaren Diensten auslesen
Frage von certifiedit.netNetzwerkmanagement14 Kommentare

Guten Morgen, folgende Überlegung: Ich habe einen (bisher) nicht identifizierbaren Server (IP liegt vor) mit den Diensten RPC; Netbios, ...

Festplatten, SSD, Raid
Festplatte mit mechanischem defekt auslesen bzw. Kopieren wenn Zugriff darauf relativ normal möglich ist
gelöst Frage von SilberManuelFestplatten, SSD, Raid9 Kommentare

Hallo, ich habe nur gerade die kurze Frage mit welchem Tool ich am besten eine Festplatte kopieren oder auslesen ...

Router & Routing
Fritzbox und USG Pro und HP Switch 1920
gelöst Frage von Heimerdinger1000Router & Routing7 Kommentare

Hallo, ich habe eine Frage an die Profis: Folgendes Szenario: - Fritzbox im Bridge-Mode auf Lan2 bei Kabelanschluss - ...