Jan 04, 2016

3052

PDF splitten nach Ausdruck

Hallo zusammen,

ich suche eine Möglichkeit per Batch eine PDF-Datei "zu zerschneiden" / splitten und zwar wenn ein bestimmter Suchbegriff in dem Dokument auftaucht.

Ich kann leider nicht den Umweg über eine Konvertierung nach TXT nehmen, da ich die erzwungenden Seitenumbrüche in dem Dokument benötige... hier hätte ich ein Tool gefunden.

Habe auch schon überlegt die PDF in PS zu wandeln und dann zu splitten doch da fehlt mir das nötige Tool...

IST_Zustand:
- Eine PDF mit x-Seiten (Anzahl der Seiten = merh als 100)
- Jeweils zum Ende eines "Kapitels" (Ich nenne es jetzt einmal so) erscheint das Wort "Summe".
- Nach dem Wort "Summe" sollen die bisher aufgelaufenen Seiten in ein separates Dokument gespeichert werden
- und das ganz möglchst in einer Kommandozeile damit ich das in Batch packen kann, eine andere Skriptsprache würde auch gehen...

Kennt jemand ein Tool, welches ich entsprechend nutzen kann??

Beste Grüße
Hawkeye

Please also mark the comments that contributed to the solution of the article

Content-Key: 292194

Url: https://administrator.de/contentid/292194

Printed on: April 19, 2024 at 11:04 o'clock

10 Comments

Latest comment

Die pdftk commandline tools eignen sich hervorragend für solche Aufgaben:
https://www.pdflabs.com/tools/pdftk-server/

Gruß jodel32

Moin,
mit der von jodel32 genannten Toolbox und etwas Powershell ginge das so:

# ------- Variablen
$pdfIN = "D:\test.pdf"  
$folderOUT = 'D:\Ausgabeordner'  
$p2text = 'c:\pdftk\pdftotext.exe'  
$pdftk = 'c:\pdftk\pdftk.exe'  
# -------
& $p2text $pdfIN "$env:TEMP\extract.txt"  
$data = gc "$env:TEMP\extract.txt" | out-string  
$totalpages = ($data -split '\x0C').Count - 1  
$cpage = 1;$cnt = 1
[regex]::matches($data,'(?si)(.*?Summe.*?\x0C)').Captures | %{  
    $pages = [regex]::matches($_.Value, '\x0C').Count  
    & $pdftk $pdfIN cat "$cpage-$($cpage + ($pages-1))" output "$folderOUT\$([System.IO.Path]::GetFileNameWithoutExtension($pdfIN))_part$($cnt.toString().PadLeft(2,'0')).pdf"  
    $cpage += $pages; $cnt++
}
if ($cpage -le $totalpages){
    & $pdftk $pdfIN cat "$cpage-end" output "$folderOUT\$([System.IO.Path]::GetFileNameWithoutExtension($pdfIN))_part$($cnt.toString().PadLeft(2,'0')).pdf"  
}

Gruß grexit

Hallo zusammen,

vielen Dank für die Hilfe. ein Frage habe ich jedoch...

Ich habe nun PDFtk Server installiert, jedoch fehlt mir die pdftotext.exe,
Kann das separat downloaden??

Gruß
Hawk

Zitat von @Hawkeye101981:
Ich habe nun PDFtk Server installiert, jedoch fehlt mir die pdftotext.exe,
Kann das separat downloaden??

Bekommst du hier
ftp://ftp.foolabs.com/pub/xpdf/xpdfbin-win-3.04.zip

http://www.foolabs.com/xpdf/download.html

Hallo zusammen,

habe das tool nun heruntergeladen und das Skript ausgeführt. Jetzt wird mir folgende Fehlermeldung angezeigt:

pdftk.exe : Error: Unexpected range end; expected a page
Bei C:\PDF\Powershell.ps1:13 Zeichen:6

& <<<< $pdftk $pdfIN cat "$cpage-$($cpage + ($pages-1))" output "$folderOUT\$([System.IO.Path]::GetFileNameWithoutExtension($pdfIN))_part$($cnt.toString().PadLeft(2,'0')).pdf"

+ CategoryInfo : NotSpecified: (Error: Unexpect...expected a page:String) , RemoteException
+ FullyQualifiedErrorId : NativeCommandError

number or legal keyword, here: 1
Exiting.
Errors encountered. No output created.
Done. Input errors, so no output created.

Kann mir das jemand übersetzen??

Danke im voraus!

pdftk.exe : Error: Unexpected range end; expected a page
Bei C:\PDF\Powershell.ps1:13 Zeichen:6
+     & <<<<  $pdftk $pdfIN cat "$cpage-$($cpage + ($pages-1))" output "$folderOUT\$([System.IO.Path]::GetFileNameWithoutExtension($pdfIN))_part$($cnt.toString().PadLeft(2,'0')).pdf"  
    + CategoryInfo          : NotSpecified: (Error: Unexpect...expected a page:String) , RemoteException
    + FullyQualifiedErrorId : NativeCommandError
 
   number or legal keyword, here: 1
   Exiting.
Errors encountered.  No output created.
Done.  Input errors, so no output created.

So sieht es besser aus...

Dann wird der Text deiner PDFs wohl nicht extrahiert werden können, schau mal in den Inhalt der Datei extract.txt im Temp-Verzeichnis. Ist diese leer und enthält keinen Text deiner PDF-Datei funktioniert es mit diesen PDFs nicht.

Hallo,

danke für die Rückmeldung. Die Extract.TXT kann ich garnicht finden...

Kann es daran liegen, dass die PDF´s auf einem Linux-System erstellt werden??

Gruß
Hawkeye

Zitat von @Hawkeye101981:
danke für die Rückmeldung. Die Extract.TXT kann ich garnicht finden...

Die liegt im Temp-Verzeichnis von Windows

"%TEMP%\extract.txt"

Wenn nicht hast du die Pfade zur text2pdf nicht richtig eingetragen oder deine PDFs sind buggy.
Mach einfach mal eine Umwandlung eines der PDFs mit "pdftotext.exe" auf der Kommandozeile manuell um zu sehen ob er einen Fehler ausgibt.

Kann es daran liegen, dass die PDF´s auf einem Linux-System erstellt werden??

Könnte, kann alle möglich, weiß ich nicht ohne sie hier zu haben ...
Hier geht es mit meinen Testweise aus Word erstellten PDFs einwandfrei, aber es gibt so viele Varianten bei denen der Text nur als OCR-Layer vorliegt wie z.B. bei manchen Rechnungen der Telekom, dann kann es zu solchen Problemen kommen.

Hmmhh... also selbst pdftk direkt aufgerufen hat mit dem Dokuemtn ein Problem.
Liegt somit am PDF selber... schade für die Mühe!!

German Question Development

Hotly discussed

Check of ZFW Firewallgleixnerd - 3 Comments

How to set up and configure a Linux GRE tunnelAlexWisha - 3 Comments

WIREGUARD VPN ON UDM PRO BEHIND FRITZBOX - HANDSHAKE DID NOT COMPLETEjstricker - 3 Comments

End of Support dates for Office 2016, 2019 Apps und Productivity ServersDani - 1 Comment