PDF splitten nach Ausdruck
Hallo zusammen,
ich suche eine Möglichkeit per Batch eine PDF-Datei "zu zerschneiden" / splitten und zwar wenn ein bestimmter Suchbegriff in dem Dokument auftaucht.
Ich kann leider nicht den Umweg über eine Konvertierung nach TXT nehmen, da ich die erzwungenden Seitenumbrüche in dem Dokument benötige... hier hätte ich ein Tool gefunden.
Habe auch schon überlegt die PDF in PS zu wandeln und dann zu splitten doch da fehlt mir das nötige Tool...
IST_Zustand:
- Eine PDF mit x-Seiten (Anzahl der Seiten = merh als 100)
- Jeweils zum Ende eines "Kapitels" (Ich nenne es jetzt einmal so) erscheint das Wort "Summe".
- Nach dem Wort "Summe" sollen die bisher aufgelaufenen Seiten in ein separates Dokument gespeichert werden
- und das ganz möglchst in einer Kommandozeile damit ich das in Batch packen kann, eine andere Skriptsprache würde auch gehen...
Kennt jemand ein Tool, welches ich entsprechend nutzen kann??
Beste Grüße
Hawkeye
ich suche eine Möglichkeit per Batch eine PDF-Datei "zu zerschneiden" / splitten und zwar wenn ein bestimmter Suchbegriff in dem Dokument auftaucht.
Ich kann leider nicht den Umweg über eine Konvertierung nach TXT nehmen, da ich die erzwungenden Seitenumbrüche in dem Dokument benötige... hier hätte ich ein Tool gefunden.
Habe auch schon überlegt die PDF in PS zu wandeln und dann zu splitten doch da fehlt mir das nötige Tool...
IST_Zustand:
- Eine PDF mit x-Seiten (Anzahl der Seiten = merh als 100)
- Jeweils zum Ende eines "Kapitels" (Ich nenne es jetzt einmal so) erscheint das Wort "Summe".
- Nach dem Wort "Summe" sollen die bisher aufgelaufenen Seiten in ein separates Dokument gespeichert werden
- und das ganz möglchst in einer Kommandozeile damit ich das in Batch packen kann, eine andere Skriptsprache würde auch gehen...
Kennt jemand ein Tool, welches ich entsprechend nutzen kann??
Beste Grüße
Hawkeye
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 292194
Url: https://administrator.de/forum/pdf-splitten-nach-ausdruck-292194.html
Ausgedruckt am: 21.02.2025 um 11:02 Uhr
10 Kommentare
Neuester Kommentar

Die pdftk commandline tools eignen sich hervorragend für solche Aufgaben:
https://www.pdflabs.com/tools/pdftk-server/
Gruß jodel32
https://www.pdflabs.com/tools/pdftk-server/
Gruß jodel32

Moin,
mit der von jodel32 genannten Toolbox und etwas Powershell ginge das so:
Gruß grexit
mit der von jodel32 genannten Toolbox und etwas Powershell ginge das so:
# ------- Variablen
$pdfIN = "D:\test.pdf"
$folderOUT = 'D:\Ausgabeordner'
$p2text = 'c:\pdftk\pdftotext.exe'
$pdftk = 'c:\pdftk\pdftk.exe'
# -------
& $p2text $pdfIN "$env:TEMP\extract.txt"
$data = gc "$env:TEMP\extract.txt" | out-string
$totalpages = ($data -split '\x0C').Count - 1
$cpage = 1;$cnt = 1
[regex]::matches($data,'(?si)(.*?Summe.*?\x0C)').Captures | %{
$pages = [regex]::matches($_.Value, '\x0C').Count
& $pdftk $pdfIN cat "$cpage-$($cpage + ($pages-1))" output "$folderOUT\$([System.IO.Path]::GetFileNameWithoutExtension($pdfIN))_part$($cnt.toString().PadLeft(2,'0')).pdf"
$cpage += $pages; $cnt++
}
if ($cpage -le $totalpages){
& $pdftk $pdfIN cat "$cpage-end" output "$folderOUT\$([System.IO.Path]::GetFileNameWithoutExtension($pdfIN))_part$($cnt.toString().PadLeft(2,'0')).pdf"
}

Zitat von @Hawkeye101981:
Ich habe nun PDFtk Server installiert, jedoch fehlt mir die pdftotext.exe,
Kann das separat downloaden??
Bekommst du hierIch habe nun PDFtk Server installiert, jedoch fehlt mir die pdftotext.exe,
Kann das separat downloaden??
ftp://ftp.foolabs.com/pub/xpdf/xpdfbin-win-3.04.zip
http://www.foolabs.com/xpdf/download.html

Dann wird der Text deiner PDFs wohl nicht extrahiert werden können, schau mal in den Inhalt der Datei extract.txt im Temp-Verzeichnis. Ist diese leer und enthält keinen Text deiner PDF-Datei funktioniert es mit diesen PDFs nicht.

Die liegt im Temp-Verzeichnis von Windows
Wenn nicht hast du die Pfade zur text2pdf nicht richtig eingetragen oder deine PDFs sind buggy.
Mach einfach mal eine Umwandlung eines der PDFs mit "pdftotext.exe" auf der Kommandozeile manuell um zu sehen ob er einen Fehler ausgibt.
Hier geht es mit meinen Testweise aus Word erstellten PDFs einwandfrei, aber es gibt so viele Varianten bei denen der Text nur als OCR-Layer vorliegt wie z.B. bei manchen Rechnungen der Telekom, dann kann es zu solchen Problemen kommen.
"%TEMP%\extract.txt"
Mach einfach mal eine Umwandlung eines der PDFs mit "pdftotext.exe" auf der Kommandozeile manuell um zu sehen ob er einen Fehler ausgibt.
Kann es daran liegen, dass die PDF´s auf einem Linux-System erstellt werden??
Könnte, kann alle möglich, weiß ich nicht ohne sie hier zu haben ...Hier geht es mit meinen Testweise aus Word erstellten PDFs einwandfrei, aber es gibt so viele Varianten bei denen der Text nur als OCR-Layer vorliegt wie z.B. bei manchen Rechnungen der Telekom, dann kann es zu solchen Problemen kommen.