Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

gelöst Welche gescannten PDFs enthalten Text und welche nicht?

Mitglied: hanheik

hanheik (Level 1) - Jetzt verbinden

16.12.2019 um 12:36 Uhr, 447 Aufrufe, 5 Kommentare

Hallo,

je nach verwendetem Multifunktionsgerät sind in einem Büro über die Jahre PDFs mit OCR- und PDFs ohne OCR (nur Bild, ohne enthaltenem Text) entstanden und zu einem Riesenhaufen PDFs geworden.
Wie könnte man die OCR-PDFs von den nicht-OCR-PDFs trennen?

lG
Mitglied: 142232
16.12.2019, aktualisiert um 13:39 Uhr
Mit pdftk oder iTextSharp Text mit der Skriptsprache seiner Wahl extrahieren, wenn nix da verschiebe in Ordner x wenn doch in y.
Bitte warten ..
Mitglied: godlie
16.12.2019 um 13:50 Uhr
Hallo,

ich würde mir da mithilfe von qpdf --json file.pdf ein Script zusammensetzen, welches eine Auswertung der Objects macht.
Bitte warten ..
Mitglied: hanheik
16.12.2019 um 14:43 Uhr
Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!
Bitte warten ..
Mitglied: 142232
16.12.2019, aktualisiert um 15:03 Uhr
Zitat von hanheik:

Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!
Achtung das kann dir zum Verhängnis werden wenn Kompression im PDF ins Spiel kommt, wasserdicht ist das auf jeden Fall nicht.
Bitte warten ..
Ähnliche Inhalte
VB for Applications

PDF Text aus bestimmten Bereich und die Seitenzahl in Excel schreiben

Frage von VBABeginnerVB for Applications

Mahlzeit, Ich bin neu hier und bräuchte euren Rat. Ich möchte einen betimmten, immer wiederkehreneden Textbereich und die Seitennummer ...

Netzwerke

Buchhalterische Belege nur noch gescannt in der EDV archivieren

Frage von thomasreischerNetzwerke10 Kommentare

Hallo zusammen, Wir würden bei uns demnächst gerne die zettelwirtschaft der Buchhaltung eindämmen. Wir haben uns vorgestellt alle Eingangsrechnungen ...

Windows 7

PDF-Printer

gelöst Frage von malikaWindows 79 Kommentare

Guten Tag, ich habe einen W7 Pro 64-Bit PC auf dem Adobe PDF Printer fehlt. Ich habe versucht einen ...

Batch & Shell

Powershell, PDF

Frage von AnkhMorporkBatch & Shell6 Kommentare

Hallo zusammen, ich komme mit der Suche nicht weiter Situation: ca. 2000 PDF-Dateien (Downloads von E-Mails). In der ersten ...

Neue Wissensbeiträge
Exchange Server

ACHTUNG: Ungepatchte Exchange Server aktuell im Visier von Angreifern!

Tipp von vibrations vor 16 StundenExchange Server1 Kommentar

Wer es noch nicht mitbekommen haben sollte: Exchange-Server Systeme werden gerade vermehrt auf eine Sicherheitslücke mit der sich das ...

Microsoft Office

Office 365 Makro Schutz nicht immer per GPO möglich

Information von sabines vor 3 TagenMicrosoft Office5 Kommentare

Der zum Schutz gegen Verschlüsselungstrojaner wichtige Makroschutz lässt sich wohl in Office 365 nicht immer per GPO einstellen. Für ...

Netzwerkmanagement
How To Mikrotik Netinstall
Erfahrungsbericht von areanod vor 5 TagenNetzwerkmanagement

Jedes Mal wenn ich Netinstall längere Zeit nicht benutzt habe stolpere ich über die „Besonderheiten“ dieser Software. Das ist ...

Microsoft
Microsoft: LDAPS per Update als Default
Information von em-pie vor 5 TagenMicrosoft2 Kommentare

Hallo, Microsoft wird mit einem der zukünftigen Updates LDAP auf LDAPS per Default umstellen. Admins von angebundenen Systemen die ...

Heiß diskutierte Inhalte
Netzwerkgrundlagen
Reichweite bei Netzwerkdruckern mit Kupfer
gelöst Frage von OIOOIOOIOIIOOOIIOIIOIOOONetzwerkgrundlagen42 Kommentare

Guten Tag, aus gegebenem Anlass, möchte ich euch fragen, was aus eurer Sicht, eine akzeptable Reichweite bei einem Netzwerkdrucker ...

DSL, VDSL
Gigabit Leitung - niedrige Geschwindigkeit
Frage von Ghost108DSL, VDSL26 Kommentare

Hallo zusammen, ich bin vor kurzem auf den Tarif Vodafone Cable Max 1000 umgestiegen. Techniker war vor Ort und ...

Hardware
Stromausfalllogger
Frage von certifiedit.netHardware21 Kommentare

Guten Nachmittag, welche Geräte könnt Ihr empfehlen um Stromausfälle, optimalerweise auch Frequenzstörungen zu loggen? Geht hier um keinen konkreten ...

Server-Hardware
Neuer Server - Meinung
gelöst Frage von hukimanServer-Hardware18 Kommentare

Hallo Zusammen, für einen Kunden stelle ich aktuell den ersten Server zusammen, den ich selbst verkaufe. Es soll ein ...