Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit
Kommentar vom Moderator tomolpi am 20.08.2019 um 08:41:49 Uhr
Beitrag verschoben

Suche Code zur Zählung von Wörtern - VBA, Excel (gerne mit Vergütung)

Mitglied: Mensah61

Mensah61 (Level 1) - Jetzt verbinden

19.08.2019, aktualisiert 20.08.2019, 518 Aufrufe, 8 Kommentare

Liebes Forum

Ich bin leider keine Expertin in Sachen VBA und Makro Erstellung, weshalb ich euch gerne fragen möchte.

Ich habe mehr als 300 PDF Dateien, in denen ich die Anzahl bestimmter Begriffe feststellen muss.

Beispielsweise müsste ich schauen, wie oft der Begriff "nachhaltig" in jeder einzelnen PDF Datei in einem Ordner vorhanden ist und daraus eine Excel Tabelle erstellen.



Ich habe schon einen VBA code dafür gefunden, um die Seitenanzahl der einzelnen PDF Dateien herauszuschreiben und frage mich nun ob es dasselbe auch für das Zählen der Wörter gibt - sodass ich am Ende eine Tabelle erhalte in folgendem Format -> Dateiname- Anzahl des Begriffs grün

Falls sich hier jemand die Mühe machen könnte, sein Wissen mit mir zu teilen- wäre ich auch gerne bereit ihn enstprechend zu vergüten, damit er für seinen Spass auch belohnt wird...

oder wenn ihr irgendeine andere Möglichkeit kennt, wie ich dieses Vorgehen vereinfachen könnte- wäre ich auch offen für neues :´D

Andernfalls muss ich wieder alles einzeln machen und das würde - wieder sehr viel Zeit kosten- und ich war während dieser Recherche Arbeit schon oft genug am Ende meiner Nerven....deshalb bitte ich euch doch um eure Unterstützung...und wäre sehr dankbar...


Liebe Grüße

Studentin Mensah
Mitglied: Guenther45
20.08.2019 um 01:57 Uhr
Moin Mensah,

… etwas "dünn" deine Angaben über das, was du bislang wie erreicht hast.
Ich würde mir folgendes überlegen: Die ganzen *.PDF in 1 Word-Datei konvertieren. Und dann kannst du dort per VBA (oder auch von Hand) die Suchbegriffe auflisten lassen oder gegen sich selber wechseln, wo dann die Zahl der Wechsel angezeigt wird. Den Wert kannst du dann einfach in Excel übertragen.

Gruß
Günther
Bitte warten ..
Mitglied: certifiedit.net
20.08.2019 um 07:22 Uhr
Bitte in Zusammenarbeit verschieben.
Bitte warten ..
Mitglied: tomolpi
20.08.2019 um 08:41 Uhr
Zitat von certifiedit.net:

Bitte in Zusammenarbeit verschieben.
Habe ich mal gemacht. Danke für den Hinweis!
Bitte warten ..
Mitglied: monstermania
20.08.2019 um 09:08 Uhr
Moin,
handelt es sich bei den PDF-Dateien um native PDF, oder sind es eingescannte PDF!?
Sprich kannst Du in den PDF-Dateien einzelne Wörter suchen/markieren oder nicht!?

Gruß
Dirk
Bitte warten ..
Mitglied: dwaldmannDE
20.08.2019 um 11:12 Uhr
Guten Morgen Mensah,

ich will als Alternative zu VBA mal eine andere Skriptsprache wie bspw. PowerShell in den Raum werfen. Wenn die PDF-Dateien richtigen Text (und nicht nur das Bild von Text) enthalten, ist es damit relativ einfach möglich, bestimmte Begriffe zu zählen und auch deren Fundort abzuspeichern. Ich habe für einen Kunden schonmal was ganz ähnliches gemacht. Meine Grundlage war damals der Beitrag hier: https://superuser.com/a/1278521

Es ist kein Problem, dass Skript so umzubauen, dass die Schlüsselworte auch gezählt werden.

Gruß
Daniel
Bitte warten ..
Mitglied: colinardo
20.08.2019, aktualisiert um 11:38 Uhr
Servus @Mensah61 ,willkommen auf Administrator.de!
Habe dir das mal schnell in Powershell zusammengescriptet, hatten ich hier ja schon in diversen Spielarten bereits im Forum gepostet.

Kommentare findest du im Skript.

Du kannst das Demo-Package hier herunterladen: count_words_in_pdfs_486656.zip

Grüße Uwe
Bitte warten ..
Mitglied: Mensah61
20.08.2019 um 23:03 Uhr
Guten Tag Uwe

Auch wenn ich mich nun die Zeit mit PowerShell beschäftigt habe - komme ich leider nicht darauf, wie ich dein Skript individualisiert anwenden soll- dafür fehlen mir noch die Skills bzw das Basiswissen für PowerShell....

Unter anderem weis ich nicht genau wo ich die Pfade ersetzen soll - mit beispielsweise "C:....PDF-Ordner" (soll ich es statt dem PSScriptRoot hinschreiben ?
Was genau fange ich mit dem itextsharp.dlll an - ist das eine Datei ohne die das Skript nicht läuft ? Ich kann es nicht mal öffnen...

Meine Pfade sind Folgende

Ordner mit den PDF Dateien heißt - "Neuer Ordner" und ist in C:\Users\13-4175NG\Desktop\GB\LAST\Neuer Ordner zu finden
Ordner der CSV Datei heißt "ExportData" und ist auch in C:\Users\13-4175NG\Desktop\GB\LAST\Neuer Ordner zu finden
Deine Itextsharp.dlll Datei ist auch in C:\Users\13-4175NG\Desktop\GB\LAST\Neuer Ordner zu finden


Es wäre sehr lieb wenn du die entsprechenden Befehle auch einfügen könntest, da ich es einfach nicht hinkriege und Fehlermeldungen bekomme....


LG MENI
Bitte warten ..
Mitglied: colinardo
21.08.2019, aktualisiert um 09:54 Uhr
Zitat von Mensah61:
Unter anderem weis ich nicht genau wo ich die Pfade ersetzen soll - mit beispielsweise "C:....PDF-Ordner" (soll ich es statt dem PSScriptRoot hinschreiben ?
Ja, $PSScriptRoot ist eine spezielle Powershell Variable in der bei Ausführung des Skripts der Ordnerpfad des Skripts steht.
Hätte man als Student(in) eigentlich auch selbst nachschlagen können
https://riptutorial.com/de/powershell/example/27231/--psscriptroot

Was genau fange ich mit dem itextsharp.dlll an - ist das eine Datei ohne die das Skript nicht läuft ? Ich kann es nicht mal öffnen...
Die DLL (Programmbibliothek des Projektes iText) wird zum Lesen der PDFs benötigt. in Ihr sind die benötigten Routinen enthalten. Du kannst sie nicht öffnen, das sind kompilierte .NET Routinen die beim Start des Skripts mit Add-Type geladen werden.


Meine Pfade sind Folgende

Ordner mit den PDF Dateien heißt - "Neuer Ordner" und ist in C:\Users\13-4175NG\Desktop\GB\LAST\Neuer Ordner zu finden
OK dann gehe ich von folgendem Ordner aus
C:\Users\13-4175NG\Desktop\GB\LAST\Neuer Ordner\Neuer Ordner
? Oder nur ein "Neuer Ordner" am Ende? Ist leider etwas schwammig, zu viele neue Ordner 😁.

Ordner der CSV Datei heißt "ExportData" und ist auch in C:\Users\13-4175NG\Desktop\GB\LAST\Neuer Ordner zu finden
Deine Itextsharp.dlll Datei ist auch in C:\Users\13-4175NG\Desktop\GB\LAST\Neuer Ordner zu finden


01.
# ------------------------------------------------------
02.
# Pfad in dem die PDFs liegen
03.
$pdfquelle = 'C:\Users\13-4175NG\Desktop\GB\LAST\Neuer Ordner\Neuer Ordner'
04.
# Pfad zur CSV in das die Ergebnisse geschrieben werden
05.
$export = 'C:\Users\13-4175NG\Desktop\GB\LAST\Neuer Ordner\exportdata\result.csv'
06.
# Pfad zur iTextsharp DLL
07.
$PATH_ITEXTSHARP = 'C:\Users\13-4175NG\Desktop\GB\LAST\Neuer Ordner\itextsharp.dll'
08.
# Array aus Wörter deren Anzahl zu zählen ist
09.
$words = 'grün','rot'
10.
#
Das Package war ja eigentlich so simpel aufgebaut das du es nur ausführen musst inkl. Demo-Pdf., Deswegen auch die Variable $PSScriptroot, weil mit dieser die Ausführung auch bei direkt geklappt hätte Kommentare sind ja auch eigentlich reichhaltig im Skript vorhanden, aber naja ...


Falls noch was sein sollte bitte PN an mich direkt. Merci.

So long.
Bitte warten ..
Ähnliche Inhalte
Microsoft Office
Excel Such- und Vergleichsfunktion
gelöst Frage von oesi1989Microsoft Office15 Kommentare

Hallo zusammen, ich habe 2 Tabellen mit Name, Vorname und Arbeitgeber. 1. Tabelle Name Vorname Geb-Datum Arbeitgeber Straße Ort ...

Microsoft Office
Excel VBA vbyesno
gelöst Frage von Florian86Microsoft Office2 Kommentare

Hallo, ich habe folgenden Code Sub AbgerundetesRechteck1_Klicken() Dim wksOrig As Worksheet Dim wksStore As Worksheet Dim lngLastRow As Long ...

VB for Applications
Excel VBA Code
gelöst Frage von specialuserVB for Applications2 Kommentare

Hallo zusammen, Hab hier einen Button in einer Excel mit Makros erstellt. Der Button hat die Funktion aus der ...

Microsoft Office
Excel VBA - PDF
Frage von SabineTMicrosoft Office3 Kommentare

Hallo Zusammen, ich habe ein pdf, über welches ich bereits die OCR Texterkennung laufen lassen habe. Jetzt möchte ich ...

Neue Wissensbeiträge
Voice over IP

Telekom Umstellung von ISDN Anlagenanschluss auf IP-Telefonie

Erfahrungsbericht von NixVerstehen vor 2 TagenVoice over IP6 Kommentare

Hallo zusammen, nachdem nun vor ein paar Tagen die zwangsweise Umstellung von ISDN auf IP-Telefonie problemlos über die Bühne ...

Apple

Apple Special Event vom 10.09.2019: Arcade, TV+, iPad und iPadOS, Watch und iPhone 11

Information von Trontur vor 3 TagenApple2 Kommentare

Hier könnt ihr euch die Keynote von Tim Cook auf dem Apple Special Event vom 10.09.2019 anschauen: September Event ...

LAN, WAN, Wireless

Das RIPE ist quasi endgültig leer was IPv4 angeht

Information von LordGurke vor 11 TagenLAN, WAN, Wireless8 Kommentare

Das RIPE teilt mit, dass sie erwarten, Ende des Jahres keine /22-IPv4-Allocations (1.024 Adressen) mehr vergeben zu können. Dann ...

Verschlüsselung & Zertifikate

Ein besserer Weg zur Delegation of Control für Bitlocker Recoverykeys

Anleitung von DerWoWusste vor 11 TagenVerschlüsselung & Zertifikate

Will man Supportmitarbeitern ermöglichen, Bitlocker-Recoverykeys auszulesen, dann bietet sich eigentlich der Delegation of Control Wizard an. Ich zeige zunächst ...

Heiß diskutierte Inhalte
Exchange Server
Exchange 2013 nach Umzug nicht erreichbar
gelöst Frage von dbox3Exchange Server17 Kommentare

Hallo, die Lösung für mein Problem mag einfach sein. Nur stehe ich irgendwie auf dem Schlauch. ich habe einen ...

Hyper-V
Umzug Hyper-V mit VM in anderen Netzwerkabschnitt
gelöst Frage von keine-ahnungHyper-V9 Kommentare

Moin at all, ich habe leider den Freitag verpennt - daher meine obligate Freitagsfrage erst jetzt Ich habe einen ...

Windows 10
Windows 10 ( upgrade per media creator von win7 ) hat keine Systemwiederherstellung
gelöst Frage von knirschkeWindows 108 Kommentare

Hallo ! Habe letztlich mein Win7 auf Win10 aufgepeppt per Media Creator. Ging - obzwar recht spät - ganz ...

Windows Server
Drucker auf dem Terminalserver 2016 via Printserver wird nicht angezeigt
Frage von EchterHansenWindows Server7 Kommentare

Moin Moin, ich habe hier zwei 2016er Terminalserver und einen 2016er Printserver, auf dem ca. 10 RICOH-Drucker Typ 4. ...