PDF oder TXT-Datei auslesen
N'Abend allerseits,
ich habe hier aus eine aus einer PDF generierte TXT-Datei mit knapp 3800 Zeilen, hier ein Ausschnitt:
Nun möchte ich mittels PowerShell genau die dort enthaltenen URL in eine neue TXT-Datei kopieren mit diesem Ziel:
Also alles zwischen 'https.....txt', aber genau damit tue ich mich schwer.
Ggfls wäre auch gleich das Auslesen der PDF und die Generierung der TXT-Datei
Hat da einer 'ne Idee?
Thanks BM
ich habe hier aus eine aus einer PDF generierte TXT-Datei mit knapp 3800 Zeilen, hier ein Ausschnitt:
.....
74 <link itemprop="associatedMedia" href="https://firma.net/store/Pumpe_2013-05-10/2013-05-10%20Akasaka%20Blitz%2C%20Tokyo%2C%20Japan/07.%20The%20Hall%20Of%20Mirrors.txt">
75 </div>
76 <meta itemprop="duration" content="PT0M212135S">
77 <link itemprop="associatedMedia" href="https://firma.net/store/Pumpe_2013-05-10/2013-05-10%20Akasaka%20Blitz%2C%20Tokyo%2C%20Japan/08.%20Showroom%20Dummies.txt">
78 </div>
79 <meta itemprop="duration" content="PT0M70067S">
.....
Nun möchte ich mittels PowerShell genau die dort enthaltenen URL in eine neue TXT-Datei kopieren mit diesem Ziel:
https://firma.net/store/Pumpe_2013-05-10/2013-05-10%20Akasaka%20Blitz%2C%20Tokyo%2C%20Japan/07.%20The%20Hall%20Of%20Mirrors.txt
https://firma.net/store/Pumpe_2013-05-10/2013-05-10%20Akasaka%20Blitz%2C%20Tokyo%2C%20Japan/08.%20Showroom%20Dummies.txt
Also alles zwischen 'https.....txt', aber genau damit tue ich mich schwer.
Ggfls wäre auch gleich das Auslesen der PDF und die Generierung der TXT-Datei
Hat da einer 'ne Idee?
Thanks BM
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 670157
Url: https://administrator.de/contentid/670157
Ausgedruckt am: 16.12.2024 um 09:12 Uhr
3 Kommentare
Neuester Kommentar
Hi
Aber wieso hast du HTML Code in einem PDF?? Das lässt sich doch direkt auslesen ohne den Umweg eines PDFs.
Hier gibt's noch mehr Info zum direkt auslesen von PDFs
Pdf in Excel Bestellnummern auslesen
Den Regex einfach damit kombinieren und du bist im Spiel.
Gruß gastric
[regex]::matches((Get-Content "c:\datei.txt" -raw),'(?is)https?://[^"]+').Value | set-content -Path datei_neu.txt
Hier gibt's noch mehr Info zum direkt auslesen von PDFs
Pdf in Excel Bestellnummern auslesen
Den Regex einfach damit kombinieren und du bist im Spiel.
Gruß gastric
Hallo,
https://stackoverflow.com/questions/35110530/extracting-html-links-with- ...
Ähnlich wie bei JSON, XML kann man auch die Elemente auslesen.
https://stackoverflow.com/questions/35110530/extracting-html-links-with- ...
$HTML.ParsedHtml.getElementsByTagName('div') |
Where-Object { $_.className -eq 'detail' } |
ForEach-Object { $_.getElementsByTagName('a') } |
Where-Object { $_.className -eq 'product-url' } |
Select-Object -Expand href
Ähnlich wie bei JSON, XML kann man auch die Elemente auslesen.