subnet44
Goto Top

Batchbefehl für HTML-Link Extraktion

Hallo, ich bin leider neu hier und weiß nicht ob ich hier die "richtigen" Ansprechpartner finde, also werfe ich die Frage einfach mal in den Raum.
Ich versuche momentan eine HTML Datei nach einer bestimmten Top Domain zu durchsuchen und alle gefundenen, gesamten Links in eine Text Datei ausgeben zu lassen.
Also zum bsp. in der durchsuchten Datei liegen die Links https://google.de/ksjdflkgfj und https://google.de/xxxxxx vor und der Befehl soll nun nach https://google.de/ suchen und den gesamten Link ausgeben, also https://google.de/xxxxxx.
Geht so etwas mit Batch befehlen?
Und wenn ja wie? :D
LG

Content-Key: 486183

Url: https://administrator.de/contentid/486183

Printed on: April 23, 2024 at 21:04 o'clock

Mitglied: 140777
Solution 140777 Aug 17, 2019 updated at 13:36:45 (UTC)
Goto Top
N Büschen Regex und feddich ...
@echo off
set "quelldatei=d:\datei.html"  
set "zieldatei=d:\links.txt"  
Powershell -Executionpolicy ByPass -NoP -C "[regex]::matches((gc '%quelldatei%' -raw),'(?is)(https?|ftps?)://(-\.)?([^\s/?\.#-]+\.?)+(/[^\s]*)?').Value | ?{$_ -like 'https://google.de/*' } | sc '%zieldatei%'"  
Member: subnet44
subnet44 Aug 17, 2019 at 13:14:04 (UTC)
Goto Top
Ja das klappt schon sehr gut, vielen Dank. Aber gibt es auch einen Weg nur die Links mit der Top Domain zu kopieren? Bzw. zu filtern, sodass die restlichen Links nicht kopiert werden?
Mitglied: 140777
140777 Aug 17, 2019 updated at 16:35:10 (UTC)
Goto Top
Was bitte soll eine "Top" Domain sein?? Es gibt nur "Top-Level" Domains, also bitte benutze doch die korrekten Begriffe.
Und sicher du kannst nach allem filtern wir du lustig bist.

Nachtrag:
Hab dir das Beispiel oben ergänzt.