subnet44

Batchbefehl für HTML-Link Extraktion

Hallo, ich bin leider neu hier und weiß nicht ob ich hier die "richtigen" Ansprechpartner finde, also werfe ich die Frage einfach mal in den Raum.
Ich versuche momentan eine HTML Datei nach einer bestimmten Top Domain zu durchsuchen und alle gefundenen, gesamten Links in eine Text Datei ausgeben zu lassen.
Also zum bsp. in der durchsuchten Datei liegen die Links google.de/ksjdflkgfj und google.de/xxxxxx vor und der Befehl soll nun nach google.de/ suchen und den gesamten Link ausgeben, also google.de/xxxxxx.
Geht so etwas mit Batch befehlen?
Und wenn ja wie? :D
LG
Auf Facebook teilen
Auf X (Twitter) teilen
Auf Reddit teilen
Auf Linkedin teilen

Content-ID: 486183

Url: https://administrator.de/forum/batchbefehl-fuer-html-link-extraktion-486183.html

Ausgedruckt am: 08.07.2025 um 16:07 Uhr

140777
Lösung 140777 17.08.2019 aktualisiert um 15:36:45 Uhr
N Büschen Regex und feddich ...
@echo off
set "quelldatei=d:\datei.html"  
set "zieldatei=d:\links.txt"  
Powershell -Executionpolicy ByPass -NoP -C "[regex]::matches((gc '%quelldatei%' -raw),'(?is)(https?|ftps?)://(-\.)?([^\s/?\.#-]+\.?)+(/[^\s]*)?').Value | ?{$_ -like 'https://google.de/*' } | sc '%zieldatei%'"  
subnet44
subnet44 17.08.2019 um 15:14:04 Uhr
Ja das klappt schon sehr gut, vielen Dank. Aber gibt es auch einen Weg nur die Links mit der Top Domain zu kopieren? Bzw. zu filtern, sodass die restlichen Links nicht kopiert werden?
140777
140777 17.08.2019 aktualisiert um 18:35:10 Uhr
Was bitte soll eine "Top" Domain sein?? Es gibt nur "Top-Level" Domains, also bitte benutze doch die korrekten Begriffe.
Und sicher du kannst nach allem filtern wir du lustig bist.

Nachtrag:
Hab dir das Beispiel oben ergänzt.