Batchbefehl für HTML-Link Extraktion

Hallo, ich bin leider neu hier und weiß nicht ob ich hier die "richtigen" Ansprechpartner finde, also werfe ich die Frage einfach mal in den Raum.
Ich versuche momentan eine HTML Datei nach einer bestimmten Top Domain zu durchsuchen und alle gefundenen, gesamten Links in eine Text Datei ausgeben zu lassen.
Also zum bsp. in der durchsuchten Datei liegen die Links google.de/ksjdflkgfj und google.de/xxxxxx vor und der Befehl soll nun nach google.de/ suchen und den gesamten Link ausgeben, also google.de/xxxxxx.
Geht so etwas mit Batch befehlen?
Und wenn ja wie? :D
LG

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 486183

Url: https://administrator.de/forum/batchbefehl-fuer-html-link-extraktion-486183.html

Ausgedruckt am: 08.07.2025 um 16:07 Uhr

3 Kommentare

Neuester Kommentar

N Büschen Regex und feddich ...

@echo off
set "quelldatei=d:\datei.html"  
set "zieldatei=d:\links.txt"  
Powershell -Executionpolicy ByPass -NoP -C "[regex]::matches((gc '%quelldatei%' -raw),'(?is)(https?|ftps?)://(-\.)?([^\s/?\.#-]+\.?)+(/[^\s]*)?').Value | ?{$_ -like 'https://google.de/*' } | sc '%zieldatei%'"  

Ja das klappt schon sehr gut, vielen Dank. Aber gibt es auch einen Weg nur die Links mit der Top Domain zu kopieren? Bzw. zu filtern, sodass die restlichen Links nicht kopiert werden?

Was bitte soll eine "Top" Domain sein?? Es gibt nur "Top-Level" Domains, also bitte benutze doch die korrekten Begriffe.
Und sicher du kannst nach allem filtern wir du lustig bist.

Nachtrag:
Hab dir das Beispiel oben ergänzt.

gelöstFrage Batch, Shell Entwicklung

Heiß diskutiert