Html, css und js nach Links durchsuchen

Hallo,

nachdem ich recht frustriert festgestellt haben dass httrack nicht nutzbar ist (Bug im Proxy) suche ich aktuell nach einer Software/Library unter Linux welche in HTML, CSS und JS-Dateien nach weiterführenden Links sucht.

HTML ist recht einfach.
JS und CSS weniger, besonders wenn die URLs teilweise maskiert sind.
Und HTML enthält manchmal auch inline HTML und JS.

Jemand Vorschläge oder gar Erfahrungen?

Danke

Stefan

anbei mal ein negatives Beispiel aus einer CSS-Datei:

background: url ..\/images\/tile.jpg;

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 565856

Url: https://administrator.de/forum/html-css-und-js-nach-links-durchsuchen-565856.html

Ausgedruckt am: 18.07.2025 um 05:07 Uhr

3 Kommentare

Neuester Kommentar

Hallo,
Regex ist dein freund

Hallo Stefan,

schau Dir mal scrapy an.
Da kannst Du auch Deine eigene crawler configs schreiben, basiert auf python.
Kann html, css, js etc.

Vielleicht hilft Dir das weiter.

Gruss

Zitat von @godlie:
Regex ist dein freund

1. Regex ist definitiv nicht mein Freund und ich habe es echt versucht

2. Ein kurzer Blick zeigt mir dass der Aufwand mit Regex recht groß ist. Es gibt bestimmt 20-30 offizielle Syntaxe wo URLs verwendet werden und für jeden bestimmt noch 10 Varianten oder fehlerhafte aber verbreitete Schreibweisen.

Frage CSS Entwicklung

Mehr von StefanKittel

Hat jemand Erfahrungswerte mit dem Hermes Secure Email Gateway?StefanKittel - 6 Kommentare

Wie stellt sich Microsoft das mit dem Store bei Business PCs vor?StefanKittel - 10 Kommentare

Microsoft macht mich wahnsinnig - PartnerportalStefanKittel - 12 Kommentare

Zuverlässigkeit von Synchronisierungstools wie Nextcloud in Kombination mit UsernStefanKittel - 5 Kommentare

Heiß diskutiert