stefankittel
Goto Top

Html, css und js nach Links durchsuchen

Hallo,

nachdem ich recht frustriert festgestellt haben dass httrack nicht nutzbar ist (Bug im Proxy) suche ich aktuell nach einer Software/Library unter Linux welche in HTML, CSS und JS-Dateien nach weiterführenden Links sucht.

HTML ist recht einfach.
JS und CSS weniger, besonders wenn die URLs teilweise maskiert sind.
Und HTML enthält manchmal auch inline HTML und JS.

Jemand Vorschläge oder gar Erfahrungen?

Danke

Stefan

anbei mal ein negatives Beispiel aus einer CSS-Datei:

background: url ..\/images\/tile.jpg;

Content-ID: 565856

Url: https://administrator.de/contentid/565856

Ausgedruckt am: 21.11.2024 um 22:11 Uhr

godlie
godlie 18.04.2020 um 14:30:57 Uhr
Goto Top
Hallo,
Regex ist dein freund face-smile
Alchimedes
Alchimedes 18.04.2020 um 15:37:42 Uhr
Goto Top
Hallo Stefan,

schau Dir mal scrapy an.
Da kannst Du auch Deine eigene crawler configs schreiben, basiert auf python.
Kann html, css, js etc.

Vielleicht hilft Dir das weiter.

Gruss
StefanKittel
StefanKittel 18.04.2020 um 21:17:58 Uhr
Goto Top
Zitat von @godlie:
Regex ist dein freund face-smile
1. Regex ist definitiv nicht mein Freund und ich habe es echt versucht face-smile
2. Ein kurzer Blick zeigt mir dass der Aufwand mit Regex recht groß ist. Es gibt bestimmt 20-30 offizielle Syntaxe wo URLs verwendet werden und für jeden bestimmt noch 10 Varianten oder fehlerhafte aber verbreitete Schreibweisen.