Abhängigkeiten in einer HTML-Datei finden
Hallo,
ich arbeite gerade an einem Projekt in PHP (7.0) um webseiten statisch abzulegen.
Um alle Folgeseiten und Abhängigkeiten (css, bilder, js, etc) zu finden nutze ich DOMDocument, getElementsByTagName und getAttribute.
Das klappt bei 99% der Dateien sehr gut.
Aber es gibt ein paar wo ich noch keine richtig gute Idee habe.
Es soll so unabhändig wie möglich sein. Ich möchte also ungern feste Pfade zum suchen hinzufügen.
Beispiel
<div class="et_pb_slide et_pb_bg_layout_dark et_pb_media_alignment_center et_pb_slide_1" style='background-color:#ffffff;background-image:url(/wp-content/uploads/2016/07/bild1.jpg);'>
Es ist ein Sub-Attribut und ohne vollständige URL.
Jemand eine Idee dafür?
Danke
Stefan
ich arbeite gerade an einem Projekt in PHP (7.0) um webseiten statisch abzulegen.
Um alle Folgeseiten und Abhängigkeiten (css, bilder, js, etc) zu finden nutze ich DOMDocument, getElementsByTagName und getAttribute.
Das klappt bei 99% der Dateien sehr gut.
Aber es gibt ein paar wo ich noch keine richtig gute Idee habe.
Es soll so unabhändig wie möglich sein. Ich möchte also ungern feste Pfade zum suchen hinzufügen.
Beispiel
<div class="et_pb_slide et_pb_bg_layout_dark et_pb_media_alignment_center et_pb_slide_1" style='background-color:#ffffff;background-image:url(/wp-content/uploads/2016/07/bild1.jpg);'>
Es ist ein Sub-Attribut und ohne vollständige URL.
Jemand eine Idee dafür?
Danke
Stefan
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 353719
Url: https://administrator.de/forum/abhaengigkeiten-in-einer-html-datei-finden-353719.html
Ausgedruckt am: 08.04.2025 um 18:04 Uhr
8 Kommentare
Neuester Kommentar

Lass doch einfach ein Regex über die Seiten laufen.
Btw.
https://www.heise.de/download/product/xenus-link-sleuth-5981
Btw.
https://www.heise.de/download/product/xenus-link-sleuth-5981

Zitat von @StefanKittel:
Moin,
ja, dachte ich auch.
Aber das Beispiel oben enthält weder den Domänennamen noch http(s).
Ich müßte nach "url(" suchen. Und davon kann in Styles und anderen Elemente ja hunderte Varianten geben.
Ich möchte ungern jede Variante hard coden.
Musst du ja auch nicht, die Pfadbestandteile (Relativ/Absolut/mit oder ohne Protokoll Prefix) als Muster reichen ja.Moin,
ja, dachte ich auch.
Aber das Beispiel oben enthält weder den Domänennamen noch http(s).
Ich müßte nach "url(" suchen. Und davon kann in Styles und anderen Elemente ja hunderte Varianten geben.
Ich möchte ungern jede Variante hard coden.

Für jedes CMS gibt es da eigene Muster. Ich hätte gerne etwas universelles.
Ja nee, du weißt aber schon was Regex alles kann?? Einen universellen Regex kann man sich bauen, egal wie er aussieht welche Parameter verwendet werden usw., da spielt das CMS keine Rolle.Es muss halt beachtet werden das rekursiv gearbeitet werden muss CSS und js können ja weitere Links enthalten.
Oder einfach Browsertools (F12) öffnen auf den Netzwerk-Tab gehen Seite laden und geladenen Elemente per Kontextmenü als JSON-Daten exportieren

Zitat von @StefanKittel:
Und wo ist hier das Muster?
<div class="et_pb_slide et_pb_bg_layout_dark et_pb_media_alignment_center et_pb_slide_1" style='background-color:#ffffff;background-image:url(/wp-content/uploads/2016/07/bild1.jpg);'>
Ich kann weder "background-image" verwenden, da es hunderte Tags gibt noch "/wp-content/uploads/2016/07/bild1.jpg" da es ja nun gerade nicht Wordpress-Spezifisch sein darf noch ".jpg" da es vieleicht auch Dateien mit gif, bmp oder pcx gibt.
Der Pfad selber ist das Muster, natürlich nicht die Pfadangaben sondern der Aufbau selbst, Extensions sind egal deswegen gibts ja Regex Und wo ist hier das Muster?
<div class="et_pb_slide et_pb_bg_layout_dark et_pb_media_alignment_center et_pb_slide_1" style='background-color:#ffffff;background-image:url(/wp-content/uploads/2016/07/bild1.jpg);'>
Ich kann weder "background-image" verwenden, da es hunderte Tags gibt noch "/wp-content/uploads/2016/07/bild1.jpg" da es ja nun gerade nicht Wordpress-Spezifisch sein darf noch ".jpg" da es vieleicht auch Dateien mit gif, bmp oder pcx gibt.
https://mathiasbynens.be/demo/url-regex
Guten Morgen!
Kann sein, dass ich noch etwas Kaffee benötige und noch nicht ganz wach bin um das Problem richtig zu verstehen, aber:
Was spricht gegen die Verwendung und die Anpassung von meta - base?
Gruß
eisbein
Kann sein, dass ich noch etwas Kaffee benötige und noch nicht ganz wach bin um das Problem richtig zu verstehen, aber:
Was spricht gegen die Verwendung und die Anpassung von meta - base?
Gruß
eisbein