URL und Username aus HTML-Datei extrahieren - sed, grep
Hallo liebe Administratoren,
ich bräuchte mal Eure Hilfe...
Aktuell bin ich dabei ein recht umfangreiches Script zu schreiben, jedoch scheitere ich an einem bestimmten Punkt... Ich habe eine HTML-Datei mit mehreren Zeilen, in jeder Zeile befindet sich ein Benutzername und eine URL, die zusammengehören:
Ich würde diese Datei gerne mit Hilfe von sed oder grep folgendermaßen aussehen lassen:
Habt ihr Vorschläge, wie ich das realisieren kann?
Mit freundlichen Grüßen
ich bräuchte mal Eure Hilfe...
Aktuell bin ich dabei ein recht umfangreiches Script zu schreiben, jedoch scheitere ich an einem bestimmten Punkt... Ich habe eine HTML-Datei mit mehreren Zeilen, in jeder Zeile befindet sich ein Benutzername und eine URL, die zusammengehören:
<p>username1<a href="https://example.link/1"</a>
<p>username2<a href="https://example.link/2"</a>
<p>username3<a href="https://example.link/3"</a>
<p>username4<a href="https://example.link/4"</a>
Ich würde diese Datei gerne mit Hilfe von sed oder grep folgendermaßen aussehen lassen:
USERNAME1 - URL1
USERNAME2 - URL2
USERNAME3 - URL3
USERNAME4 - URL4
Habt ihr Vorschläge, wie ich das realisieren kann?
Mit freundlichen Grüßen
Please also mark the comments that contributed to the solution of the article
Content-Key: 317594
Url: https://administrator.de/contentid/317594
Printed on: April 19, 2024 at 15:04 o'clock
4 Comments
Latest comment
Hallo,
dazu brauchen wir mehr Kontext aus der HTML-Datei oder wie die Usernamen aufgebaut sind, denn <p> Abschnitte wird es sicherlich mehrere geben vermutlich auch in anderem Kontext, oder hat der Link ein bestimmtes teilweise gleich bleibendes Muster?
Ohne mehr von der HTML-Datei zu kennen und wenn der erste Teil der URL gleich bleibt, z.B. so
Gruß R.
dazu brauchen wir mehr Kontext aus der HTML-Datei oder wie die Usernamen aufgebaut sind, denn <p> Abschnitte wird es sicherlich mehrere geben vermutlich auch in anderem Kontext, oder hat der Link ein bestimmtes teilweise gleich bleibendes Muster?
Ohne mehr von der HTML-Datei zu kennen und wenn der erste Teil der URL gleich bleibt, z.B. so
sed -nre 's/.*<p>(.*?)<a href="(https:\/\/example\.link\/.*)"<.*/\1 - \2/p' datei.html
Na dann reicht:
sed -nre 's/<p>(.*?)<a href="(.*)".*/\1 - \2/p' datei.html