12.10.2016

1634

URL und Username aus HTML-Datei extrahieren - sed, grep

Hallo liebe Administratoren,

ich bräuchte mal Eure Hilfe...

Aktuell bin ich dabei ein recht umfangreiches Script zu schreiben, jedoch scheitere ich an einem bestimmten Punkt... Ich habe eine HTML-Datei mit mehreren Zeilen, in jeder Zeile befindet sich ein Benutzername und eine URL, die zusammengehören:

<p>username1<a href="https://example.link/1"</a>  
<p>username2<a href="https://example.link/2"</a>  
<p>username3<a href="https://example.link/3"</a>  
<p>username4<a href="https://example.link/4"</a>  

Ich würde diese Datei gerne mit Hilfe von sed oder grep folgendermaßen aussehen lassen:

USERNAME1 - URL1
USERNAME2 - URL2
USERNAME3 - URL3
USERNAME4 - URL4

Habt ihr Vorschläge, wie ich das realisieren kann?

Mit freundlichen Grüßen

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 317594

Url: https://administrator.de/forum/url-und-username-aus-html-datei-extrahieren-sed-grep-317594.html

Ausgedruckt am: 12.07.2025 um 22:07 Uhr

4 Kommentare

Neuester Kommentar

Hallo,
dazu brauchen wir mehr Kontext aus der HTML-Datei oder wie die Usernamen aufgebaut sind, denn <p> Abschnitte wird es sicherlich mehrere geben vermutlich auch in anderem Kontext, oder hat der Link ein bestimmtes teilweise gleich bleibendes Muster?

Ohne mehr von der HTML-Datei zu kennen und wenn der erste Teil der URL gleich bleibt, z.B. so

sed -nre 's/.*<p>(.*?)<a href="(https:\/\/example\.link\/.*)"<.*/\1 - \2/p' datei.html  

Gruß R.

Ich habe die HTML-Datei schon so weit beschnitten, dass nur noch die Zeilen mit entsprechenden Usernamen angegeben werden und diese sehen alle, wie in meinem Beispiel aus:

<p>username1<a href="https://example.link/1"</a>   
<p>username2<a href="https://example.link/2"</a>   
<p>username3<a href="https://example.link/3"</a>   
<p>username4<a href="https://example.link/4"</a>  

Die Usernamen bestehen aus dem ersten Buchstaben des Vornames gefolgt von einem Punkt und dem Nachnamen: v.nachname

Na dann reicht:

 sed -nre 's/<p>(.*?)<a href="(.*)".*/\1 - \2/p' datei.html

Vielen Dank!

Du hast mir sehr geholfen!

gelöstFrage Linux

Mehr von plutowitsch

E-Mail Adressen zählenplutowitsch - 2 Kommentare

Umlaute zählen - Bash-Scriptplutowitsch - 5 Kommentare

Bash - String zwischen zwei Kommata ausgebenplutowitsch - 3 Kommentare

Dateiname in Textdatei via Batchplutowitsch - 4 Kommentare

Heiß diskutiert

(Neues) Backup Programm gesuchtMichl16 - 41 Kommentare

IPv6 an Client hinter SophosNer.Co - 41 Kommentare

Windows Server 2025 VM startet nicht nach Patchday CU202507nachgefragt - 38 Kommentare

M365 Family Abo (Prime Day)JeekJeek - 29 Kommentare

Mainboard Suche für Veeam-Mini-Serverkreuzberger - 27 Kommentare

Der neue Servertian1974 - 27 Kommentare

VPN (DNS?) ProblemSeekuhritty - 24 Kommentare

Erfahrungsbericht: pfSense Upgrade auf 2.8Looser27 - 21 Kommentare

Exchange 2013 On-Premise Hybrid mit M365semihtest - 20 Kommentare