Sites abfragen, Code erhalten
Hallo TEAM
ich hoffe ihr könnt ein wenig weiterhelfen...
Benutze verschiedene Browser, hauptsächlich FF und Opera
Meine Site enthlät 25 Links mit Verweisen zu weiteren Sites
http://www.blah-blupp.de/site1.php?refcode=21
http://www.blah-blupp.de/site1.php?refcode=22
http://www.blah-blupp.de/site1.php?refcode=23
in den nun geklickten 25 Sites ist je ein weiterer Link zum Klicken
http://www.blah-blupp.de/mega/site1.php?refcode=212121
http://www.blah-blupp.de/mega/site1.php?refcode=222222
http://www.blah-blupp.de/mega/site1.php?refcode=232323
...
also in allen Seiten ähnlich.
Diese Links möchte ich alle zusammenführen als Text in einer Datei.
Nun meine Frage.
Kann der FF oder Opera in die Lage versetzt werden, diese in den wohlgemerkt -nicht- geklickten Sites aufgeführten Links
zu "sourcen" und per Script in eine Datei dumpen ?, möglicherweise mit einem ADDON oder einem Userscript
Danke für Eure Hilfe.
Gruß rsadmchef
ich hoffe ihr könnt ein wenig weiterhelfen...
Benutze verschiedene Browser, hauptsächlich FF und Opera
Meine Site enthlät 25 Links mit Verweisen zu weiteren Sites
http://www.blah-blupp.de/site1.php?refcode=21
http://www.blah-blupp.de/site1.php?refcode=22
http://www.blah-blupp.de/site1.php?refcode=23
in den nun geklickten 25 Sites ist je ein weiterer Link zum Klicken
http://www.blah-blupp.de/mega/site1.php?refcode=212121
http://www.blah-blupp.de/mega/site1.php?refcode=222222
http://www.blah-blupp.de/mega/site1.php?refcode=232323
...
also in allen Seiten ähnlich.
Diese Links möchte ich alle zusammenführen als Text in einer Datei.
Nun meine Frage.
Kann der FF oder Opera in die Lage versetzt werden, diese in den wohlgemerkt -nicht- geklickten Sites aufgeführten Links
zu "sourcen" und per Script in eine Datei dumpen ?, möglicherweise mit einem ADDON oder einem Userscript
Danke für Eure Hilfe.
Gruß rsadmchef
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 226556
Url: https://administrator.de/contentid/226556
Ausgedruckt am: 25.11.2024 um 06:11 Uhr
10 Kommentare
Neuester Kommentar
Hallo @rsadmchef,
schonmal was von
Die können genau das, was du brauchst!
Da gäbe es zum beispiel scrapy.
Gruß,
@Snowman25
schonmal was von
webspiders
bzw. scrapern
gehört?Die können genau das, was du brauchst!
Da gäbe es zum beispiel scrapy.
Gruß,
@Snowman25
Zitat von @rsadmchef:
ja bitte.
ich versuchs dann in bash-scripting zu übersetzen,
weil mein bs auf meinem rentner-lappi ein lubuntu 10.04 ist.
bin noch unterwegs, bis dahin kannst du dir diesen Beitrag mal anschauen, da habe ich etwas ähnliches bereits präsentiert:ja bitte.
ich versuchs dann in bash-scripting zu übersetzen,
weil mein bs auf meinem rentner-lappi ein lubuntu 10.04 ist.
Aktuelle Java JRE 32 und 64 Bit exe Download Script
Grüße Uwe
also wenn die ersten 25 Links alle auf einer Seite sind könntest du folgendes Shell-Script als Muster hernehmen um aus den Seiten dieser Links die anderen Links zu extrahieren:
Da ist jetzt für eine Ebene, oder willst du die Links auf der Unterseite ebenfalls weiterverfolgen ? also rekursiv alle Links ?
Dies könntest du auch mit wget machen. Erst alle Links der Site extrahieren und diese dann an grep pipen und die gewünschten Links extrahieren.
Grüße Uwe
#!/bin/bash
_STARTSEITE='http://www.blah-blupp.de/site1.php'
_LINKS=$(curl -s $_STARTSEITE | grep -Eo 'http://www\.blah-blupp\.de/site1\.php?refcode=[0-9]+')
_ALLLINKS="$_LINKS\n"
for link in "$_LINKS";do
_CONTENT=$(curl -s $link)
_SUBLINKS=$(echo "$_CONTENT" | grep -Eo 'http://www\.blah-blupp\.de/mega/site1\.php?refcode=[0-9]+')
_ALLLINKS+="$_SUBLINKS\n"
done
echo -e "$_ALLLINKS" >extracted_links.txt
Dies könntest du auch mit wget machen. Erst alle Links der Site extrahieren und diese dann an grep pipen und die gewünschten Links extrahieren.
Grüße Uwe