Webcrawler für Portal realisieren
Moin Entwickler,
ich bin gerade dabei mit einem Kollegen eine Projektidee für ein Portal auszuarbeiten und zu planen.
Grob wird es ein Portal sein, dass verschiedene Infos von unterschiedlichen Seiten in einem Szenario darstellt. Im Prinzip genau wie die Vergleichs oder Urlaubsportale.
Jetzt weiss ich über die Technik bisher nur, dass man mit Webcrawlern arbeitet und habe natürlich auch schon einige Namen gelesen, aber nicht wie man das konrket technisch umsetzen kann, wie es genau funktioniert usw.
Welche Erfahrungen habt Ihr in dem Bereich, könnt Ihr mir bestimmte Crawler empfehlen, mit denen Ihr schon gearbeitet habt, die gut funktionieren?
Freue mich über Euer Feedback.
Gruss,
ich bin gerade dabei mit einem Kollegen eine Projektidee für ein Portal auszuarbeiten und zu planen.
Grob wird es ein Portal sein, dass verschiedene Infos von unterschiedlichen Seiten in einem Szenario darstellt. Im Prinzip genau wie die Vergleichs oder Urlaubsportale.
Jetzt weiss ich über die Technik bisher nur, dass man mit Webcrawlern arbeitet und habe natürlich auch schon einige Namen gelesen, aber nicht wie man das konrket technisch umsetzen kann, wie es genau funktioniert usw.
Welche Erfahrungen habt Ihr in dem Bereich, könnt Ihr mir bestimmte Crawler empfehlen, mit denen Ihr schon gearbeitet habt, die gut funktionieren?
Freue mich über Euer Feedback.
Gruss,
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 313155
Url: https://administrator.de/contentid/313155
Ausgedruckt am: 13.11.2024 um 01:11 Uhr
1 Kommentar
Hallo,
Webcrawler sind ja nichts weiter als Software welche Websiten aufruft.
Also z.B. ein PHP-Skript welches sich URLs aus einer Datenbank holt und mit CURL die Seiten abfragt.
Das ist in 10 Minuten programmiert.
Vermutlich gibt es auch verschiedene halb fertige Frameworks.
Google wird Dir wohl nicht seinen Crawler zur Verfügung stellen.
Allerdings musst Du auch damit rechnen, dass einige Seiten nicht möchten, dass Jemand Inhalt abzieht und sich "wehren".
Andere Seiten werden Ihre Inhalt sogar über eine API viele einfacher zu Verfügung stellen.
Viele Grüße
Stefan
Webcrawler sind ja nichts weiter als Software welche Websiten aufruft.
Also z.B. ein PHP-Skript welches sich URLs aus einer Datenbank holt und mit CURL die Seiten abfragt.
Das ist in 10 Minuten programmiert.
Vermutlich gibt es auch verschiedene halb fertige Frameworks.
Google wird Dir wohl nicht seinen Crawler zur Verfügung stellen.
Allerdings musst Du auch damit rechnen, dass einige Seiten nicht möchten, dass Jemand Inhalt abzieht und sich "wehren".
Andere Seiten werden Ihre Inhalt sogar über eine API viele einfacher zu Verfügung stellen.
Viele Grüße
Stefan