Besserer 404 Scanner Bash oder Online mit API

Hallo,

in einem Spezialprojekt werden regelmäßig statische Webseiten generiert.
Hier kommt es hin und wieder vor, dass diese Seiten 404 erzeugen.

Weniger bei den normalen URLs, aber einige setzten Java-Scripte um Pfade dynamisch zu erzeugen.

Das es, wie immer, zu viele Seiten und zu wenige Personen sind, halten sich die Tests in Grenzen und meist fällt dies erst nach 1-2 Tagen auf, dass irgendwo was nicht geht.

Also würde ich dem Erstellungs-Skript gerne einen 404-Scanner nachfolgen lassen und den Wartungsmodus erst deaktivieren wenn der Scan OK ist.
So würde Niemand die defekte Seite sehen.

Ich habe es selber mit wget, wget2 und curl probiert, aber Fehler bei den JS-Skripten erkennen die auch nicht.

Die eigenen Logs auf 404-Fehler zu prüfen ist auch nicht optimal, weil dann ja schon Personen auf der Webseite sind.

Einige Online-Scanner können das, aber keiner bietet eine API an um dies auzuführen.

Ich bräuchte einen Browserbasierten Web-Crawler dem man eine Domain und Start-URL übergibt und eine Liste aller URLs mit 404-Fehler zurückerhält.

Kennt Jemand etwas fertiges was sich schnell ohne große eigenentwicklung umsetzen lässt?

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 2644416029

Url: https://administrator.de/forum/besserer-404-scanner-bash-oder-online-mit-api-2644416029.html

Ausgedruckt am: 15.07.2025 um 13:07 Uhr

6 Kommentare

Neuester Kommentar

Hallo Stefan,

wenn ich dich richtig verstanden habe, sollte das per Powershell und einer Quelldatei gehen, bspw CSV mit den URLs drin.

Per Powershell die Datei importieren und per Invoke-Webrequest untersuchen. Bekommt man ein HTTP 200 zurück, ist die Seite erreichbar. Den Rückgabewert kann man ja dann wieder in der CSV hinterlegen (egal ob gut oder schlecht).

Wäre das ungefähr das, was du suchst?

VG

Zitat von @Tezzla:
Wäre das ungefähr das, was du suchst?

Nein.
In der Datei steht z.B. skittel.de drin.
Nun soll er die ganze Webseite durchsuchen und prüfen ob auf allen Seiten alle Bilder, JS-, CSS- und sonstige Links gültig sind.

Und das gemeine ist, im JS steht so etwas
url = "https://www.skittel/" + "file1.css"

browser Können so etwas, aber keine Grabber oder Crawler.

Stefan

PS: Lauffähig Linux

Hallo,evtl wäre ein headless Browser mit einem Testframework der bessere Ansatz dafür.

blog.actorsfit.com/a?ID=00001-3e945caf-98b9-49cb-a892-c458508cd9 ...

Zitat von @godlie:
Hallo,evtl wäre ein headless Browser mit einem Testframework der bessere Ansatz dafür.
blog.actorsfit.com/a?ID=00001-3e945caf-98b9-49cb-a892-c458508cd9 ...

Das wollte ich gerade vermeiden "Kennt Jemand etwas fertiges was sich schnell ohne große eigenentwicklung umsetzen lässt?"

Moin,

vielleich hilft Dir Muffet: golangexample.com/muffet-a-website-link-checker-which-scrapes-an ... bzw. github.com/raviqqe/muffet

Ist allerdings in Go geschrieben und erfordert ein wenig zusätzliche Installation.

Gruß

cykes

Ich würde da mit nem jMeter-Test rangehen. Zumindest wenn da Links zum Verfolgen sind könnte das klappen - hängt auch natürlich davon ab wie diese Seiten generiert werden.

Frage Internet

Mehr von StefanKittel

Hat jemand Erfahrungswerte mit dem Hermes Secure Email Gateway?StefanKittel - 6 Kommentare

Wie stellt sich Microsoft das mit dem Store bei Business PCs vor?StefanKittel - 10 Kommentare

Microsoft macht mich wahnsinnig - PartnerportalStefanKittel - 12 Kommentare

Zuverlässigkeit von Synchronisierungstools wie Nextcloud in Kombination mit UsernStefanKittel - 5 Kommentare

Heiß diskutiert