SCSI IDs während des Backups verloren
Hallo zusammen,
wir haben seit ein paar Tagen ein Problem, bei dem wir alle möglichen Optionen (Neustart der beteiligten Systeme (sofern möglich), Update der Treiber/Firmware, Neueinrichten des Backup-Proxy, Überprüfung der Verkabelung,...) schon durchgespielt haben, aber leider in keinster Art Besserung eingetreten ist. Manche Sachen konnten wir (z.B. wegen fehlenden Ersatzteilen) noch nicht prüfen (z.B. anderer HBA).
Kurz zu dem, was bei uns hier genutzt wird, bei Fragen kann ich hier gerne ergänzen:
Veeam B&R (aktuelle Version) auf einem Windows Server 2019, auf einem DELL EMC R740
Storage: HPE 3par
Übertragung via FC
Das Problem zeigt sich folgendermaßen:
Für unseren diversen VMs haben wir natürlich (verschiedene) Backup-Jobs eingerichtet. Seit ein paar Tagen gibt es innerhalb der Jobs bei unterschiedlichen VMs (hier ist auch kein Muster erkennbar) immer das Problem, dass während des Jobs die SCSI ID der betreffenden LUN einfach "rausfliegt" und so die LUN für das Backup nicht mehr gefunden wird. Auf dem ganzen Weg von Storage bis Backupserver scheint alles zu funktionieren und es sind auch immer unterschiedliche LUNs, die dann nicht mehr gefunden werden.
Das Studium der Logs hat gezeigt, dass das auf dem Storage für das Backup erstellte Virtual Volume erstellt wurde und bekannt ist (auf dem Storage kann ich das auch bestätigen), im weiteren Verlauf wird dann versucht das VV zu mounten, es gibt über mehrere Minuten Rescans des FC Bus um Disk Infos vom Proxy zu erhalten, aber das scheitert dann. Daraufhin wird der Backup-Job für diese VM abgebrochen und auch alle weiteren VMs, die auf der Storage-LUN sitzen, bekommen kein Backup. Im retry des Jobs kann es dann passieren, dass alles mögliche doch ganz normal funktioniert.
Hat hier jemand grundsätzlich noch eine Idee an welcher Stellschraube man drehen kann um hier doch ein Ergebnis zu bekommen? Ich weiß, die Infos sind nicht super ausführlich, hier kann ich gerne nachliefern, falls noch was gewünscht ist. Aktuell sind wir für jeden weiteren Gedankenanstupser dankbar
Viele Grüße und vielen Dank im Vorfeld!
Marco
wir haben seit ein paar Tagen ein Problem, bei dem wir alle möglichen Optionen (Neustart der beteiligten Systeme (sofern möglich), Update der Treiber/Firmware, Neueinrichten des Backup-Proxy, Überprüfung der Verkabelung,...) schon durchgespielt haben, aber leider in keinster Art Besserung eingetreten ist. Manche Sachen konnten wir (z.B. wegen fehlenden Ersatzteilen) noch nicht prüfen (z.B. anderer HBA).
Kurz zu dem, was bei uns hier genutzt wird, bei Fragen kann ich hier gerne ergänzen:
Veeam B&R (aktuelle Version) auf einem Windows Server 2019, auf einem DELL EMC R740
Storage: HPE 3par
Übertragung via FC
Das Problem zeigt sich folgendermaßen:
Für unseren diversen VMs haben wir natürlich (verschiedene) Backup-Jobs eingerichtet. Seit ein paar Tagen gibt es innerhalb der Jobs bei unterschiedlichen VMs (hier ist auch kein Muster erkennbar) immer das Problem, dass während des Jobs die SCSI ID der betreffenden LUN einfach "rausfliegt" und so die LUN für das Backup nicht mehr gefunden wird. Auf dem ganzen Weg von Storage bis Backupserver scheint alles zu funktionieren und es sind auch immer unterschiedliche LUNs, die dann nicht mehr gefunden werden.
Das Studium der Logs hat gezeigt, dass das auf dem Storage für das Backup erstellte Virtual Volume erstellt wurde und bekannt ist (auf dem Storage kann ich das auch bestätigen), im weiteren Verlauf wird dann versucht das VV zu mounten, es gibt über mehrere Minuten Rescans des FC Bus um Disk Infos vom Proxy zu erhalten, aber das scheitert dann. Daraufhin wird der Backup-Job für diese VM abgebrochen und auch alle weiteren VMs, die auf der Storage-LUN sitzen, bekommen kein Backup. Im retry des Jobs kann es dann passieren, dass alles mögliche doch ganz normal funktioniert.
Hat hier jemand grundsätzlich noch eine Idee an welcher Stellschraube man drehen kann um hier doch ein Ergebnis zu bekommen? Ich weiß, die Infos sind nicht super ausführlich, hier kann ich gerne nachliefern, falls noch was gewünscht ist. Aktuell sind wir für jeden weiteren Gedankenanstupser dankbar
Viele Grüße und vielen Dank im Vorfeld!
Marco
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 32204745087
Url: https://administrator.de/contentid/32204745087
Ausgedruckt am: 22.11.2024 um 03:11 Uhr
12 Kommentare
Neuester Kommentar
Das kann auch ganz banale Ursachen haben wie z.B. Vmware Tools update verursachten snapshot auf allen vms vergessen zu löschen..
Ich vermute es geht um ein Storage mit Spindeln und das hat schon immer getaugt aber die Maschinen werden immer mehr und irgendwann packt das ding nicht mehr io's. Der Hersteller gestaltet seine Graphen auf dem Storage natürlich meist so als das man nichts sieht oder es zumindest so aussieht als hätte das Storage noch kapa übrig - pustekuchen.
Das einzige was dich tatsächlich weiterbringt ist ein neues Storage einzubinden alles umzuziehen und das alte einmal initial platt machen, dannach sukzessive zurück gehen. Dann wirst du schon merken an was es liegt. An den HBA glaube ich nicht, eher an einen Stromausfall mit defekten sektoren von denen der HBA/RaidController nix mitbekommen hat, das hatte ich auch schon öfter.
Ich vermute es geht um ein Storage mit Spindeln und das hat schon immer getaugt aber die Maschinen werden immer mehr und irgendwann packt das ding nicht mehr io's. Der Hersteller gestaltet seine Graphen auf dem Storage natürlich meist so als das man nichts sieht oder es zumindest so aussieht als hätte das Storage noch kapa übrig - pustekuchen.
Das einzige was dich tatsächlich weiterbringt ist ein neues Storage einzubinden alles umzuziehen und das alte einmal initial platt machen, dannach sukzessive zurück gehen. Dann wirst du schon merken an was es liegt. An den HBA glaube ich nicht, eher an einen Stromausfall mit defekten sektoren von denen der HBA/RaidController nix mitbekommen hat, das hatte ich auch schon öfter.
Dann sieht es so aus, als würde entweder das Exportieren auf Seiten der 3PAR nicht richtig klappen oder euer Server verliert die Verbindung zur LUN. Da könnte es dann einige Ursachen dafür geben. Eventuell prüft ihr ob die Snapshot Volumes auch richtig exportiert werden, also den korrekten WWN(s) eures Backupservers. Dann sollten auch alle Ports eures HBA funktionsfähig und richtig gezoned sein. Gegebenenfalls, falls vorhanden, geben die FC Switch Statistiken noch einen Hinweis.
Ansonsten würde ich euch einen Case bei HPE und Veeam empfehlen, damit sowohl die Hardware als auch die Konfiguration gesichtet wird.
Ansonsten würde ich euch einen Case bei HPE und Veeam empfehlen, damit sowohl die Hardware als auch die Konfiguration gesichtet wird.