ariantir
Goto Top

SCSI IDs während des Backups verloren

Hallo zusammen,

wir haben seit ein paar Tagen ein Problem, bei dem wir alle möglichen Optionen (Neustart der beteiligten Systeme (sofern möglich), Update der Treiber/Firmware, Neueinrichten des Backup-Proxy, Überprüfung der Verkabelung,...) schon durchgespielt haben, aber leider in keinster Art Besserung eingetreten ist. Manche Sachen konnten wir (z.B. wegen fehlenden Ersatzteilen) noch nicht prüfen (z.B. anderer HBA).

Kurz zu dem, was bei uns hier genutzt wird, bei Fragen kann ich hier gerne ergänzen:
Veeam B&R (aktuelle Version) auf einem Windows Server 2019, auf einem DELL EMC R740
Storage: HPE 3par
Übertragung via FC

Das Problem zeigt sich folgendermaßen:
Für unseren diversen VMs haben wir natürlich (verschiedene) Backup-Jobs eingerichtet. Seit ein paar Tagen gibt es innerhalb der Jobs bei unterschiedlichen VMs (hier ist auch kein Muster erkennbar) immer das Problem, dass während des Jobs die SCSI ID der betreffenden LUN einfach "rausfliegt" und so die LUN für das Backup nicht mehr gefunden wird. Auf dem ganzen Weg von Storage bis Backupserver scheint alles zu funktionieren und es sind auch immer unterschiedliche LUNs, die dann nicht mehr gefunden werden.

Das Studium der Logs hat gezeigt, dass das auf dem Storage für das Backup erstellte Virtual Volume erstellt wurde und bekannt ist (auf dem Storage kann ich das auch bestätigen), im weiteren Verlauf wird dann versucht das VV zu mounten, es gibt über mehrere Minuten Rescans des FC Bus um Disk Infos vom Proxy zu erhalten, aber das scheitert dann. Daraufhin wird der Backup-Job für diese VM abgebrochen und auch alle weiteren VMs, die auf der Storage-LUN sitzen, bekommen kein Backup. Im retry des Jobs kann es dann passieren, dass alles mögliche doch ganz normal funktioniert.

Hat hier jemand grundsätzlich noch eine Idee an welcher Stellschraube man drehen kann um hier doch ein Ergebnis zu bekommen? Ich weiß, die Infos sind nicht super ausführlich, hier kann ich gerne nachliefern, falls noch was gewünscht ist. Aktuell sind wir für jeden weiteren Gedankenanstupser dankbar face-smile

Viele Grüße und vielen Dank im Vorfeld!
Marco

Content-ID: 32204745087

Url: https://administrator.de/contentid/32204745087

Ausgedruckt am: 22.11.2024 um 03:11 Uhr

user217
user217 08.11.2023 um 15:08:17 Uhr
Goto Top
Das hört sich für mich an als ob das Storage selbst oder der Hostbus Adapter einen Schuss haben oder überlastet sind.
Defekte Sektoren o.ä.
Was sagt ein Healthcheck auf dem Storage?
Da es FC ist kann man Netzwerkprobleme wohl gänzlich ausschließen.
RaidScan oder wie das auch bei HP heißt.
Ariantir
Ariantir 08.11.2023 um 16:25:36 Uhr
Goto Top
Zitat von @user217:

Das hört sich für mich an als ob das Storage selbst oder der Hostbus Adapter einen Schuss haben oder überlastet sind.
Defekte Sektoren o.ä.
Was sagt ein Healthcheck auf dem Storage?
Da es FC ist kann man Netzwerkprobleme wohl gänzlich ausschließen.
RaidScan oder wie das auch bei HP heißt.

Das ist auch ein Stück weit unsere Vermutung... Der Storage selber meldet über den Healthcheck keine Auffälligkeiten (natürlich sind grad ein paar Platten ausgelastet, aber es passiert ja auch ein bisschen was face-wink )

Ein neuer HBA (baugleich) ist auch bestellt, eigentlich wegen etwas anderem, aber hier können wir, sobald der da ist dann den Check machen, ob der HBA nen Knack weg hat...
user217
user217 09.11.2023 um 07:17:11 Uhr
Goto Top
Das kann auch ganz banale Ursachen haben wie z.B. Vmware Tools update verursachten snapshot auf allen vms vergessen zu löschen..
Ich vermute es geht um ein Storage mit Spindeln und das hat schon immer getaugt aber die Maschinen werden immer mehr und irgendwann packt das ding nicht mehr io's. Der Hersteller gestaltet seine Graphen auf dem Storage natürlich meist so als das man nichts sieht oder es zumindest so aussieht als hätte das Storage noch kapa übrig - pustekuchen.
Das einzige was dich tatsächlich weiterbringt ist ein neues Storage einzubinden alles umzuziehen und das alte einmal initial platt machen, dannach sukzessive zurück gehen. Dann wirst du schon merken an was es liegt. An den HBA glaube ich nicht, eher an einen Stromausfall mit defekten sektoren von denen der HBA/RaidController nix mitbekommen hat, das hatte ich auch schon öfter.
Ariantir
Ariantir 09.11.2023 um 16:58:01 Uhr
Goto Top
VM-Snapshots glaube ich eher nicht, die würden wir im vCenter ja auch entsprechend sehen... Ein paar kleinere Probleme und Überbleibsel der "gewachsenen Struktur" haben wir auch schon aufgelöst, aber leider klappt das (auf Dauer) immer noch nicht face-confused
regnor
regnor 09.11.2023 um 21:49:03 Uhr
Goto Top
Wenn ich das richtig lese, sichert ihr per Storage Snapshot? Und diese Snapshots gehen während der Sicherung verloren?

Wie sieht das in Veeam aus? Und was steht zeitgleich im Windows Event Log und auf der 3Par?
Ariantir
Ariantir 09.11.2023 um 22:04:46 Uhr
Goto Top
Ja, genau, per Storage Snapshot. Die VirtualVolumes auf der 3 Par sind soweit vorhanden, im Veeam gibts recht häufig nen Rescan des FC Bus (im Log), manchmal fängt er dann mit dem Backup an, manchmal bricht er dann ab... im Windows Log steht dann, dass er die SCSI ID {00000....} nicht finden kann...
regnor
regnor 10.11.2023 um 06:37:17 Uhr
Goto Top
Sind die Snapshots zu diesem Zeitpunkt noch auf der 3Par vorhanden? Und final welche Fehlermeldung gibt der Veeam Job aus?
Ariantir
Ariantir 10.11.2023 aktualisiert um 10:05:35 Uhr
Goto Top
Die Snapshots sind noch vorhanden auf dem Storage (auch wenn die VM schon fehlgeschlagen ist), werden dann erst beim Abschluss des gesamten Jobs bereinigt. Die Meldung bei im Veeam Job ist, dass der Proxy die Daten der VM-Festplatten nicht vom Storage abgreifen kann, weil er die LUN mit der entsprechenden ID nicht finden kann...
regnor
regnor 10.11.2023 um 13:59:55 Uhr
Goto Top
Dann sieht es so aus, als würde entweder das Exportieren auf Seiten der 3PAR nicht richtig klappen oder euer Server verliert die Verbindung zur LUN. Da könnte es dann einige Ursachen dafür geben. Eventuell prüft ihr ob die Snapshot Volumes auch richtig exportiert werden, also den korrekten WWN(s) eures Backupservers. Dann sollten auch alle Ports eures HBA funktionsfähig und richtig gezoned sein. Gegebenenfalls, falls vorhanden, geben die FC Switch Statistiken noch einen Hinweis.
Ansonsten würde ich euch einen Case bei HPE und Veeam empfehlen, damit sowohl die Hardware als auch die Konfiguration gesichtet wird.
user217
user217 13.11.2023 um 07:51:20 Uhr
Goto Top
Wenn es ISCSI wäre würde ich sagen das die MTU nicht passt, setzt das Ding neu auf sonst verbrennst du unnötig Zeit und weißt anschließend wieder nicht 100%ig was Sache ist.
Evtl. gibts auch FW Updates für die Platten, wäre mir zwar neu aber alles ist möglich.
Ariantir
Ariantir 13.11.2023 um 09:09:15 Uhr
Goto Top
Moin zusammen, das Problem besteht leider weiterhin... Was allerdings über das WE noch weiter aufgefallen ist: Auf einer LUN liegen mehrere VMs (sagen wir mal 10)... Und von fast allen VMs funktioniert alles auch einwandfrei, nur bei einer dann nicht... Interessanterweise ist es häufig die selbe VM, aber nicht immer... Nach mehreren Retries hat es dann auch funktioniert, dass wirklich von jeder VM der Snapshot genommen/gefunden wurde... Aber bei jedem Fehlschlag laufen wir in mehrere Timeouts (jeweils 15x30s pro LUN), was das ganze Unterfangen unnötig zeitaufwendig macht...
Den Support Case mit HPE und Veeam haben wir auch schon überlegt, wir warten noch einen Teileaustausch ab und dann gibt es da wenig Alternativen dazu...
user217
user217 13.11.2023 aktualisiert um 13:49:40 Uhr
Goto Top
Bring die VMs in Sicherheit und mach das ding platt sonst läufst du gefahr anschließend ernsthafte probleme zu bekommen weil die Systeme nicht mehr integer laufen, ich spreche aus Erfahrung.
Ich musste 8 Wochen später nach sowas das AD restaurieren mit defekten Objekten, das macht gar keinen Spaß.