la-seitcha
Goto Top

Storage Stromausfall

Moin,

ich hatte gestern einen Ausfall meines ISCSI Speichers während des Betriebs.

Auf den Speicher greifen 2 ESXI Hosts zu und darauf sind 15 VMs.

Nun ist ja der Speicher ausgefallen und die Hosts haben versucht die Maschinen neu zu starten usw. aber es klappte ja nicht.
Dann gab es ein haufen Fehler.

Beim ISCSI Server hat ein Netzteil so einen Fehler verursacht das der ganze Server trotz zweitem Netzteil abgestürzt ist.

Netzteile hatte ich noch, also schnell getauscht und den ISCSI Server wieder hochgefahren.

Dachte nun, ich müsste die Maschinen neustarten aber es funktionierte nichts mehr.

Esxi Hosts auch neugestartet aber es kam wieder zu Fehlern.

Angeblich waren die Konfigurationsdateien weg. Aber im Dateibrowser konnte ich sie sehen.

Naja egal dachte ich mir, spielst du eben das Backup ein. Funktionierte einwandfrei.

Also hatte ich nur eine Downtime von 1h.

Hattet Ihr schon so einen Speicherausfall während des Betriebes und wie geht ihr da vor wenn sowas passiert?

Gibt es da Tricks um kein Backup einspielen zu müssen?


Ich meine wenn ich nun kein Backup gehabt hätte, dann wäre das ein Worst Case geworden. Trotz Anleitungen von Vmware wegen gelockter Dateien habe ich es nicht zum laufen bekommen.

Das ist zwar nur ein Homelab was ich als Hobby betreibe, aber ich würde gerne wissen wie es professionell abläuft in so einem Fall.

Eckdaten:
-HP Proliant DL 380 G9 als ISCSI Server Windows Server 2022 mit Starwind virtual Storage

-HP Proliant DL 380 G9 Esxi 8 Host 1
-HP Proliant DL 380 G9 Esxi 8 Host 2
-VCenter Standard 8 HA & DRS aktiv
- Diverse VMS


Gruß Alex

Content-ID: 61351944665

Url: https://administrator.de/contentid/61351944665

Ausgedruckt am: 21.11.2024 um 21:11 Uhr

DerMaddin
Lösung DerMaddin 22.02.2024 um 15:25:18 Uhr
Goto Top
Moin,

Bei uns fällt da nichts einfach aus, weil der Strom ausgefallen ist. Alle kritischen IT-Systeme hängen an einer USV dran, die bis zu 2h im Notbetrieb die Server, SAN und Core-Stack am laufen hält. SAN ist redundant, also Netzwerk, Controller, Netzteile und Disk-Pools.

Einen einzelnen Server als Storage-System zu betreiben ist schon ziemlich kritisch. Hardware-Ausfall, je nach Komponente, kann schon Tage oder Wochen an Ausfall bedeuten.

Bei uns ist vSphere im Einsatz und Veeam als Backup. Von daher ist ein Restore der VMs oder des ganzen Clusters unproblematisch und kann auch zur Not live vom Backup-Server aus erfolgen.
manuel-r
Lösung manuel-r 22.02.2024 um 17:10:28 Uhr
Goto Top
Alle kritischen IT-Systeme hängen an einer USV dran,

Er hat doch geschrieben, dass ein Netzteil durchgeknallt ist und den Server mitgerissen hat trotz funktionierendem zweiten Netzteil. In so einem Fall hilft auch die USV nichts.

Manuel
DarkZoneSD
Lösung DarkZoneSD 22.02.2024 um 17:19:15 Uhr
Goto Top
Moin,

ich habe letzte Woche einen frisch abgebauten G8 Proliant server mit SmartDisk Array in einen „Test-Server“ umfunktioniert. Am zweiten Tag ist eine Platte flöten gegangen, ich konnte im Bertrieb sämtliche Dateien sehen und auch vhdx Dateien an VMs mounten, aber beim start der VMs kommen Fehlermeldungen.

Mir wurde das so erklärt das, solange das Smart Array am rebuilden ist, die Festplatten noch nicht zum schreiben freigegeben sind und deshalb auch VMs nicht starten können da sie rwx zugriff brauchen.


Weiß nicht ob das bei Dir evtl. Auch der Fall war.

Grüße
Globetrotter
Lösung Globetrotter 22.02.2024 um 17:25:59 Uhr
Goto Top
Hi..
War es ein Stromausfall oder hat das eine Netzteil nicht zum anderen geschalten ?
Wenn es kein Stormausfall war und das eine Netzteil den Dienst quittierte, tippe ich auf das Alter der Netzteile, Stichwort "Elkos" - das 2. Netztil hat also gar nicht mitbekommen, das das andere ausgefallen ist. Da würde ich doch glatt bezweifeln, daß eine USV was gebracht hätte ;)
Natürlich ist eine USV in solch einem Einsatz unabdingbar... aber es gilt immer Murphys Law face-sad
Ich würde auf jeden Fall vorab mal folgendes tun:
a). Kaltgeräte Kabel gegen neue austauschen (Hatte ich auch schon)
b). Das Hot-Standby der Netzteile testen

Den Rest hat @DerMaddin schon gesagt - ist aber für ein HomeLab "ein wenig" überzogen. Ich denke Du hast von VMWare eine NFR laufen - ansonsten hast Du natürlich genug Geld für ein redundantes Storage *wink* ;)

Gruss Globe!
Crusher79
Lösung Crusher79 22.02.2024 um 17:57:19 Uhr
Goto Top
Uff denke mal 2. RZ. Docker Container u.ä. - damit kann man Verfügbarkeit hochschrauben.

Strom ist eine Sache. Klimaanlage und puff auch alles aus. Trotz Wartung. Klima Anlage im Cluster fährt bei manchen auch nicht mehr selber hoch.

Da hilft auch eine USV nicht. Architekt, der sich mit RZ Aufbau auskennt. Gebäudeleittechnik mit vernünftiger Integration der Komponenten etc.

Ansonsten schwebt dieses Schwert immer über einen!

Oder aber USV wird gewartet. Puff nach Stunden immer wieder Totalausfall. Damit auch alles tot. Der Shunt ist ja rein manuell, wenn man die Batterien abklemmen will. Ist die USV weg, war es das.

Ist keine billig USV. Wurde sogar nach HH eingeschickt. Die haben KEINEN Fehler gefunden. Mit Bauchschmerzen haben wir die wieder zurück bekommen Seither aber kein Fehler mehr!

In dem Fall war alles aus. Die 2x ESXi berappelten sich immer von selber.

https://www.dewezet.de/lokales/hameln-pyrmont/blackout-mit-folgen-bei-de ...

Ja selbst der Landkreis hat nicht immer alles unter Kontrolle. Ka wo genau das liegt. Das neue Kreishaus ist keine 20 J alt.

Die Temperatur hat sich alle 30 Minuten um 0,6 Grad erhöht“

Tja Freunde und wir wissen ja wie die öffentlichen teils suchen. Hochschulabschluß, 50 J Erfahrung etc. Gut man kann die 0,6 Grad dann gut grafisch darstellen.

Wie auch @manuel-r bereits noch rausstellte, geht es beim TS um einen Hardware Rumms. Sowas hat jeder schonmal wohl erlebt. Ansonsten Glück gehabt face-wink

Hite, Flutkatastrophen etc. - alles nicht mehr weithergeholt. Da hilft nur Planung um das ganze abzufedern.
la-seitcha
la-seitcha 22.02.2024 um 18:39:27 Uhr
Goto Top
Hallo Zusammen,

vielen Dank für die Antworten.

Ich habe ja eine USV in Betrieb. 1 Netzteil je Server an USV und das andere an normaler Versorgung.

Es gab keinen Stromausfall. Ein Netzteil ist defekt, trotz zweitem hat das Mainboard nicht umgeschaltet oder das defekte hat Netzteil einen so heftigen Fehler verursacht, dass das andere mit abgestürzt ist.

Wie @Globetrotter das beschreibt passt es dann eher.

Aber da sieht man mal das auch redundanz seine Schwächen haben kann und wie wichtig Backups sind.

@DarkZoneSD
Bei mir stand im ILO nur der Cache vom SmartArray drin, das er Daten gefunden hat die jetzt beim Booten zurück geschrieben werden.

Das Raid war in Ordnung.


Ich danke für Eure Antworten.

LG
Globetrotter
Globetrotter 22.02.2024 um 19:05:01 Uhr
Goto Top
@la-seitcha,
Hi.. Wenn Du, wie ich denke, eine NFR hast, warum setzt Du dann kein VSAN ein?
Das wäre eigentlich am sinnvollsten.. nur so nebenbei ;) - 3Wege-Cluster
Als Datengrab/Ablage kannste dann eine Syno einsetzen mit xRaid - Rest läuft auf Deinem VSAN.

Gruss Globe!
la-seitcha
la-seitcha 23.02.2024 um 08:05:19 Uhr
Goto Top
@Globetrotter
Moin, es ist noch eine 60 Tageversion.


Vom Grundaufbau müsste ich dann 3 ESXi Hosts haben?
Also den Starwind Storage auflösen Esxi darauf und mit ins Cluster aufnehmen um dann das VSan zu erstellen oder ?

LG
Globetrotter
Globetrotter 23.02.2024 um 12:44:07 Uhr
Goto Top
Hi...
JEP... aber schaue Dir erst die Preise an bevor Du da loslegst.. das ist für eine private Person nicht tragbar - es sei denn Du hast eine NFR. 10GBit LAN + ALLFLASH ist ab V.8 Mindestvorraussetzung...

Gruss Globe!
Ueba3ba
Ueba3ba 23.02.2024 um 14:16:59 Uhr
Goto Top
Statt dir einen dritten Esxi Host hinzustellen und mit vSAN rum zu machen, könntest du dir auch einen zweiten Star Wind Host hinstellen und das iSCSI Storage spiegeln. Das geht aktiv aktiv. Geht auch mit der free Version von Star Wind, halt nur ohne UI.

Solch einen Aufbau hatte ich in meinem Labor auch schon getestet, und das hat wunderbat funktioniert.

vSphere 7 Enterprise mit vSAN Advanced lief auch in meinem Lab mit 3 Esxi Hosts.
Hatte ich nur betrieben, da ich die Keys günstig bekommen habe(ohne Support dann natürlich)
StiflersM0M
StiflersM0M 23.02.2024 um 14:40:50 Uhr
Goto Top
Ich geh mal explizit auf die Frage wie das beim Production Livesystem ist ein.

Wir haben nen ESXI Cluster mit 3 Nodes und VSAN ESA (Enterprise Plus und VSAN Advanced).

Ich habe früher immer versucht Probleme selbst beim ESXI zu lösen, bei VSAN ESA bin ich aber an meine Grenzen gestoßen da es vergleichsweise viele Funktionen gibt die nicht zu 100% Dokumentiert sind.


Konkret hatten wir letzens das Problem das der Cluster nicht vernünftig heruntergefahren ist bei einer Planmäßigen Wartung und sich dabei aufgehangen hat. Bin dann nach nen KB von VMware (ups sorry Broadcom 🤔) vorgegangen. Hat alles nur schlimmer gemacht. Ordner und Files waren noch sichtbar, der vsan Datastore aber nicht mehr Synchron und wollte sich auch nicht dazu bewegen lassen.

Irgendwann hatte ich dann keine Lust mehr selbst dran rum zu fummeln und das erste mal in 6 Jahren den Production Support in Anspruch genommen. Das war aufn Samstag um 23:10. Hab nen Ticket auf gemacht mit der höchsten Eskaltionsstufe (Totalausfall) und innerhalb von 12 Minuten nach der Eröffnung war ich schon im zoom Call mit Walther aus Kalifornien. Aber auch der gute Walther hat 4 Stunden gebraucht um das Problem zu lösen. Aber im großen und ganzen war die Support Erfahrung sehr gut. Sollte Sie bei knapp 16 tsd Euro im Jahr aber auch sein. 👍🏻
Globetrotter
Globetrotter 23.02.2024 um 16:24:43 Uhr
Goto Top
@StiflersM0M
Ja, der Support ist wirklich sehr, sehr gut und labert nicht im Nebel rum...!

Gruss Globe!
ultiman
ultiman 27.02.2024 um 02:55:03 Uhr
Goto Top
Schönes Home Lab face-smile
Moin,
ich denke in vielen Zusammensetzungen ist das Restore aus dem Backup bei einem solchen Ausfall die Option mit den wenigsten Bauchschmerzen. Da gibt es den konsistenten Zustand des Backupzeitpunktes und keine Bedenken zu korrupten Daten irgendwo.
viel Grüße
ulti
la-seitcha
la-seitcha 28.02.2024 um 07:48:00 Uhr
Goto Top
Hallo,

danke noch mal für Eure Anregungen und Tipps.

VSan im Homelab zum Testen ist schon Interessant aber mein System läuft aktuell sehr gut und ich denke ich lasse es erstmal so.

Habe mein Backup um einen weiteren Platz erweitert damit ich auch die Sicherheit habe, falls mein Hauptbackup mal ausfällt.

Falls nochmal sowas passieren sollte, ist Backup zurückspielen wirklich toll.

@ultiman
Danke.
Damit hatte ich auch die wenigsten Bauchschmerzen.