Storage Stromausfall
Moin,
ich hatte gestern einen Ausfall meines ISCSI Speichers während des Betriebs.
Auf den Speicher greifen 2 ESXI Hosts zu und darauf sind 15 VMs.
Nun ist ja der Speicher ausgefallen und die Hosts haben versucht die Maschinen neu zu starten usw. aber es klappte ja nicht.
Dann gab es ein haufen Fehler.
Beim ISCSI Server hat ein Netzteil so einen Fehler verursacht das der ganze Server trotz zweitem Netzteil abgestürzt ist.
Netzteile hatte ich noch, also schnell getauscht und den ISCSI Server wieder hochgefahren.
Dachte nun, ich müsste die Maschinen neustarten aber es funktionierte nichts mehr.
Esxi Hosts auch neugestartet aber es kam wieder zu Fehlern.
Angeblich waren die Konfigurationsdateien weg. Aber im Dateibrowser konnte ich sie sehen.
Naja egal dachte ich mir, spielst du eben das Backup ein. Funktionierte einwandfrei.
Also hatte ich nur eine Downtime von 1h.
Hattet Ihr schon so einen Speicherausfall während des Betriebes und wie geht ihr da vor wenn sowas passiert?
Gibt es da Tricks um kein Backup einspielen zu müssen?
Ich meine wenn ich nun kein Backup gehabt hätte, dann wäre das ein Worst Case geworden. Trotz Anleitungen von Vmware wegen gelockter Dateien habe ich es nicht zum laufen bekommen.
Das ist zwar nur ein Homelab was ich als Hobby betreibe, aber ich würde gerne wissen wie es professionell abläuft in so einem Fall.
Eckdaten:
-HP Proliant DL 380 G9 als ISCSI Server Windows Server 2022 mit Starwind virtual Storage
-HP Proliant DL 380 G9 Esxi 8 Host 1
-HP Proliant DL 380 G9 Esxi 8 Host 2
-VCenter Standard 8 HA & DRS aktiv
- Diverse VMS
Gruß Alex
ich hatte gestern einen Ausfall meines ISCSI Speichers während des Betriebs.
Auf den Speicher greifen 2 ESXI Hosts zu und darauf sind 15 VMs.
Nun ist ja der Speicher ausgefallen und die Hosts haben versucht die Maschinen neu zu starten usw. aber es klappte ja nicht.
Dann gab es ein haufen Fehler.
Beim ISCSI Server hat ein Netzteil so einen Fehler verursacht das der ganze Server trotz zweitem Netzteil abgestürzt ist.
Netzteile hatte ich noch, also schnell getauscht und den ISCSI Server wieder hochgefahren.
Dachte nun, ich müsste die Maschinen neustarten aber es funktionierte nichts mehr.
Esxi Hosts auch neugestartet aber es kam wieder zu Fehlern.
Angeblich waren die Konfigurationsdateien weg. Aber im Dateibrowser konnte ich sie sehen.
Naja egal dachte ich mir, spielst du eben das Backup ein. Funktionierte einwandfrei.
Also hatte ich nur eine Downtime von 1h.
Hattet Ihr schon so einen Speicherausfall während des Betriebes und wie geht ihr da vor wenn sowas passiert?
Gibt es da Tricks um kein Backup einspielen zu müssen?
Ich meine wenn ich nun kein Backup gehabt hätte, dann wäre das ein Worst Case geworden. Trotz Anleitungen von Vmware wegen gelockter Dateien habe ich es nicht zum laufen bekommen.
Das ist zwar nur ein Homelab was ich als Hobby betreibe, aber ich würde gerne wissen wie es professionell abläuft in so einem Fall.
Eckdaten:
-HP Proliant DL 380 G9 als ISCSI Server Windows Server 2022 mit Starwind virtual Storage
-HP Proliant DL 380 G9 Esxi 8 Host 1
-HP Proliant DL 380 G9 Esxi 8 Host 2
-VCenter Standard 8 HA & DRS aktiv
- Diverse VMS
Gruß Alex
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 61351944665
Url: https://administrator.de/contentid/61351944665
Ausgedruckt am: 21.11.2024 um 21:11 Uhr
14 Kommentare
Neuester Kommentar
Moin,
Bei uns fällt da nichts einfach aus, weil der Strom ausgefallen ist. Alle kritischen IT-Systeme hängen an einer USV dran, die bis zu 2h im Notbetrieb die Server, SAN und Core-Stack am laufen hält. SAN ist redundant, also Netzwerk, Controller, Netzteile und Disk-Pools.
Einen einzelnen Server als Storage-System zu betreiben ist schon ziemlich kritisch. Hardware-Ausfall, je nach Komponente, kann schon Tage oder Wochen an Ausfall bedeuten.
Bei uns ist vSphere im Einsatz und Veeam als Backup. Von daher ist ein Restore der VMs oder des ganzen Clusters unproblematisch und kann auch zur Not live vom Backup-Server aus erfolgen.
Bei uns fällt da nichts einfach aus, weil der Strom ausgefallen ist. Alle kritischen IT-Systeme hängen an einer USV dran, die bis zu 2h im Notbetrieb die Server, SAN und Core-Stack am laufen hält. SAN ist redundant, also Netzwerk, Controller, Netzteile und Disk-Pools.
Einen einzelnen Server als Storage-System zu betreiben ist schon ziemlich kritisch. Hardware-Ausfall, je nach Komponente, kann schon Tage oder Wochen an Ausfall bedeuten.
Bei uns ist vSphere im Einsatz und Veeam als Backup. Von daher ist ein Restore der VMs oder des ganzen Clusters unproblematisch und kann auch zur Not live vom Backup-Server aus erfolgen.
Moin,
ich habe letzte Woche einen frisch abgebauten G8 Proliant server mit SmartDisk Array in einen „Test-Server“ umfunktioniert. Am zweiten Tag ist eine Platte flöten gegangen, ich konnte im Bertrieb sämtliche Dateien sehen und auch vhdx Dateien an VMs mounten, aber beim start der VMs kommen Fehlermeldungen.
Mir wurde das so erklärt das, solange das Smart Array am rebuilden ist, die Festplatten noch nicht zum schreiben freigegeben sind und deshalb auch VMs nicht starten können da sie rwx zugriff brauchen.
Weiß nicht ob das bei Dir evtl. Auch der Fall war.
Grüße
ich habe letzte Woche einen frisch abgebauten G8 Proliant server mit SmartDisk Array in einen „Test-Server“ umfunktioniert. Am zweiten Tag ist eine Platte flöten gegangen, ich konnte im Bertrieb sämtliche Dateien sehen und auch vhdx Dateien an VMs mounten, aber beim start der VMs kommen Fehlermeldungen.
Mir wurde das so erklärt das, solange das Smart Array am rebuilden ist, die Festplatten noch nicht zum schreiben freigegeben sind und deshalb auch VMs nicht starten können da sie rwx zugriff brauchen.
Weiß nicht ob das bei Dir evtl. Auch der Fall war.
Grüße
Hi..
War es ein Stromausfall oder hat das eine Netzteil nicht zum anderen geschalten ?
Wenn es kein Stormausfall war und das eine Netzteil den Dienst quittierte, tippe ich auf das Alter der Netzteile, Stichwort "Elkos" - das 2. Netztil hat also gar nicht mitbekommen, das das andere ausgefallen ist. Da würde ich doch glatt bezweifeln, daß eine USV was gebracht hätte ;)
Natürlich ist eine USV in solch einem Einsatz unabdingbar... aber es gilt immer Murphys Law
Ich würde auf jeden Fall vorab mal folgendes tun:
a). Kaltgeräte Kabel gegen neue austauschen (Hatte ich auch schon)
b). Das Hot-Standby der Netzteile testen
Den Rest hat @DerMaddin schon gesagt - ist aber für ein HomeLab "ein wenig" überzogen. Ich denke Du hast von VMWare eine NFR laufen - ansonsten hast Du natürlich genug Geld für ein redundantes Storage *wink* ;)
Gruss Globe!
War es ein Stromausfall oder hat das eine Netzteil nicht zum anderen geschalten ?
Wenn es kein Stormausfall war und das eine Netzteil den Dienst quittierte, tippe ich auf das Alter der Netzteile, Stichwort "Elkos" - das 2. Netztil hat also gar nicht mitbekommen, das das andere ausgefallen ist. Da würde ich doch glatt bezweifeln, daß eine USV was gebracht hätte ;)
Natürlich ist eine USV in solch einem Einsatz unabdingbar... aber es gilt immer Murphys Law
Ich würde auf jeden Fall vorab mal folgendes tun:
a). Kaltgeräte Kabel gegen neue austauschen (Hatte ich auch schon)
b). Das Hot-Standby der Netzteile testen
Den Rest hat @DerMaddin schon gesagt - ist aber für ein HomeLab "ein wenig" überzogen. Ich denke Du hast von VMWare eine NFR laufen - ansonsten hast Du natürlich genug Geld für ein redundantes Storage *wink* ;)
Gruss Globe!
Uff denke mal 2. RZ. Docker Container u.ä. - damit kann man Verfügbarkeit hochschrauben.
Strom ist eine Sache. Klimaanlage und puff auch alles aus. Trotz Wartung. Klima Anlage im Cluster fährt bei manchen auch nicht mehr selber hoch.
Da hilft auch eine USV nicht. Architekt, der sich mit RZ Aufbau auskennt. Gebäudeleittechnik mit vernünftiger Integration der Komponenten etc.
Ansonsten schwebt dieses Schwert immer über einen!
Oder aber USV wird gewartet. Puff nach Stunden immer wieder Totalausfall. Damit auch alles tot. Der Shunt ist ja rein manuell, wenn man die Batterien abklemmen will. Ist die USV weg, war es das.
Ist keine billig USV. Wurde sogar nach HH eingeschickt. Die haben KEINEN Fehler gefunden. Mit Bauchschmerzen haben wir die wieder zurück bekommen Seither aber kein Fehler mehr!
In dem Fall war alles aus. Die 2x ESXi berappelten sich immer von selber.
https://www.dewezet.de/lokales/hameln-pyrmont/blackout-mit-folgen-bei-de ...
Ja selbst der Landkreis hat nicht immer alles unter Kontrolle. Ka wo genau das liegt. Das neue Kreishaus ist keine 20 J alt.
Die Temperatur hat sich alle 30 Minuten um 0,6 Grad erhöht“
Tja Freunde und wir wissen ja wie die öffentlichen teils suchen. Hochschulabschluß, 50 J Erfahrung etc. Gut man kann die 0,6 Grad dann gut grafisch darstellen.
Wie auch @manuel-r bereits noch rausstellte, geht es beim TS um einen Hardware Rumms. Sowas hat jeder schonmal wohl erlebt. Ansonsten Glück gehabt
Hite, Flutkatastrophen etc. - alles nicht mehr weithergeholt. Da hilft nur Planung um das ganze abzufedern.
Strom ist eine Sache. Klimaanlage und puff auch alles aus. Trotz Wartung. Klima Anlage im Cluster fährt bei manchen auch nicht mehr selber hoch.
Da hilft auch eine USV nicht. Architekt, der sich mit RZ Aufbau auskennt. Gebäudeleittechnik mit vernünftiger Integration der Komponenten etc.
Ansonsten schwebt dieses Schwert immer über einen!
Oder aber USV wird gewartet. Puff nach Stunden immer wieder Totalausfall. Damit auch alles tot. Der Shunt ist ja rein manuell, wenn man die Batterien abklemmen will. Ist die USV weg, war es das.
Ist keine billig USV. Wurde sogar nach HH eingeschickt. Die haben KEINEN Fehler gefunden. Mit Bauchschmerzen haben wir die wieder zurück bekommen Seither aber kein Fehler mehr!
In dem Fall war alles aus. Die 2x ESXi berappelten sich immer von selber.
https://www.dewezet.de/lokales/hameln-pyrmont/blackout-mit-folgen-bei-de ...
Ja selbst der Landkreis hat nicht immer alles unter Kontrolle. Ka wo genau das liegt. Das neue Kreishaus ist keine 20 J alt.
Die Temperatur hat sich alle 30 Minuten um 0,6 Grad erhöht“
Tja Freunde und wir wissen ja wie die öffentlichen teils suchen. Hochschulabschluß, 50 J Erfahrung etc. Gut man kann die 0,6 Grad dann gut grafisch darstellen.
Wie auch @manuel-r bereits noch rausstellte, geht es beim TS um einen Hardware Rumms. Sowas hat jeder schonmal wohl erlebt. Ansonsten Glück gehabt
Hite, Flutkatastrophen etc. - alles nicht mehr weithergeholt. Da hilft nur Planung um das ganze abzufedern.
@la-seitcha,
Hi.. Wenn Du, wie ich denke, eine NFR hast, warum setzt Du dann kein VSAN ein?
Das wäre eigentlich am sinnvollsten.. nur so nebenbei ;) - 3Wege-Cluster
Als Datengrab/Ablage kannste dann eine Syno einsetzen mit xRaid - Rest läuft auf Deinem VSAN.
Gruss Globe!
Hi.. Wenn Du, wie ich denke, eine NFR hast, warum setzt Du dann kein VSAN ein?
Das wäre eigentlich am sinnvollsten.. nur so nebenbei ;) - 3Wege-Cluster
Als Datengrab/Ablage kannste dann eine Syno einsetzen mit xRaid - Rest läuft auf Deinem VSAN.
Gruss Globe!
Statt dir einen dritten Esxi Host hinzustellen und mit vSAN rum zu machen, könntest du dir auch einen zweiten Star Wind Host hinstellen und das iSCSI Storage spiegeln. Das geht aktiv aktiv. Geht auch mit der free Version von Star Wind, halt nur ohne UI.
Solch einen Aufbau hatte ich in meinem Labor auch schon getestet, und das hat wunderbat funktioniert.
vSphere 7 Enterprise mit vSAN Advanced lief auch in meinem Lab mit 3 Esxi Hosts.
Hatte ich nur betrieben, da ich die Keys günstig bekommen habe(ohne Support dann natürlich)
Solch einen Aufbau hatte ich in meinem Labor auch schon getestet, und das hat wunderbat funktioniert.
vSphere 7 Enterprise mit vSAN Advanced lief auch in meinem Lab mit 3 Esxi Hosts.
Hatte ich nur betrieben, da ich die Keys günstig bekommen habe(ohne Support dann natürlich)
Ich geh mal explizit auf die Frage wie das beim Production Livesystem ist ein.
Wir haben nen ESXI Cluster mit 3 Nodes und VSAN ESA (Enterprise Plus und VSAN Advanced).
Ich habe früher immer versucht Probleme selbst beim ESXI zu lösen, bei VSAN ESA bin ich aber an meine Grenzen gestoßen da es vergleichsweise viele Funktionen gibt die nicht zu 100% Dokumentiert sind.
Konkret hatten wir letzens das Problem das der Cluster nicht vernünftig heruntergefahren ist bei einer Planmäßigen Wartung und sich dabei aufgehangen hat. Bin dann nach nen KB von VMware (ups sorry Broadcom 🤔) vorgegangen. Hat alles nur schlimmer gemacht. Ordner und Files waren noch sichtbar, der vsan Datastore aber nicht mehr Synchron und wollte sich auch nicht dazu bewegen lassen.
Irgendwann hatte ich dann keine Lust mehr selbst dran rum zu fummeln und das erste mal in 6 Jahren den Production Support in Anspruch genommen. Das war aufn Samstag um 23:10. Hab nen Ticket auf gemacht mit der höchsten Eskaltionsstufe (Totalausfall) und innerhalb von 12 Minuten nach der Eröffnung war ich schon im zoom Call mit Walther aus Kalifornien. Aber auch der gute Walther hat 4 Stunden gebraucht um das Problem zu lösen. Aber im großen und ganzen war die Support Erfahrung sehr gut. Sollte Sie bei knapp 16 tsd Euro im Jahr aber auch sein. 👍🏻
Wir haben nen ESXI Cluster mit 3 Nodes und VSAN ESA (Enterprise Plus und VSAN Advanced).
Ich habe früher immer versucht Probleme selbst beim ESXI zu lösen, bei VSAN ESA bin ich aber an meine Grenzen gestoßen da es vergleichsweise viele Funktionen gibt die nicht zu 100% Dokumentiert sind.
Konkret hatten wir letzens das Problem das der Cluster nicht vernünftig heruntergefahren ist bei einer Planmäßigen Wartung und sich dabei aufgehangen hat. Bin dann nach nen KB von VMware (ups sorry Broadcom 🤔) vorgegangen. Hat alles nur schlimmer gemacht. Ordner und Files waren noch sichtbar, der vsan Datastore aber nicht mehr Synchron und wollte sich auch nicht dazu bewegen lassen.
Irgendwann hatte ich dann keine Lust mehr selbst dran rum zu fummeln und das erste mal in 6 Jahren den Production Support in Anspruch genommen. Das war aufn Samstag um 23:10. Hab nen Ticket auf gemacht mit der höchsten Eskaltionsstufe (Totalausfall) und innerhalb von 12 Minuten nach der Eröffnung war ich schon im zoom Call mit Walther aus Kalifornien. Aber auch der gute Walther hat 4 Stunden gebraucht um das Problem zu lösen. Aber im großen und ganzen war die Support Erfahrung sehr gut. Sollte Sie bei knapp 16 tsd Euro im Jahr aber auch sein. 👍🏻
@StiflersM0M
Ja, der Support ist wirklich sehr, sehr gut und labert nicht im Nebel rum...!
Gruss Globe!
Ja, der Support ist wirklich sehr, sehr gut und labert nicht im Nebel rum...!
Gruss Globe!