kodach
Goto Top

Host Herunterfahren nach Stromunterbruch (APC USV)

Hallo zusammen

Ich habe in einer Laborumgebung folgende Komponenten:
Supermicro Server, Jahrgang ca. 2018/2019
HP ProLiant DL380 G6 also schon sehr alt

Auf dem DL380 läuft ESX 6.5, auf dem Supermicro läuft ESX 7.0. Beide sind in einem vCenter Server verbunden (kein Cluster oder sonstiges). Soweit sogut.

Nun habe ich eine ältere Smart-UPS X 1500 inkl Netzwerkkarte AP9631. Die Firmware ist mit Mitte 2019 jedoch noch sehr aktuell. Für meine Zwecke voll ausreichend.

Da es auf dem Supermicro einen Management Server gibt, habe ich mich entschlossen auf diesem (Windows Server 2019 x64) auch gleich PowerChute Network Shutdown v4.3 zu installieren. der vCenter Server ist die Appliance welche auf dem Supermicro läuft.

Das hat soweit auch gut funktioniert. Meine Einstellungen:
  • Beginne Herunterfahren nach 120 Sekunden ohne Strom
  • VM Shutdown, Force vApp Shutdown, Shutdown Durration 180 Sekunden
  • vCenter Server VM Shutdown Duration: 180 Sekunden
  • Unter Host Protection sind beide ESXi drin.
  • Unter Shutdown Settings habe ich eingestellt das die UPS aus geht damit die Server nach Stromaufnahme wieder automatisch starten.

Der Test hat folgendes ergeben:
  • Nach 2 Minuten wurde angefangen alles Herunterzufahren (Perfekt)
  • Nach weiteren 150 Sekunden waren alle VMs heruntergefahren mit Ausnahme dem Management Server mit PowerChute sowie der vCenter Server VM. Soweit also auch gut.
  • Der Supermicro ging nach gesamthaft knapp 7 Minuten aus.
  • Die USV inkl. dem HP gingen nach etwas über 11 Minuten aus.

Soweit ein relativ gutes Ergebnis. Jedoch habe ich bisher einige offene Fragen die ich nicht beantworten konnte und noch am Suchen bin. Ggf hat ja von euch jemand einige Tipps für mich was ich beachten kann.
  • Woher kommt die Zeit von ca. 11 Minuten bis die USV ausgegangen ist? Wartezeiten habe ich ja eigentlich nur 480 Sekunden definiert. Ist das irgendwo noch eine Einstellung die ich übersehen habe?
  • Woran könnte es liegen das der HP erst mit der USV ausgegangen ist und nicht vorher bereits?

Ich habe die Loggs mal durchgesehen, bin aber anstelle auf erleuchtung eher auf weitere Fragen gestossen. Zum Beispiel möchte ich euch unten noch die Logs vom PowerChute unten anfügen. Ich finde es speziell das er erst vermeldet, dass der SuperMicro beim herunterfahren fehlgeschlagen ist, aber 30 Sekunden später heruntergefahren hat. Dies ist aber ok da er es gemacht hat. Beim HP gibt es die selbe Meldung, jedoch ist der nicht heruntergefahren.

2020-04-17	16:49:59	Shutting down Host SupermicroServer.
2020-04-17	16:49:32	Shutdown Host failed for Host SupermicroServer.
2020-04-17	16:49:26	Shutdown Host failed for Host HPServer.
2020-04-17	16:48:48	Exit Maintenance Mode on Host SupermicroServer.
2020-04-17	16:48:43	Exit Maintenance Mode on Host HPServer.
2020-04-17	16:45:48	UPS critical event: Outlet Group Turn off initiated.
2020-04-17	16:45:48	UPS Outlet Group: Servergruppe 1 turn off has been initiated.
2020-04-17	16:45:43	No vApp to shutdown on Host HPServer.
2020-04-17	16:45:43	Starting vApp shutdown process.
2020-04-17	16:45:42	Shutting down VMs on Host SupermicroServer.
2020-04-17	16:45:42	Starting Maintenance Mode Task on Host SupermicroServer.
2020-04-17	16:45:42	Shutting down VMs on Host HPServer.
2020-04-17	16:45:42	Starting Maintenance Mode Task on Host HPServer.
2020-04-17	16:45:42	PowerChute is turning off UPS 10.10.1.70
2020-04-17	16:45:42	Shutdown sequence started on Hosts HPServer, SupermicroServer in response to UPS critical event: On Battery.
2020-04-17	16:45:41	UPS critical event: On Battery.
2020-04-17	16:43:41	UPS has switched to battery power.

Ein Fehler der nun auf beiden Hosts angezeigt wird ist folgender:
17.04.2020, 17:30:52
Anmelden von administrator@vsphere.local@10.10.1.247 nicht möglich
Ereignistypbeschreibung:
Ein Benutzer hat versucht, sich mit einem unbekannten oder ungültigen Benutzernamen anzumelden
Mögliche Ursachen:
Der Benutzername ist auf dem System unbekannt Aktion: Falls Sie Active Directory verwenden, prüfen Sie den Status des Domänen-Controllers
Der Benutzer hat ein ungültiges Kennwort angegeben Aktion: Geben Sie das richtige Kennwort an
Dieser wird somit von meinem Management Server mit PowerChute ausgelöst. Das Kennwort stimmt aber, da er dies beim Einrichten zumindest angezeigt hat und die VMs heruntergbefahren werden. Ich habe extra mal den Administrator verwendet, um Fehlerhafte Berechtigungen im Test bei einem extra User für PowerChute zu vermeiden. Dies ist auch einer der letzten Fehler der angezeigt wird bevor die Logs dann wieder beginnen nach dem wieder Strom vorhanden ist.

Bitte entschuldigt den langen Beitrag, ich habe versucht alle nötigen Informationen zusammen zu tragen und hier aufzuzeigen.

Vielen Dank schon an jeden Hilfeversuch.

Gruss

Koda

Content-ID: 565570

Url: https://administrator.de/contentid/565570

Ausgedruckt am: 21.11.2024 um 22:11 Uhr

chgorges
chgorges 17.04.2020 um 23:07:08 Uhr
Goto Top
Hi,

grundsätzlich: Unter VMware nimmt man immer die von APC extra bereit gestellte PCNS-VM, kein installiertes Programm auf einem Windows Server.

Was mich stutzig macht:

Nach weiteren 150 Sekunden waren alle VMs heruntergefahren mit Ausnahme dem Management Server mit PowerChute sowie der vCenter Server VM. Soweit also auch gut.

Wieso ist das gut? Deine Erklärung und der Logauszug beißen sich.
Management VM und vCenter VM sind nicht heruntergefahren, also noch angeschaltet. PowerChute beendet dann den Maintenance Mode und kann logischer die Hosts nicht herunterfahren, weil noch 2 VMs laufen.

Was den HP-Server betrifft: Wenn der SuperMicro-Server inkl. vCenter nicht mehr läuft, funktionieren auch die vCenter-Zugangsdaten am HP-Server nicht mehr, bzw. können nicht validiert werden -> HP-Server muss zuerst heruntergefahren werden.
KodaCH
KodaCH 18.04.2020 aktualisiert um 17:36:09 Uhr
Goto Top
Zitat von @chgorges:
grundsätzlich: Unter VMware nimmt man immer die von APC extra bereit gestellte PCNS-VM, kein installiertes Programm auf einem Windows Server.
Vielen Dank @chgorges. Ich habe nun die Appliance verwendet und alles wieder eingerichtet. Soweit so gut.

Dann habe ich auf dem vCenter Server, sowie beiden ESXi einen Benutzer "apc" eingerichtet mit dem selben Kennwort. Seit dem habe ich auch das Kennwort Problem nicht mehr. Klingt also auch schon mal nach einem Vorschritt.

Das einzige was nun noch ist, dass nun weder der Supermicro noch der HP herunterfährt. Gem. Logs fährt nun auch mein vCenter Server herunter. Es gibt nur kein Logeintrag das die PowerChute Appliance nicht herunterfährt.

Die Logs der PowerChute Appliance
04/18/2020	16:46:53	Cannot connect to vCenter Server. PowerChute may not be able to issue commands to Virtual Machines or Hosts.
04/18/2020	16:46:52	Maintenance Mode Task cancelled on Host SupermicroServerNameNichtIP as VCSA VM is shutting down.
04/18/2020	16:46:52	Shutting down vCenter Server VM vCenterServer.
04/18/2020	16:45:16	UPS critical event: Low Battery.
04/18/2020	16:45:16	Low-battery condition has occurred.
04/18/2020	16:43:40	Host HPServerNameNichtIP has successfully entered Maintenance Mode.
04/18/2020	16:42:40	Exit Maintenance Mode on Host SupermicroServerNameNichtIP.
04/18/2020	16:41:15	UPS critical event: Outlet Group Turn off initiated.
04/18/2020	16:41:15	UPS Outlet Group: Server turn off has been initiated.
04/18/2020	16:41:10	Shutting down VMs on Host SupermicroServerNameNichtIP.
04/18/2020	16:41:10	Starting Maintenance Mode Task on Host SupermicroServerNameNichtIP.
04/18/2020	16:41:10	No vApp to shutdown on Host HPServerNameNichtIP.
04/18/2020	16:41:10	Starting vApp shutdown process.
04/18/2020	16:41:09	Shutting down VMs on Host HPServerNameNichtIP.
04/18/2020	16:41:09	Starting Maintenance Mode Task on Host HPServerNameNichtIP.
04/18/2020	16:41:09	PowerChute is turning off UPS 10.10.1.70
04/18/2020	16:41:09	Shutdown sequence started on Hosts HPServerNameNichtIP, SupermicroServerNameNichtIP in response to UPS critical event: On Battery.
04/18/2020	16:41:09	UPS critical event: On Battery.

Die Batterie ist zwar schwach, hält aber noch etwas länger als der ganze Prozess dauert. Daran sollte es denke ich nicht liegen. Was ich nicht weiss ist ob es mit dem Netzwerk zusammenhängen könnte. Gestern hat es zwar beim Supermicro einmalig geklappt gehabt.

Auf dem Supermicro sowie dem HP ist je ein Domaincontroller welche mit den DHCP und DNS Servern laufen. Ebenfalls gibt es noch auf dem Supermicro einen DNS Filter bevor die Anfragen "raus" gehen. Wenn nun natürlich alle VM's heruntergefahren sind, gibt es keine DNS Auflösung mehr.
In den PowerChute Einstellungen habe ich die IP des vCenter Servers eingetragen. Aber die ESXi werden vom vCenter übernommen und dort sind nicht die IP's sondern die Hostnamen eingetragen.

Zitat von @chgorges:
Was den HP-Server betrifft: Wenn der SuperMicro-Server inkl. vCenter nicht mehr läuft, funktionieren auch die vCenter-Zugangsdaten am HP-Server nicht mehr, bzw. können nicht validiert werden -> HP-Server muss zuerst heruntergefahren werden.
Wo kann dies eingestellt werden? Ich finde zwar die Funktion "VM Prioritization" was aber damit nichts zu tun hat, und unter "Host Protection" könnte ich zwar die ESXi Position verschieben, was aber nicht gespeichert wird. Auch in der Hilfe scheint dies wohl keinen Einfluss auf die Reihenfolge zu haben.

Gruss

Koda
KodaCH
KodaCH 18.04.2020 um 20:18:46 Uhr
Goto Top
Ich mache ausnahmsweise einen zweiten Kommentar, da ich möchte das die Logfiles und Überlegungen bestehen bleiben falls jemand mal ähnliche Probleme haben sollte.

Es ist tatsächlich so, dass die PowerChute Appliance die Hosts nicht mehr finden konnte da der DNS Server eine VM ist. Wenn man sich per SSH auf die PowerChute Appliance verbindet, findet man im Verzeichnis "/opt/APC/PowerChute/group1/" unter anderem eine error.log.

Ich habe nun in die Datei "/etc/hosts" auf der PowerChute Appliance von Hand die wichtigsten DNS Einträge vorgenommen damit er die Hosts auch ohne DNS Server findet. Und siehe da, alles fährt sauber herunter und wieder hoch. Das einzige was nicht mehr kommt sind die VM's auf dem HP Server. Ich weiss nicht ob der G6 ggf zu alt ist und Probleme macht, oder ob dies ein Problem mit ESXi 6.5 ist. Wenn der Server aus ist und ich ihn hochfahre, kommen die VM's normal.

Ich nehme an der Grund ist, dass der Wartungsmodus beim HP erst nach dem Hochfahren wieder entfernt wird. Da zählt dann der Autostart Countdown wahrscheinlich nicht.

Gruss

Koda