henere
Goto Top

APC-USV fährt Server 2016 nicht sauber runter

Moin zusammen,

wir hatten eben mal kurz Stromausfall.
Die USV hat das piepsen angefangen. Soweit so gut.

Von den Einstellungen her sollte sie ein script ausführen (shutdown ans NAS per SSH) und dann den Server runterfahren.

Die USV zeigt mir etwa 1:10h Stützzeit an.
Also habe ich eingestellt, nach 45 Minuten Akkurestkapazität den Shutdown zu initieren.
Dann wird das script zum runterfahren des NAS ausgeführt Laufzeit 10 Sekunden.
Zeit zum Server runterfahren: 1200 Sekunden (ist im Normalfall in weniger als 3 Minuten erledigt.)

Dennoch kam nach dem Strom wieder an dem Server die Meldung er sei unsanft ausgeschaltet worden. Das NAS genauso.

Es ist eine APC Smart-UPS C 1500 per USB am Server.
Server OS: 2016
PowerChute: 9.5.0.301

Ich habe aber brav von der USV meine Statusmails bekommen:

02:26 - PowerChute Business Edition has detected the following event: On Battery
02:41 - PowerChute Business Edition has detected the following event: Time On Battery Threshold Exceeded
02:41 - PowerChute Business Edition has detected the following event: Shutdown process started

Das steht auch in der Ereignisanzeige.
Mit den weiteren Einträgen:

02:41 Uhr
- <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event"> 
- <System>
  <Provider Name="APCPBEAgent" />  
  <EventID Qualifiers="16639">1025</EventID>  
  <Level>4</Level> 
  <Task>0</Task> 
  <Keywords>0x80000000000000</Keywords> 
  <TimeCreated SystemTime="2018-09-24T00:41:36.103317800Z" />  
  <EventRecordID>510953</EventRecordID> 
  <Channel>Application</Channel> 
  <Computer>hierkönntedeinNamestehen</Computer> 
  <Security /> 
  </System>
- <EventData>
  <Data>"Shutdown In Progress"</Data>  
  </EventData>
  </Event>

02:42 Uhr
- <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event"> 
- <System>
  <Provider Name="APCPBEAgent" />  
  <EventID Qualifiers="16639">1000</EventID>  
  <Level>4</Level> 
  <Task>0</Task> 
  <Keywords>0x80000000000000</Keywords> 
  <TimeCreated SystemTime="2018-09-24T00:41:36.108212200Z" />  
  <EventRecordID>510954</EventRecordID> 
  <Channel>Application</Channel> 
  <Computer>hierkönntedeinNamestehen</Computer> 
  <Security /> 
  </System>
- <EventData>
  <Data>"Monitoring Stopped"</Data>  
  </EventData>
  </Event>

02:42 Uhr
Es wurde festgestellt, dass Ihre Registrierungsdatei noch von anderen Anwendungen oder Diensten verwendet wird. Die Datei wird nun entladen. Die Anwendungen oder Dienste, die Ihre Registrierungsdatei anhalten, funktionieren anschließend u. U. nicht mehr ordnungsgemäß. Kein Benutzereingriff erforderlich. 
 DETAIL - 
 6 user registry handles leaked from \Registry\User\S-1-5-21-1528546160-3277241487-1231951201-500:
Process 1656 (\Device\HarddiskVolume11\Windows\System32\svchost.exe) has opened key \REGISTRY\USER\S-1-5-21-1528546160-3277241487-1231951201-500\System\GameConfigStore\Parents
Process 1656 (\Device\HarddiskVolume11\Windows\System32\svchost.exe) has opened key \REGISTRY\USER\S-1-5-21-1528546160-3277241487-1231951201-500\System\GameConfigStore
Process 1980 (\Device\HarddiskVolume11\Windows\System32\svchost.exe) has opened key \REGISTRY\USER\S-1-5-21-1528546160-3277241487-1231951201-500\SOFTWARE\Microsoft\Windows\CurrentVersion\Uninstall
Process 3720 (\Device\HarddiskVolume11\Program Files (x86)\Trend Micro\OfficeScan Client\NTRTScan.exe) has opened key \REGISTRY\USER\S-1-5-21-1528546160-3277241487-1231951201-500\SOFTWARE\Microsoft
Process 3660 (\Device\HarddiskVolume11\Windows\System32\svchost.exe) has opened key \REGISTRY\USER\S-1-5-21-1528546160-3277241487-1231951201-500\SOFTWARE\Policies\Microsoft\Windows\DataCollection
Process 1656 (\Device\HarddiskVolume11\Windows\System32\svchost.exe) has opened key \REGISTRY\USER\S-1-5-21-1528546160-3277241487-1231951201-500\System\GameConfigStore\Children

02:42 Uhr
Der MS DTC-Dienst wird beendet.

02:42 Uhr
Der Online-Responder-Dienst wurde beendet.

02:42 Uhr
Das Benutzerprofil wurde angehalten  

02:42 Uhr
Die Active Directory-Zertifikatdienste für HierwärewiederPlatzfürDeineWerbung-CA wurden beendet.

Danach (0:58Uhr) sind erst wieder Einträge nach Stromeinschaltung zu sehen.

Eben getestet: Zeit zum runterfahren des Servers inklusive aller VMs (runterfahren geht schneller als zu speichern): Ca 3 Minuten. Dann schaltet sich das Board aus.
Batterie Selbsttest läuft jede Woche, die sind auch ok und haben ihre Stützzeit.

Zusätzliche Last auf der USV war auch keine vorhanden.

Jemand eine Idee ?

Grüße, Henere

Content-Key: 387457

Url: https://administrator.de/contentid/387457

Ausgedruckt am: 19.03.2024 um 02:03 Uhr

Mitglied: goscho
goscho 24.09.2018 um 08:39:23 Uhr
Goto Top
Moin,

ich könnte mir vorstellen, das beim Herunterfahren des Servers etwas hing und dieser dann aus ging, als die USV "saftlos" war.

Hast du auch die aktiven Netzwerkkomponenten zwischen Server und NAS mit Batteriestrom versorgt?
Ansonsten ist natürlich dein Script zum Herunterfahren des NAS sinnfrei.

Hast du das Script vorher getestet und es funktioniert?

Kann es sein, dass deine 45 Minuten etwas zu optimistisch sind, was die Überbrückung eines Stromausfalls angeht, auch wenn die USV dir 70 Minuten anzeigt?
Ich vermute, dass der Server beim Shutdown mehr Strom verbraucht, als im normalen Leerlauf. Vielleicht ist ja auch gerade ein Job gestartet, bspw. Backup?
Mitglied: Looser27
Looser27 24.09.2018 aktualisiert um 09:50:40 Uhr
Goto Top
Also habe ich eingestellt, nach 45 Minuten Akkurestkapazität den Shutdown zu initieren.

Stell den Wert mal so ein, dass der Shutdown nach 5 Minuten ohne Strom initiiert wird.
Ist nach 5min kein Strom mehr da, kannst Du davon ausgehen, dass das auch noch länger dauern wird.
Die Anzeige auf der USV ist allenfalls ein Indikator, aber nicht das letzte Wort.

Gruß

Looser
Mitglied: chiefteddy
chiefteddy 24.09.2018 um 10:30:51 Uhr
Goto Top
Hallo,

mal unabhängig von den schon gemachten Hinweisen noch folgende Anmerkung.

Eine USV im klassischen Sinn (mit Akku und sofortiger Lastübernahme bei Stromausfall) dient in der Regel nur der Überbrückung kurzfristiger Stromausfälle (einige Halbwellen bis zu meheren Secunden). Ihre Leistung sollte so dimensioniert sein, dass ein "sauberes" Herunterfahren der Last ermöglicht wird, Die dann noch vorhandene Akku-Kapazität sollte ausreichend sein, um in kurzen Abständen wiederholt auftretende Stromausfälle ohne ausreichende Nachladung sicher abzufangen.

Bei längerfristigen Stromausfällen (mehere Minuten bis unendlich) dient die USV zur Überbrückung der Anlaufzeit einer Netzersatz-Anlage (zB. Diesel-Generator). Diese Anlaufzeit liegt im unteren einstelligen Minuten-Bereich.

Ein Stromausfall ist in der Regel ja nicht lokal initiiert (bei richtiger Planung des Stromanschlusses des Serverraums), sondern extern (im Veranwortungsbereich des Energieversorgers) verursacht. Damit sind ja nicht nur die lokalen Server und die lokale Netzwerk-Infrastruktur (Switche usw.) betroffen. Auch die Clients mit ihren Monitoren sind ja betroffen. Warum sollen also die Server 45 Minuten durchhalten, wenn kein Client mehr läuft?
Häufig sind ja auch die Internetanschlüsse der Provider vom Stromausfall betroffen.

Es macht also konzeptionell wenig Sinn, Server und Netzwerk über eine USV über einen längeren Zeitraum mit Strom zu versorgen.

Nach 5 Minuten sollte ein geordnetter Shutdown eingeleitet werden. Und die Rest-Kapazität der Akkus sollte ohne Nachladen diese Prozedur auch noch ein 2. Mal abdecken.

Braucht man längere Überbrückungszeit, setzt man als 2. Stufe einen Diesel-Generator oder eine Brennstoffzelle ein.

Das ist das gängige Konzept aller Institutionen, die einen ausfallfreien Betrieb gewährleisten müssen (Krankenhäuser, Polizei, Feuerwehr, Telekommunikation, Rechen-Zentren usw.).

Jürgen
Mitglied: Henere
Henere 24.09.2018 aktualisiert um 22:48:27 Uhr
Goto Top
Servus, danke für die Tipps.

Der Server hat keinen weiteren Job gemacht. Backupzeiten sind wannanders, Updates sind auch keine auf Pending herunterfahrenzuminstall gewesen. Das kann ich ausschließen.

Ich habe es vorhin nochmal getestet, die USV hält den Server samt Switch, NAS, KVM-Switch und Monitor über 45 Minuten am Laufen. Selbst wenn ich 3 VMs im Benchmark laufen lasse und nebenbei einen Copy-Job über 3 Laufwerke verteilt mache. Strom aus und nach 45 Minuten wieder rein. Einstellungen vorher geändert.

Hab jetzt die Einstellungen mal geändert. Nach 15 Minuten ohne Strom (hier auf dem Land sind ein paar Minutenaussetzer sowie solide Schwankungen (wenn der Nachbar sein Getreidegebläse mit ~20kW anschmeisst) immer mal drin) soll er dann herunterfahren.

Und hier kommt der WAF ins Spiel... warum geht denn der Server nicht mehr, wenn das Tablet noch nen Akku hat ? Wenn die Töchter ihre Filme sehen wollen. Das erkläre du denen mal... ich trau mich nicht mehr face-smile

Script zum NAS runterfahren (batch) ist kaum zu sehen bei der Laufzeit.
Inhalt:
plink.exe -pw LaLeLu admin@s-datengrab.domain.tld poweroff

Damit fährt das NAS auch sauber runter.
Zeit für Strom-Shutdown (Wartezeit runterfahren Server) auf 15 Minuten gesetzt.

Test: Runterfahren Server komplett: knapp unter 3 Minuten bis Motherboard abschaltet. Auch wenn 10 VMs laufen.

Das Konzept für ein RZ ist mir durchaus bekannt, aber da es sich hier um einen Privathaushalt handelt, und mein "Benzin-USV" in Form eines 5kW Generators erst umständlich angelassen werden muss, kann ich durchaus mit der kleinen APC für meine Zwecke leben.
Die Nokia und 3 der 4HE Gehäuse, wie auch das rechte NAS sind auch nicht an der USV, das muss langen.

rack

Ich zieh morgen nochmal den Stecker und berichte ob es nun klappt.