fabiange
Goto Top

RAID-Cache-Fehler. Ursachensuche

Hallo,
ich habe einen Dell R720 gebraucht erworben.
In dem Gerät ist ein H710P-Raidcontroller verbaut. Die Batterie für den Controller war bei Lieferung bereits verbaut - könnte also alt sein.
Auf dem Dell läuft ESXi 6.5.

Vor kurzem hatten wir einen Stromausfall. Der Server ist nicht ordnungsgemäß heruntergefahren (erkennbar an leerer USV, die sollte sonst noch > 50% haben).
Nachdem der Strom wieder da war, startete der Server nicht und es wurde ein Fehler angezeigt (Memory/Battery error, Cache lost, [...]).
Nach der Bestätigung startete der Host zwar sauber, allerdings waren viele VMs fehlerbehaftet und konnten nicht mehr booten.

Meine Vermutung ist jetzt, dass der RAID-Schreibcache beim Stromausfall verloren gegangen ist und von allen in dem Augenblick schreibenden VMs die Festplattendatei zerstört/verfriemelt wurde.

Jetzt gibt es meiner Meinung nach 2 Möglichkeiten:
1. Die Batterie ist hinüber
2. Der Speicher ist hinüber.

Im iDrac wird mir die Batterie aus "good" angezeigt. Kann sie dennoch hinüber sein? Kann man das irgendwie testen?

Gegen einen Speicherfehler spricht meines Erachtens nach, dass im laufenden Betrieb kein Fehler auftritt. Wäre der Speicher defekt, müssten doch dauerhaft Fehler auftreten?

Schon mal vielen Dank!

Content-ID: 7458554740

Url: https://administrator.de/contentid/7458554740

Ausgedruckt am: 25.11.2024 um 03:11 Uhr

cykes
cykes 08.06.2023 um 10:26:14 Uhr
Goto Top
Moin,

ist denn die USV ausreichend dimensioniert, dass der Server (inkl. sämtlicher VMs) sauber runterfahren kann?
Ist denn auch im VMWare eine Software installiert, die bei Stromausfall die VMs und den Host runterfährt?

Die Cache-Batterie kann natürlich defekt sein, hängt auch davon ab, wie lange sie bereits im Einsatz war. Verlässliche Aussagen kann man natürlich nur mit einem Austausch machen.

Gruß

cykes
cykes
cykes 08.06.2023 um 10:36:33 Uhr
Goto Top
P.S. Du kannst auch mal mit der vorhandenen Batterie folgende Prozedur durchfüren: https://www.dell.com/support/kbdoc/de-de/000141398/anleitung-zum-trouble ... (-> Learn Cycle)

Zusätzlich natürlich das übliche:
- Firmware auf dem Controller auf aktuellem Stand?
- BIOS des Server aktuell?
fabiange
fabiange 08.06.2023 aktualisiert um 10:53:02 Uhr
Goto Top
Hallo Cykes,
vielen Dank für deine Antwort.

Im Falle eines Netzteilausfalls (nur 1 hängt an einer USV) wird ein SNMP-Trap an eine VM geschickt, die dann per SSH die VMs und den Host herunterfährt.
Die USV hält 30 min, das sollte locker reichen.

Die VM war fehlkonfiguriert, weswegen der Shutdown nicht funktioniert hat. Sollte nicht nochmal passieren.

Diese Anleitung zum Learn Cycle hab ich auch schon gefunden. Kann ich den auch im laufenden Betrieb durchführen? Dazu hatte ich leider nix gefunden. Downtime ist momentan schwierig, da ich aktuell nur remote drauf komme

Achja, Firmware/Bios-Updates werden vom Verkäufer vor dem Verkauf durchgeführt, wenn vorhanden. Von daher sollte das aktuell neuste drauf sein
cykes
cykes 08.06.2023 um 11:22:42 Uhr
Goto Top
Die USV hält 30 min, das sollte locker reichen.
"sollte"´reicht hier nicht, das muss getestet werden, damit man sich im Falle eines Stromausfalls auch darauf verlassen kann.

Diese Anleitung zum Learn Cycle hab ich auch schon gefunden. Kann ich den auch im laufenden Betrieb durchführen?
Diesen Test würde ich nicht im laufenden Betrieb durchführen. Man kann das aber auch mit den MegaRAID CLI-Tools durchführen (ohne OMSA).

Gebrauchte Batterien sind immer ein Risiko, da die auch gern mal "alles OK" zurückmelden, wenn sie bereits (kurz vor) durch sind. Wenn der Server aber abschmiert, nützt die Batterie natürlich auch im Neuzustand nix mehr face-wink
fabiange
fabiange 08.06.2023 um 11:34:18 Uhr
Goto Top
Der normale Shutdown liegt bei <5min. Deshalb "sollte".


"Wenn der Server aber abschmiert, nützt die Batterie natürlich auch im Neuzustand nix mehr"

Aber ist die Batterie nicht genau dafür gedacht? Dass der Cache beim Stromausfall und nicht ordnungsgemäßem herunterfahren eben nicht wegfliegt, sondern erhalten bleibt, bis der Strom wieder da ist?
maretz
maretz 08.06.2023 um 14:59:59 Uhr
Goto Top
Das hängt ja davon ab wie lang der Stromausfall war - die Batterien halten ja auch nicht ewig...

Was du machen kannst ist normalerweise testweise den Schreibcache deaktivieren - was der controller _eigentlich_ sogar schon selbst machen sollte wenn der ne defekte batterie erkennt.
fabiange
fabiange 08.06.2023 um 16:15:17 Uhr
Goto Top
14:25 wurde ein Poweroff protokolliert (protokolliert der da echt noch, wenn der Saft weg ist?)

14:35 war er wieder am Strom.

Der idrac sagt auch, dass die Batterie "good" ist
beidermachtvongreyscull
beidermachtvongreyscull 08.06.2023 um 20:02:00 Uhr
Goto Top
Zitat von @fabiange:
Hallo,
Moin,
Zitat von @fabiange:
ich habe einen Dell R720 gebraucht erworben.
In dem Gerät ist ein H710P-Raidcontroller verbaut. Die Batterie für den Controller war bei Lieferung bereits verbaut - könnte also alt sein.
Auf dem Dell läuft ESXi 6.5.
Vor kurzem hatten wir einen Stromausfall. Der Server ist nicht ordnungsgemäß heruntergefahren (erkennbar an leerer USV, die sollte sonst noch > 50% haben).
Nachdem der Strom wieder da war, startete der Server nicht und es wurde ein Fehler angezeigt (Memory/Battery error, Cache lost, [...]).
Ich kenne das nicht anders. Selbst in einem alten Controller sind genug Prozeduren drin, so dass er defekten Cache von defekter Batterie (bei HP ist das keine sondern eine Elko-Kaskade) unterscheiden kann.
Bei einem Battery Error kommt es zu einem Memory Error, weil die Daten korrumpieren bzw. verschwinden.
Zitat von @fabiange:
Nach der Bestätigung startete der Host zwar sauber, allerdings waren viele VMs fehlerbehaftet und konnten nicht mehr booten.
Meine Vermutung ist jetzt, dass der RAID-Schreibcache beim Stromausfall verloren gegangen ist und von allen in dem Augenblick schreibenden VMs die Festplattendatei zerstört/verfriemelt wurde.
Nehme ich auch an. Habe bei meinen alten Schüsseln die Controller umgestellt: Schreibcache aus, Lesecache dafür 100% und die Energiepuffer abgeklemmt. Seitdem habe ich Ruhe. Muss allerdings auch erwähnen, dass ich eine Monster-USV zum Schutz unserer Systeme am Start habe (3h Pufferzeit mindestens. Als hätte ich es damals nicht geahnt, dass die Grünen den STrom verknappen face-big-smile).
Zitat von @fabiange:
Jetzt gibt es meiner Meinung nach 2 Möglichkeiten:
1. Die Batterie ist hinüber
Dazu tendiere ich.
Zitat von @fabiange:
2. Der Speicher ist hinüber.
Glaub ich weniger. Der ist recht robust. Solange da keine Spannungsspitze reinschlägt, bleibt er meiner Erfahrung nach verlässlich.
Zitat von @fabiange:
Im iDrac wird mir die Batterie aus "good" angezeigt. Kann sie dennoch hinüber sein? Kann man das irgendwie testen?
Ja. Das ist möglich. Ich habe einen HP-Server mit einem MegaRaid-Controller, die sich aufgrund eines Firmware-Mißmatch im Management nicht verstehen. Deswegen kriege ich auf der iLO auch keine verlässlichen Daten zu sehen.
Zitat von @fabiange:
Gegen einen Speicherfehler spricht meines Erachtens nach, dass im laufenden Betrieb kein Fehler auftritt. Wäre der Speicher defekt, müssten doch dauerhaft Fehler auftreten?
In Abhängigkeit zum Cachemodus ja.
Zitat von @fabiange:
Schon mal vielen Dank!
Gern geschehen.

Gruß
bdmvg
Mr-Gustav
Mr-Gustav 09.06.2023 um 07:09:25 Uhr
Goto Top
Mal eine doofe Frage:
Ist der Controller denn für den Server seitens Dell freigegeben?
Ich kenn das so das wenn andere Controller verbaut werden das diese entweder keine Daten an das IPMI melden
ober eben falsche.