RAID-Cache-Fehler. Ursachensuche
Hallo,
ich habe einen Dell R720 gebraucht erworben.
In dem Gerät ist ein H710P-Raidcontroller verbaut. Die Batterie für den Controller war bei Lieferung bereits verbaut - könnte also alt sein.
Auf dem Dell läuft ESXi 6.5.
Vor kurzem hatten wir einen Stromausfall. Der Server ist nicht ordnungsgemäß heruntergefahren (erkennbar an leerer USV, die sollte sonst noch > 50% haben).
Nachdem der Strom wieder da war, startete der Server nicht und es wurde ein Fehler angezeigt (Memory/Battery error, Cache lost, [...]).
Nach der Bestätigung startete der Host zwar sauber, allerdings waren viele VMs fehlerbehaftet und konnten nicht mehr booten.
Meine Vermutung ist jetzt, dass der RAID-Schreibcache beim Stromausfall verloren gegangen ist und von allen in dem Augenblick schreibenden VMs die Festplattendatei zerstört/verfriemelt wurde.
Jetzt gibt es meiner Meinung nach 2 Möglichkeiten:
1. Die Batterie ist hinüber
2. Der Speicher ist hinüber.
Im iDrac wird mir die Batterie aus "good" angezeigt. Kann sie dennoch hinüber sein? Kann man das irgendwie testen?
Gegen einen Speicherfehler spricht meines Erachtens nach, dass im laufenden Betrieb kein Fehler auftritt. Wäre der Speicher defekt, müssten doch dauerhaft Fehler auftreten?
Schon mal vielen Dank!
ich habe einen Dell R720 gebraucht erworben.
In dem Gerät ist ein H710P-Raidcontroller verbaut. Die Batterie für den Controller war bei Lieferung bereits verbaut - könnte also alt sein.
Auf dem Dell läuft ESXi 6.5.
Vor kurzem hatten wir einen Stromausfall. Der Server ist nicht ordnungsgemäß heruntergefahren (erkennbar an leerer USV, die sollte sonst noch > 50% haben).
Nachdem der Strom wieder da war, startete der Server nicht und es wurde ein Fehler angezeigt (Memory/Battery error, Cache lost, [...]).
Nach der Bestätigung startete der Host zwar sauber, allerdings waren viele VMs fehlerbehaftet und konnten nicht mehr booten.
Meine Vermutung ist jetzt, dass der RAID-Schreibcache beim Stromausfall verloren gegangen ist und von allen in dem Augenblick schreibenden VMs die Festplattendatei zerstört/verfriemelt wurde.
Jetzt gibt es meiner Meinung nach 2 Möglichkeiten:
1. Die Batterie ist hinüber
2. Der Speicher ist hinüber.
Im iDrac wird mir die Batterie aus "good" angezeigt. Kann sie dennoch hinüber sein? Kann man das irgendwie testen?
Gegen einen Speicherfehler spricht meines Erachtens nach, dass im laufenden Betrieb kein Fehler auftritt. Wäre der Speicher defekt, müssten doch dauerhaft Fehler auftreten?
Schon mal vielen Dank!
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 7458554740
Url: https://administrator.de/contentid/7458554740
Ausgedruckt am: 25.11.2024 um 03:11 Uhr
9 Kommentare
Neuester Kommentar
Moin,
ist denn die USV ausreichend dimensioniert, dass der Server (inkl. sämtlicher VMs) sauber runterfahren kann?
Ist denn auch im VMWare eine Software installiert, die bei Stromausfall die VMs und den Host runterfährt?
Die Cache-Batterie kann natürlich defekt sein, hängt auch davon ab, wie lange sie bereits im Einsatz war. Verlässliche Aussagen kann man natürlich nur mit einem Austausch machen.
Gruß
cykes
ist denn die USV ausreichend dimensioniert, dass der Server (inkl. sämtlicher VMs) sauber runterfahren kann?
Ist denn auch im VMWare eine Software installiert, die bei Stromausfall die VMs und den Host runterfährt?
Die Cache-Batterie kann natürlich defekt sein, hängt auch davon ab, wie lange sie bereits im Einsatz war. Verlässliche Aussagen kann man natürlich nur mit einem Austausch machen.
Gruß
cykes
P.S. Du kannst auch mal mit der vorhandenen Batterie folgende Prozedur durchfüren: https://www.dell.com/support/kbdoc/de-de/000141398/anleitung-zum-trouble ... (-> Learn Cycle)
Zusätzlich natürlich das übliche:
- Firmware auf dem Controller auf aktuellem Stand?
- BIOS des Server aktuell?
Zusätzlich natürlich das übliche:
- Firmware auf dem Controller auf aktuellem Stand?
- BIOS des Server aktuell?
Die USV hält 30 min, das sollte locker reichen.
"sollte"´reicht hier nicht, das muss getestet werden, damit man sich im Falle eines Stromausfalls auch darauf verlassen kann.Diese Anleitung zum Learn Cycle hab ich auch schon gefunden. Kann ich den auch im laufenden Betrieb durchführen?
Diesen Test würde ich nicht im laufenden Betrieb durchführen. Man kann das aber auch mit den MegaRAID CLI-Tools durchführen (ohne OMSA).Gebrauchte Batterien sind immer ein Risiko, da die auch gern mal "alles OK" zurückmelden, wenn sie bereits (kurz vor) durch sind. Wenn der Server aber abschmiert, nützt die Batterie natürlich auch im Neuzustand nix mehr
Moin,
Bei einem Battery Error kommt es zu einem Memory Error, weil die Daten korrumpieren bzw. verschwinden.
Dazu tendiere ich.
Glaub ich weniger. Der ist recht robust. Solange da keine Spannungsspitze reinschlägt, bleibt er meiner Erfahrung nach verlässlich.
Gern geschehen.
Gruß
bdmvg
Zitat von @fabiange:
ich habe einen Dell R720 gebraucht erworben.
In dem Gerät ist ein H710P-Raidcontroller verbaut. Die Batterie für den Controller war bei Lieferung bereits verbaut - könnte also alt sein.
Auf dem Dell läuft ESXi 6.5.
Vor kurzem hatten wir einen Stromausfall. Der Server ist nicht ordnungsgemäß heruntergefahren (erkennbar an leerer USV, die sollte sonst noch > 50% haben).
Nachdem der Strom wieder da war, startete der Server nicht und es wurde ein Fehler angezeigt (Memory/Battery error, Cache lost, [...]).
Ich kenne das nicht anders. Selbst in einem alten Controller sind genug Prozeduren drin, so dass er defekten Cache von defekter Batterie (bei HP ist das keine sondern eine Elko-Kaskade) unterscheiden kann.ich habe einen Dell R720 gebraucht erworben.
In dem Gerät ist ein H710P-Raidcontroller verbaut. Die Batterie für den Controller war bei Lieferung bereits verbaut - könnte also alt sein.
Auf dem Dell läuft ESXi 6.5.
Vor kurzem hatten wir einen Stromausfall. Der Server ist nicht ordnungsgemäß heruntergefahren (erkennbar an leerer USV, die sollte sonst noch > 50% haben).
Nachdem der Strom wieder da war, startete der Server nicht und es wurde ein Fehler angezeigt (Memory/Battery error, Cache lost, [...]).
Bei einem Battery Error kommt es zu einem Memory Error, weil die Daten korrumpieren bzw. verschwinden.
Zitat von @fabiange:
Nach der Bestätigung startete der Host zwar sauber, allerdings waren viele VMs fehlerbehaftet und konnten nicht mehr booten.
Meine Vermutung ist jetzt, dass der RAID-Schreibcache beim Stromausfall verloren gegangen ist und von allen in dem Augenblick schreibenden VMs die Festplattendatei zerstört/verfriemelt wurde.
Nehme ich auch an. Habe bei meinen alten Schüsseln die Controller umgestellt: Schreibcache aus, Lesecache dafür 100% und die Energiepuffer abgeklemmt. Seitdem habe ich Ruhe. Muss allerdings auch erwähnen, dass ich eine Monster-USV zum Schutz unserer Systeme am Start habe (3h Pufferzeit mindestens. Als hätte ich es damals nicht geahnt, dass die Grünen den STrom verknappen ).Nach der Bestätigung startete der Host zwar sauber, allerdings waren viele VMs fehlerbehaftet und konnten nicht mehr booten.
Meine Vermutung ist jetzt, dass der RAID-Schreibcache beim Stromausfall verloren gegangen ist und von allen in dem Augenblick schreibenden VMs die Festplattendatei zerstört/verfriemelt wurde.
Dazu tendiere ich.
Glaub ich weniger. Der ist recht robust. Solange da keine Spannungsspitze reinschlägt, bleibt er meiner Erfahrung nach verlässlich.
Zitat von @fabiange:
Im iDrac wird mir die Batterie aus "good" angezeigt. Kann sie dennoch hinüber sein? Kann man das irgendwie testen?
Ja. Das ist möglich. Ich habe einen HP-Server mit einem MegaRaid-Controller, die sich aufgrund eines Firmware-Mißmatch im Management nicht verstehen. Deswegen kriege ich auf der iLO auch keine verlässlichen Daten zu sehen.Im iDrac wird mir die Batterie aus "good" angezeigt. Kann sie dennoch hinüber sein? Kann man das irgendwie testen?
Zitat von @fabiange:
Gegen einen Speicherfehler spricht meines Erachtens nach, dass im laufenden Betrieb kein Fehler auftritt. Wäre der Speicher defekt, müssten doch dauerhaft Fehler auftreten?
In Abhängigkeit zum Cachemodus ja.Gegen einen Speicherfehler spricht meines Erachtens nach, dass im laufenden Betrieb kein Fehler auftritt. Wäre der Speicher defekt, müssten doch dauerhaft Fehler auftreten?
Gern geschehen.
Gruß
bdmvg