dake84
Goto Top

LSI 9260-4i Controller cache discarded due to memory battery problems

Hallo,
ich bekam gerade einen Anruf einen meiner Kunden: Server nicht erreichbar und piepst erbärmlich. Monitor schwarz. Nach einem Neustart meldet der MegaRAID Manager folgendes:

Controller ID: 0 Controller cache discarded due to memory/battery problems

Zudem einige Einträger in der Ereignisanzeige NTFS Event ID 130, Dateisystemstruktur auf Volume C: repariert.

Vor 1-2 Monaten ist schonmal eine Platte aus dem RAID 5 Verbund geflogen. Die Cold Spare ist dabei ordnungsgemäß eingesprungen. Nachdem ich vor Ort war und die "defekte" Platte einmal aus dem Slot gezogen und wieder eingesteckt habe funktionierte sie wieder einwandfrei. Da ser Server im Frühstücks/Pausenraum des Kunden steht bin ich von "gröberer" Behandlung, Putzfrau oä ausgegangen die am Server gewackelt hat. Mit der Fehlermeldung von Heute könnte es auch natürlich an einem defekten Cache liegen.

Wie würdet ihr vorgehen? Das RAID steht im Manager nun wieder ordnungsgemäß auf Healthy und der Server läuft, ein gutes Gefühl habe ich dabei aber nicht :/

Wenn der Cache des Controllers wirklich hin ist bleibt ja eigentlich nur der Austausch des kompletten Controllers. Alternativ habe ich noch in einer Firmwarebeschreibung für Firmware "12.12.0-0077" von LSI folgendes gefunden:

Bug Fixes and Enhancements:
...
LSIP200125315 (DFCT) CacheOffload : Controller cache discarded due to memory/battery problems.
...

Der Controller läuft noch mit FW 12.11.0-0016.

Würdet ihr eiskalt den Controller austauschen oder ein FW-Update auf dem Controller mit VERMUTLICH defektem Cache durchführen? Oder habt ihr evtl. noch ganz andere Ideen auf die ich nicht komme?

Der Server ist ein TAROX aus dem Jahr 2011 mit SBS 2008.

Gruß

dake

Content-ID: 241594

Url: https://administrator.de/contentid/241594

Ausgedruckt am: 22.11.2024 um 18:11 Uhr

Jochem
Jochem 23.06.2014 um 15:32:11 Uhr
Goto Top
Moin,

ist da noch eine Option "MegaRAID LSIiBBU07" installiert? Wenn JA, wovon ich bei einem TAROX-Gerät ausgehe, dann lies Dir bitte noch einmal die Fehlermeldung laut vor.

Gruß J face-smile chem
Pjordorf
Pjordorf 23.06.2014 um 15:46:01 Uhr
Goto Top
Hallo,

Zitat von @dake84:
Controller ID: 0 Controller cache discarded due to memory/battery problems
Könnte es auch die Bakterie sein?

könnte es auch natürlich an einem defekten Cache liegen.
Welche cache? Von der Festplatte? Controllerkarte? RAM? CPU?

ein gutes Gefühl habe ich dabei aber nicht :/
Da gibt es was von Ratiopharm....

Wenn der Cache des Controllers wirklich hin ist bleibt ja eigentlich nur der Austausch des kompletten Controllers.
Richtig.

Würdet ihr eiskalt den Controller austauschen
Auch Lauwarm oder Heiß ist es möglich.

oder ein FW-Update auf dem Controller mit VERMUTLICH defektem Cache durchführen?
Du willst das wir DEINE Entscheidung treffen? Du kennst deine Vereinbarung mit deinen Kunden. Du kennst deine Vereinbarung mit deinenn Lieferanten TAROX und was du dort gekauft hast. TAROX mal angerufen? 0231/98 98 0-700 oder http://www.tarox.de/index.php?id=190 (Und ja, die wissen was die tun)

Der Server ist ein TAROX aus dem Jahr 2011 mit SBS 2008.
Dann hast du ja noch Garantie....

TAROX anrufen
Cache Riegel tasuchen
Firmware updaten
Controller tauschen

Entscheide du. Du kennst deine Verträge mit deinen Kunden und was du denen Versprochen hast und wie du nun zu Handeln hast.

Gruß,
Peter
dake84
dake84 23.06.2014 um 15:49:00 Uhr
Goto Top
Hallo Jochem,
schonmal danke für deine Antwort. In dem Server wurde wohl (warum auch immer) keine BBU verbaut. Jedenfalls bekomme ich im Manager keine angezeigt. Meinst du die Fehlermeldung kommt durch den Hard-Reset und den daraus resultierenden Datenverlust im Cache durch die fehlende BBU? Würde natürlich Sinn machen ;)
(Habe ich vergessen zu erwähnen: diese Meldung kam schonmal, das war wohl anfang des Monats, bin nur heute das erste mal seit 4 Wochen wieder arbeiten...).

/PS: dass der Betrieb des Controllers ohne BBU suboptimal ist weiß ich, habe ich dem Kunden auch schon nahe gelegt, er lässt sich nur noch etwas Zeit mit dieser "großen" Investition.
Jochem
Jochem 23.06.2014 um 15:59:31 Uhr
Goto Top
Moin,

also wenn Du dem Controller das Netz unterm Hintern wegziehst (Hard-Reset), ist die Fehlermeldung klar. Dann hast Du bzw. Dein Kunde bisher mehr Glück als Verstand gehabt, daß das System so lange ohne Unterbrechung gelaufen ist. Bevor ich auch nur noch eine Aktion an dem System vornehmen würde, käme erst einmal die Backup-Batterie für den LSI rein.

Gruß J face-smile chem

BTW: Hoffenlich hängt vor der Kiste noch ne USV, oder wäre das auch eine zu "große" Investition gewesen?
dake84
dake84 23.06.2014 um 16:23:14 Uhr
Goto Top
Ja, eine USV ist vorhanden. Ich werde morgen mal vor-Ort gut zureden die BBU nachzurüsten (150€ oder was das Ding kostet ist ja nicht die Welt, das Argument "Bisher läuft es doch auch ohne und hat immer funktioniert" wird aber auch gerne bei kleinen Investitionen hervorgeholt...).
Wenn die Fehlermeldung natürlich nicht bzw. nur berechtigterweise wegen fehlender BBU und Kaltstart ausgegeben wird wäre natürlich die Frage wieso der Server nicht mehr reagiert hat. In den Logs habe ich sonst nichts auffälliges gefunden.
Pjordorf
Pjordorf 23.06.2014 um 16:34:46 Uhr
Goto Top
Hallo,

Zitat von @dake84:
nur berechtigterweise wegen fehlender BBU und Kaltstart
DAS steht in den Ereignissprotokollen deines SBs drin. Garantiert. Und sicher das den dort jemand duch herum wackeln den LSI dazu brachte seinen Dienst vorsichtshalber einzustellen und Lauthals um Hilfe zu schreien?

natürlich die Frage wieso der Server nicht mehr reagiert hat.
Dem solltest du nachgehen, vorallem wenn dein
In den Logs habe ich sonst nichts auffälliges gefunden.
tatsächlich nichts über ein unerwartetes herunterfahren seitens der Putzfrau oder andere Mitarbeiter zu finden ist. Ein Server bleibt nicht ohne Grund stehen. Un ob dein Server dort ein BBU hat oder wenn doch diese eben Defekt ist, wir können es nicht wissen. Dazu fehlen uns Informationen. Aber die Jungs von TAROX könnne in ihren unterlagen sehen und dir sagen ob diese dort eine BBU verbaut haben....

Du solltest ergründen was dort genau passierte und wie es sich genau äußerte.

Und ja, auch eine BBU oder Cache Modul oder ontroller geht schon mal kaputt.

Gruß,
Peter