LSI 9260-4i Controller cache discarded due to memory battery problems
Hallo,
ich bekam gerade einen Anruf einen meiner Kunden: Server nicht erreichbar und piepst erbärmlich. Monitor schwarz. Nach einem Neustart meldet der MegaRAID Manager folgendes:
Controller ID: 0 Controller cache discarded due to memory/battery problems
Zudem einige Einträger in der Ereignisanzeige NTFS Event ID 130, Dateisystemstruktur auf Volume C: repariert.
Vor 1-2 Monaten ist schonmal eine Platte aus dem RAID 5 Verbund geflogen. Die Cold Spare ist dabei ordnungsgemäß eingesprungen. Nachdem ich vor Ort war und die "defekte" Platte einmal aus dem Slot gezogen und wieder eingesteckt habe funktionierte sie wieder einwandfrei. Da ser Server im Frühstücks/Pausenraum des Kunden steht bin ich von "gröberer" Behandlung, Putzfrau oä ausgegangen die am Server gewackelt hat. Mit der Fehlermeldung von Heute könnte es auch natürlich an einem defekten Cache liegen.
Wie würdet ihr vorgehen? Das RAID steht im Manager nun wieder ordnungsgemäß auf Healthy und der Server läuft, ein gutes Gefühl habe ich dabei aber nicht :/
Wenn der Cache des Controllers wirklich hin ist bleibt ja eigentlich nur der Austausch des kompletten Controllers. Alternativ habe ich noch in einer Firmwarebeschreibung für Firmware "12.12.0-0077" von LSI folgendes gefunden:
Bug Fixes and Enhancements:
...
LSIP200125315 (DFCT) CacheOffload : Controller cache discarded due to memory/battery problems.
...
Der Controller läuft noch mit FW 12.11.0-0016.
Würdet ihr eiskalt den Controller austauschen oder ein FW-Update auf dem Controller mit VERMUTLICH defektem Cache durchführen? Oder habt ihr evtl. noch ganz andere Ideen auf die ich nicht komme?
Der Server ist ein TAROX aus dem Jahr 2011 mit SBS 2008.
Gruß
dake
ich bekam gerade einen Anruf einen meiner Kunden: Server nicht erreichbar und piepst erbärmlich. Monitor schwarz. Nach einem Neustart meldet der MegaRAID Manager folgendes:
Controller ID: 0 Controller cache discarded due to memory/battery problems
Zudem einige Einträger in der Ereignisanzeige NTFS Event ID 130, Dateisystemstruktur auf Volume C: repariert.
Vor 1-2 Monaten ist schonmal eine Platte aus dem RAID 5 Verbund geflogen. Die Cold Spare ist dabei ordnungsgemäß eingesprungen. Nachdem ich vor Ort war und die "defekte" Platte einmal aus dem Slot gezogen und wieder eingesteckt habe funktionierte sie wieder einwandfrei. Da ser Server im Frühstücks/Pausenraum des Kunden steht bin ich von "gröberer" Behandlung, Putzfrau oä ausgegangen die am Server gewackelt hat. Mit der Fehlermeldung von Heute könnte es auch natürlich an einem defekten Cache liegen.
Wie würdet ihr vorgehen? Das RAID steht im Manager nun wieder ordnungsgemäß auf Healthy und der Server läuft, ein gutes Gefühl habe ich dabei aber nicht :/
Wenn der Cache des Controllers wirklich hin ist bleibt ja eigentlich nur der Austausch des kompletten Controllers. Alternativ habe ich noch in einer Firmwarebeschreibung für Firmware "12.12.0-0077" von LSI folgendes gefunden:
Bug Fixes and Enhancements:
...
LSIP200125315 (DFCT) CacheOffload : Controller cache discarded due to memory/battery problems.
...
Der Controller läuft noch mit FW 12.11.0-0016.
Würdet ihr eiskalt den Controller austauschen oder ein FW-Update auf dem Controller mit VERMUTLICH defektem Cache durchführen? Oder habt ihr evtl. noch ganz andere Ideen auf die ich nicht komme?
Der Server ist ein TAROX aus dem Jahr 2011 mit SBS 2008.
Gruß
dake
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 241594
Url: https://administrator.de/contentid/241594
Ausgedruckt am: 22.11.2024 um 18:11 Uhr
6 Kommentare
Neuester Kommentar
Hallo,
Könnte es auch die Bakterie sein?
TAROX anrufen
Cache Riegel tasuchen
Firmware updaten
Controller tauschen
Entscheide du. Du kennst deine Verträge mit deinen Kunden und was du denen Versprochen hast und wie du nun zu Handeln hast.
Gruß,
Peter
Könnte es auch die Bakterie sein?
könnte es auch natürlich an einem defekten Cache liegen.
Welche cache? Von der Festplatte? Controllerkarte? RAM? CPU?ein gutes Gefühl habe ich dabei aber nicht :/
Da gibt es was von Ratiopharm....Wenn der Cache des Controllers wirklich hin ist bleibt ja eigentlich nur der Austausch des kompletten Controllers.
Richtig.Würdet ihr eiskalt den Controller austauschen
Auch Lauwarm oder Heiß ist es möglich.oder ein FW-Update auf dem Controller mit VERMUTLICH defektem Cache durchführen?
Du willst das wir DEINE Entscheidung treffen? Du kennst deine Vereinbarung mit deinen Kunden. Du kennst deine Vereinbarung mit deinenn Lieferanten TAROX und was du dort gekauft hast. TAROX mal angerufen? 0231/98 98 0-700 oder http://www.tarox.de/index.php?id=190 (Und ja, die wissen was die tun)Der Server ist ein TAROX aus dem Jahr 2011 mit SBS 2008.
Dann hast du ja noch Garantie....TAROX anrufen
Cache Riegel tasuchen
Firmware updaten
Controller tauschen
Entscheide du. Du kennst deine Verträge mit deinen Kunden und was du denen Versprochen hast und wie du nun zu Handeln hast.
Gruß,
Peter
Moin,
also wenn Du dem Controller das Netz unterm Hintern wegziehst (Hard-Reset), ist die Fehlermeldung klar. Dann hast Du bzw. Dein Kunde bisher mehr Glück als Verstand gehabt, daß das System so lange ohne Unterbrechung gelaufen ist. Bevor ich auch nur noch eine Aktion an dem System vornehmen würde, käme erst einmal die Backup-Batterie für den LSI rein.
Gruß J chem
BTW: Hoffenlich hängt vor der Kiste noch ne USV, oder wäre das auch eine zu "große" Investition gewesen?
also wenn Du dem Controller das Netz unterm Hintern wegziehst (Hard-Reset), ist die Fehlermeldung klar. Dann hast Du bzw. Dein Kunde bisher mehr Glück als Verstand gehabt, daß das System so lange ohne Unterbrechung gelaufen ist. Bevor ich auch nur noch eine Aktion an dem System vornehmen würde, käme erst einmal die Backup-Batterie für den LSI rein.
Gruß J chem
BTW: Hoffenlich hängt vor der Kiste noch ne USV, oder wäre das auch eine zu "große" Investition gewesen?
Hallo,
DAS steht in den Ereignissprotokollen deines SBs drin. Garantiert. Und sicher das den dort jemand duch herum wackeln den LSI dazu brachte seinen Dienst vorsichtshalber einzustellen und Lauthals um Hilfe zu schreien?
Du solltest ergründen was dort genau passierte und wie es sich genau äußerte.
Und ja, auch eine BBU oder Cache Modul oder ontroller geht schon mal kaputt.
Gruß,
Peter
DAS steht in den Ereignissprotokollen deines SBs drin. Garantiert. Und sicher das den dort jemand duch herum wackeln den LSI dazu brachte seinen Dienst vorsichtshalber einzustellen und Lauthals um Hilfe zu schreien?
natürlich die Frage wieso der Server nicht mehr reagiert hat.
Dem solltest du nachgehen, vorallem wenn deinIn den Logs habe ich sonst nichts auffälliges gefunden.
tatsächlich nichts über ein unerwartetes herunterfahren seitens der Putzfrau oder andere Mitarbeiter zu finden ist. Ein Server bleibt nicht ohne Grund stehen. Un ob dein Server dort ein BBU hat oder wenn doch diese eben Defekt ist, wir können es nicht wissen. Dazu fehlen uns Informationen. Aber die Jungs von TAROX könnne in ihren unterlagen sehen und dir sagen ob diese dort eine BBU verbaut haben....Du solltest ergründen was dort genau passierte und wie es sich genau äußerte.
Und ja, auch eine BBU oder Cache Modul oder ontroller geht schon mal kaputt.
Gruß,
Peter