goscho
Goto Top

HPE Proliant ML350P Gen8 Probleme mit Zugriff auf Raid-Volumes

Hallo Leute,

das Problemgerät:

  • HPE ML350P G8
  • Windows Server 2012R2 HyperV-Host
  • 8 x 300 GB 10K SAS HDD (1 x Raid1, 2 x Raid 5) am internen Smart Array P420i

Auf dem Server, der nach 5,5 Jahren gerade mal ein halbes Jahr außerhalb der Garantie ist, trat folgendes Problem auf:

Bestimmte VMs reagierte sehr langsam und der Zugriff auf das Host-System war immer wieder kurzzeitig nicht möglich.
Dann wurden die Lüfter laut, wie bei einem HDD-Ausfall und ILO meldete einen kritischen Fehler im Storage.
Nach wenigen Minuten war der Fehler von selbst weg und das System reagierte für eine unbestimmte Zeit normal.
Datensicherungen konnten nicht mehr gemacht werden.

Folgende Fehler gab es im Windows Ereignislog:

  • Ein Zurücksetzen auf Gerät "\Device\RaidPort0" wurde ausgegeben.
  • Ereignis ID: 129
  • Quelle: HpCISSs2

gefolgt von:

  • Der E/A-Vorgang an der logischen Blockadresse "0x111d518" für den Datenträger "1" (PDO-Name: \Device\0000004b) wurde wiederholt.
  • Ereignis-ID: 153
  • Quelle: disk

Eine mit dem HP Insightmanager erstellte Diagnose brachte keine Fehler bei den Laufwerken. Alles schick und grün.
Im Smartstorage Administrator wurde auch nichts gemeldet. Alles sauber.

Dort habe ich dann einen Adu-Report erstellt (den innerhalb der Garantie normalerweise der HPE-Support zugeschickt bekommt).
Bei einer Festplatte fiel mir in diesem Bericht auf, dass es einige Lesefehler gab (Read Errors Retry Recovered war ungleich 0x00000000).

Nach dem Tausch dieser HDD und dem anschließenden Rebuild des Volumes ist alles wieder in Ordnung.

Geholfen hat mir letztendlich auch folgender Blogeintrag:
Reset to device, \Device\RaidPort0, was issued.

Vielleicht hilft dieser Beitrag ja, wenn jemand in einer ähnlichen Situation ist.

Content-ID: 487534

Url: https://administrator.de/contentid/487534

Ausgedruckt am: 21.11.2024 um 15:11 Uhr

Penny.Cilin
Penny.Cilin 22.08.2019 um 15:15:49 Uhr
Goto Top
@goscho

danke für den Tipp. Ich denke das man diesen sinngemäß auch auf anderen System / RAID Controller übernehmen kann.
Je nach Hersteller bzw. Typ ist das Überprüfungs-Tool ein anderes.

Bei IBM / Lenovo Server ist das BOMC (Bootable Online Media Creator).
Wie das bei Dell bzw. Fujitsu Server heißt, weiß dich derzeit nicht.

Gruss Penny.
slemke
slemke 27.09.2020 um 18:26:19 Uhr
Goto Top
Hallo,

vielen Dank - ich habe gerade aktuell das gleiche Problem und wahrscheinlich wird es bei mir auch eine Platte sein (zumindest sehen die "Other Timeouts" danach aus). Du hast mit tatsächlich mit deinem Beitrag sehr geholfen, Dankeschön!

Sebastian