siriusxt
Goto Top

RAID-Problem mit Intel Matrix Storage

Hallo zusammen,

ich habe hier ein System mit einem Intel-Matrix-Raid-Controller von meinem Vorgänger übernommen, welches von Zeit zu Zeit die Platten als fehlerhaft markiert und das Volume herunterstuft.

Es handelt sich um einen SBS2008er als 64Bit Variante der für 55 Personalwesen-DB´s, 25 FibU-DB´s, Exchange etc. zuständig ist. Die Maschine ist durchschnittlich ausgelastet nur zu den Spitzenzeiten des Monatswechsels wird mehr Kapazität gefordert.

In der Maschine ist ein Intel-Matrix-Raid-Controller auf dem Mainbord verbaut. Die Software dazu (Intel Matrix Storage Console) hat den Stand der Version 8.9.0.1023. Das System wurde schon von RAID5 auf RAID1 umgestellt um dies als Fehlerquelle auszuschließen. Die verbauten Festplatten sind momentan 2x Western Digital WD5002ABYS 16MB/ Raid Edt.(HDSATA2 0500 7200). Beim RAID5 waren es 4x Western Digital WD740HLFS VelociRaptor.

Nun zu dem Problem:
Von Zeit zu Zeit wirft der RAID-Controller Festplatten aus dem System. Dies führt dazu, das das System extrem instabil wird. Wenn man daraufhin die Intel Matrix Storage Console öffnet und die fehlerhafte Festplatte als "normal" markieren will, um das Volume zum Neuaufbau zu überreden, wird das ganze noch instabiler und meist hilft nur noch ein Neustart. Danach darf man das Volume wiederherstellen, was ja bekanntlich einige Zeit in Anspruch nimmt und nicht wirklich witzig ist wenn das der einzige Server ist, auf dem alle (auch zeitkritische) Anwendungen laufen.

Zeitlich ist kein Zusammenhang mit wiederkehrenden Events festzustellen. Auch den Aufstellort der Maschine hab ich schon gewechselt, bzgl Temperaturproblemen etc.

Meiner Meinung nach müsste ein neuer Hardware-Raid-Controller eingebaut werden.

Was kann man ändern, damit das System zuverlässig läuft?
Neuen RAID-Controller beschaffen? Welcher?
Lieferanten des Systems auf Gewährleidstung etc. ansprechen? (Gerät ist ca. 1,5 Jhare alt)

Zur Zeit läuft das System ohne RAID-Controller und das will ich mir nicht mehr lange antun!

mfg
Frank

Content-ID: 145966

Url: https://administrator.de/contentid/145966

Ausgedruckt am: 26.11.2024 um 21:11 Uhr

Karo
Karo 30.06.2010 um 12:36:22 Uhr
Goto Top
Hi,
ich habe sowas mit Seagate HD's laufen. Mit dem 8.9.x Treibern hatte ich diese Aussetzer auch häufiger. Momentan 9.6.0.1014, damit ist es wesentlich stabiler geworden.
Wie sieht es mit den Einstellungen des HD Cache und Volume Cache aus?
schosch
schosch 30.06.2010 um 13:01:12 Uhr
Goto Top
Läuft auf den Festplatten die aktuelle Firmware?
Hatte schonmal Probleme mit einer 500er RE2 (auch RAID-Edition) von WD - die hat sich am Ende ganz aus nem RAID 0 (ich weiß: selber schuld) ausgeklinkt, läuft aber für sich allein geprüft fehlerfrei. Laut Hersteller ist das ein Firmwareproblem.
thaenhusen
thaenhusen 30.06.2010 um 13:37:46 Uhr
Goto Top
Moin.

Das Treiberproblem, dass Karo beschrieben hat kann ich bestätigen...
Mit der neuen Version von Intel läuft dass dann stabil.

Ansonsten kannst Du auch einen RAID-Controller nutzen, da liegt es dann
am Geldbeutel was Du nimmst.

Den 3WARE 9650SE Raidcontroller für PCI-ex-1 kann ich Dir da sehr empfehlen.

HTH
MK
siriusXT
siriusXT 30.06.2010 um 14:05:40 Uhr
Goto Top
Ok, Danke erstmal. Dann werde ich mich nachher mal aufmachen und den Treiber aktualisieren. Hoffentlich hilft es. Ist ganz schön nervig der GL immer etwas erklären zu müssen, von dem Sie keine Ahnung hat.

Gruß
Frank
siriusXT
siriusXT 30.06.2010 um 14:06:27 Uhr
Goto Top
Ja, Firmware ist aktuell.

Gruß
Frank
wiesi200
wiesi200 30.06.2010 um 20:41:22 Uhr
Goto Top
Ich würd mal sagen die Hardware auswahl ist für nen Server seeehr gewagt.

Intel Matrix Storage und Raptor Platten haben eigentlich nicht's in nem Server zu suchen.
Probleme könnten es viele sein. Backplane, Festplatten, Controller, Kabel.

Ach hast du sicher 80 Datenbanken? Bei wie vielen Usern?
siriusXT
siriusXT 01.07.2010 um 10:49:52 Uhr
Goto Top
Hallo wiesi200,

ja das mit der Hardwareauswahl sehe ich auch so, deshalb ist auch schon ein HP ProliantML350 G6 so gut wie bestellt. Da kommt dann VMware ESX drauf und dann wird das System dahin geschoben und fertig. Die bestehende Maschine wird dann ebenfalls mit einem neuen HW RAID-Controller ausgestattet und bekommt auch Vmware drauf.

Die Raptor Platten sind, wie oben geschrieben, nicht mehr verbaut, die hatte mein Vorgänger zu einem RAID5 Volume zusammen gestrickt. Jetzt sind die WD5002ABYS drin im RAID1 Volume. Das schützt aber anscheinend nicht vor den Plattenausfällen des Intel-On-Board-Controllers. Kabel hab ich auch schon getauscht.

Ja ich habe sicher 80 Datenbanken hier liegen, die von ca. 20 Usern bearbeitet werden. Die 55 DB´s sollen dann auf dem neuen Server laufen und die 25 DB´s werden weiterhin auf der, dann unter VMware laufenden, bestehenden Maschine bereitgestellt.

Gruß
Frank
wiesi200
wiesi200 01.07.2010 um 11:52:18 Uhr
Goto Top
Da würd ich dann min empfehlen: 12Gb Arbeitspeicher. 4 Platten Raid 10 für BS und Transaktionslog's und 6 Platten Raid 10 für die Datenbanken selbst.
siriusXT
siriusXT 01.07.2010 um 13:39:50 Uhr
Goto Top
Ok, das mit den 12 GB klingt gut in Hinsicht auf weitere Server oder andere Maschinen, die auf der Hardware laufen könnten. Momentan sind 8GB angedacht.

Was die Platten Config angeht, werden es wohl 3x 300GB SAS im Raid5 (hotplug-fähig) werden, da darauf ja dann der Server virtualisiert wird, sollte das zunächst mal reichen. Der Server selbst merkt ja nichts von dem Plattenausfall, das wird ja dann über VMware geregelt.

Gruß Frank

Zum eigentlichen Thema: Momentan läuft das Intel-Teil noch. Mal schauen ob es wieder aussteigt obwohl die Treiber aktualisiert wurden.
wiesi200
wiesi200 01.07.2010 um 15:12:05 Uhr
Goto Top
Ich hab da zwei Sachen Datenbanken nicht virtualisiern (außer du hast nen richtig dicken Datenspeicher dahinter) und kein Raid 5 vor allem nicht bei nur 3 Platten leistungstechnisch sind beide Sachen einfach nur ne katastrophe.
siriusXT
siriusXT 20.07.2010 um 09:55:09 Uhr
Goto Top
Danke erstmal an Alle,

das Problem scheint zunächst einmal gelöst, da wir nun einen "echten" Raid-Contr. eingebaut haben und das Problem im Moment nicht auftritt. Ich behalte das mal weiterhin im Auge und werde hier weiter berichten.

Gruß Frank