backfolie
Goto Top

RAID ist nach Aufrüstung sehr langsam

Hallo zusammen,

ich habe ein schier unlösbares Problem, es ist die besagte suche der Nadel im Heuhaufen.

Folgende Konfiguration:

Windows Server 2012r2
Anwendung: SQL 2016
Instanz läuft auf einem anderen Volume.

Problem-Volume:
-RAID 6 oder 5 (beides getestet)
-17 SSD Platten a 1.6 TB
Das System ist kein halbes Jahr alt. (und unterstützt laut Hersteller diese Konfiguration)

Wenn ich jetzt eine von 3 Platten (1.9 TB SSD) zu den bestehenden hinzufüge, läuft das System ohne Probleme.

Sobald eine weitere 1.9 TB SSD hinzugefügt wird, bricht die Leistung des besagten Volumes zusammen bei zwei Platten mehr als 20 SSDs (17x 1.6TB und 3x 1.9TB) selbes Spiel --> Volume ist sehr langsam.

Das bedeutet ich habe Lesezeiten von max. 5ms im Windows Ressourcenmonitor bei laufender Konfig.
Bei der erweiterten Konfig habe ich Lesezeiten von 15000ms.


Hardwareseitig wurde schon alles getauscht, Mainboard, RAID Controller, SAS-Expander, Backplanes von den Bays, Festplatten. Es wurden auch schon die absolut identischen Platten mit 1.6TB getestet.

Im Windows habe ich eine Warnung mit der Event ID 153: Der E/A Vorgang an der logischen Blockadresse ... für den Datenträger ... wurde wiederholt.


Es fühlt sich für mich wie ein Limit an welches hier überschritten wird, allerdings spricht laut Hersteller nichts gegen diese Konfig und die Logs sind Hardwareseitig auch unauffällig.
Microsoft bestätigt auch, dass in den SQL Logs alles sauber ist und hier die Konfig passt.


Ich bin nun restlos überfragt und hoffe, dass hier eventuell jemand ist, dem sowas schon mal untergekommen ist.

Content-ID: 389299

Url: https://administrator.de/contentid/389299

Ausgedruckt am: 24.11.2024 um 08:11 Uhr

Spirit-of-Eli
Spirit-of-Eli 12.10.2018 um 16:17:20 Uhr
Goto Top
Moin,

bei 20 Platten würde ich kein RAID 5 oder 6 mehr machen. Da macht es mehr sind diese aufzuteilen.

Ob das tatsächlich Auswirkungen haben Jan weiß ich gerade nicht.

Gruß
Spirit
Penny.Cilin
Penny.Cilin 12.10.2018 um 16:32:57 Uhr
Goto Top
Hallo,

wie erweiterst Du das RAID? Im laufenden Betrieb, oder über das BIOS des RAID Controllers? Wie lange lässt Du den Server laufen, sprich, ist die Synchronistaiton / der Rebuild abgeschlossen, oder läuft dieser noch?
Wenn Du das RAID erweiterst, ist doch klar, warum die Performance zunächst in den Keller geht. Das RAID muss ich erst synchronisieren, d.h. es findet ein Rebuild stattt, um die Daten und die Parity neu zu erstellen bzw. zu erweitern.

Gruss Penny.
Backfolie
Backfolie 12.10.2018 aktualisiert um 16:56:44 Uhr
Goto Top
Hi,

danke für deine Antwort.

Natürlich ist das RAID dann neu gebildet und die Paritätsbildung ist erfolgreich abgeschlossen. Erneut getestet wurde natürlich ca. einen Tag später wenn der Prozess abgeschlossen ist/war.
Erweitert wurde es sowohl im laufenden Betrieb als auch über das Intelligent Provisioning im BIOS, hatte beide male keinen Erfolg gebracht.

@Spirit of Eli, was wäre denn deine Empfehlung? Es kann ja aber auch nicht sein, dass diese Plattenanzahl das RAID so in die Knie zwingt. Mir wäre da auf jeden Fall keine Grenze bekannt.
Ob es nicht irgendwie noch besser ginge steht auf einem anderen Blatt Papier. face-smile
Was nicht bedeutet, dass ich nicht für Empfehlungen offen bin.

Grüße
Vision2015
Lösung Vision2015 12.10.2018 um 20:44:39 Uhr
Goto Top
Moin...
Zitat von @Backfolie:

Hallo zusammen,

ich habe ein schier unlösbares Problem, es ist die besagte suche der Nadel im Heuhaufen.

Folgende Konfiguration:

Windows Server 2012r2
Anwendung: SQL 2016
Instanz läuft auf einem anderen Volume.

Problem-Volume:
-RAID 6 oder 5 (beides getestet)
was für ein RaidController? BBU ? WRITE CACHE STATUS?
-17 SSD Platten a 1.6 TB
was für SSD´s genau... Typ
Das System ist kein halbes Jahr alt. (und unterstützt laut Hersteller diese Konfiguration)
und der Hersteller wäre..?

Wenn ich jetzt eine von 3 Platten (1.9 TB SSD) zu den bestehenden hinzufüge, läuft das System ohne Probleme.
was für eine bestehende Config.. also also Raid Level und anzahl der SSD´s bitte

Sobald eine weitere 1.9 TB SSD hinzugefügt wird, bricht die Leistung des besagten Volumes zusammen bei zwei Platten mehr als 20 SSDs (17x 1.6TB und 3x 1.9TB) selbes Spiel --> Volume ist sehr langsam.
was für eine Raid Controller genau ?
bei einem 4 port SAS Raid Controller kannst du je nach Typ bis zu 256 SSD´s an den Expander hängen . die einzelnen Expander arbeiten in diesem fall wie ein switch, das kostet natürlich leistung...


Das bedeutet ich habe Lesezeiten von max. 5ms im Windows Ressourcenmonitor bei laufender Konfig.
Bei der erweiterten Konfig habe ich Lesezeiten von 15000ms.
uhhh...


Hardwareseitig wurde schon alles getauscht, Mainboard, RAID Controller, SAS-Expander, Backplanes von den Bays, Festplatten. Es wurden auch schon die absolut identischen Platten mit 1.6TB getestet.

Im Windows habe ich eine Warnung mit der Event ID 153: Der E/A Vorgang an der logischen Blockadresse ... für den Datenträger ... wurde wiederholt.
hm...


Es fühlt sich für mich wie ein Limit an welches hier überschritten wird, allerdings spricht laut Hersteller nichts gegen diese Konfig und die Logs sind Hardwareseitig auch unauffällig.
Microsoft bestätigt auch, dass in den SQL Logs alles sauber ist und hier die Konfig passt.


Ich bin nun restlos überfragt und hoffe, dass hier eventuell jemand ist, dem sowas schon mal untergekommen ist.
ich würde eher dazu neigen ein Raid 10 für den SQL anzulegen....
Frank
Spirit-of-Eli
Spirit-of-Eli 12.10.2018 aktualisiert um 21:06:38 Uhr
Goto Top
Abgesehen davon das wir nicht wissen was eingesetzt wird.
Ich werde mal ein Kollegen fragen was maximal Sinn macht. Ich würde aber an der Stelle ohne hin zum RAID 6 raten wenn nur die beiden zur Auswahl stehen.

Ich bin mir ziemlich sicher, das wir in dem Fall mehrere Arrays erstellen würden.
Vision2015
Vision2015 12.10.2018 um 21:23:16 Uhr
Goto Top
Zitat von @Spirit-of-Eli:

Abgesehen davon das wir nicht wissen was eingesetzt wird.
Ich werde mal ein Kollegen fragen was maximal Sinn macht. Ich würde aber an der Stelle ohne hin zum RAID 6 raten wenn nur die beiden zur Auswahl stehen.
ja wenn... warum sollte kein raid 10 drin sein?

Ich bin mir ziemlich sicher, das wir in dem Fall mehrere Arrays erstellen würden.
hm.. kommt auf den Controller an! wenn du mit Raid 5/6 und 20 platten am basteln bist, brauchst du schon einiges an CPU zeit um die Pritäten zu berechnen... der overhead an schreiboperationen ist nicht zu vernachlässigen, da das schreiben eines datenblocks die volle neuberechnung des zugehörigen
paritätsblocks voraussetzt. bei 3-6 HDD´s an einem 4 Kanal Controller ist das kein problem, mach das mal aber mit 20 HDD´s / SSD´s an einem SAS expander..
so.. Prost

Frank
Spirit-of-Eli
Spirit-of-Eli 12.10.2018 um 21:44:19 Uhr
Goto Top
Zitat von @Vision2015:

Zitat von @Spirit-of-Eli:

Abgesehen davon das wir nicht wissen was eingesetzt wird.
Ich werde mal ein Kollegen fragen was maximal Sinn macht. Ich würde aber an der Stelle ohne hin zum RAID 6 raten wenn nur die beiden zur Auswahl stehen.
ja wenn... warum sollte kein raid 10 drin sein?

Ich bin mir ziemlich sicher, das wir in dem Fall mehrere Arrays erstellen würden.
hm.. kommt auf den Controller an! wenn du mit Raid 5/6 und 20 platten am basteln bist, brauchst du schon einiges an CPU zeit um die Pritäten zu berechnen... der overhead an schreiboperationen ist nicht zu vernachlässigen, da das schreiben eines datenblocks die volle neuberechnung des zugehörigen
paritätsblocks voraussetzt. bei 3-6 HDD´s an einem 4 Kanal Controller ist das kein problem, mach das mal aber mit 20 HDD´s / SSD´s an einem SAS expander..
so.. Prost

Frank

Darauf wollt ich ja hinaus, ich habe nur zu wenig mit der Planung solcher Systeme zu tun.
Für mich machen mehrere Arrays nach wie vor mehr Sinn.
Backfolie
Backfolie 15.10.2018 aktualisiert um 16:48:22 Uhr
Goto Top
Auf jeden Fall ein guter Tipp mit dem Array, wird gleich getestet. face-smile
Backfolie
Backfolie 17.10.2018 um 09:03:57 Uhr
Goto Top
Hallo zusammen,

der Kommentar von Vision2015 hat mich auf den richtigen Weg geleitet. tatsächlich nutzt der RAID Controller von HPE ein Funktion namens smart path, im Prinzip macht sich die Funktion, die Schnelligkeit der SSDs zu nutze und spart sich den Weg über den Controllereigenen Cache.

Entweder ist es ein Fehler in der Software, oder es funktioniert für große Datenbanken in der Menge wie wir sie einsetzen einfach nicht. Auf jeden Fall hab ich das Feature ausgeschaltet und den Controller Cache manuell konfiguriert und schon geht es.

Die Arraygröße war auf jeden Fall nicht das Problem und eher ein Zufall, oder eine Limitierung in der Funktion des Features smart path. Das konnte ich aber nirgends rauslesen. Smart path sollte des weiteren laut HPE eigentlich auch so schlau sein und bei Fehlern auf den normalen weg über den Cache gehen, das konnte ich aber nicht beobachten.

Grüße
Vision2015
Vision2015 17.10.2018 um 12:42:06 Uhr
Goto Top
Moin...
Zitat von @Backfolie:

Hallo zusammen,

der Kommentar von Vision2015 hat mich auf den richtigen Weg geleitet. tatsächlich nutzt der RAID Controller von HPE ein Funktion namens smart path, im Prinzip macht sich die Funktion, die Schnelligkeit der SSDs zu nutze und spart sich den Weg über den Controllereigenen Cache.
das ist richtig, funktioniert aber nur mit SSD`s bis 256GB

Entweder ist es ein Fehler in der Software, oder es funktioniert für große Datenbanken in der Menge wie wir sie einsetzen einfach nicht. Auf jeden Fall hab ich das Feature ausgeschaltet und den Controller Cache manuell konfiguriert und schon geht es.
ich denke deine SSD´s waren zu groß...
bei LSI RaidController heißt das CacheCade Pro 2...

Die Arraygröße war auf jeden Fall nicht das Problem und eher ein Zufall, oder eine Limitierung in der Funktion des Features smart path. Das konnte ich aber nirgends rauslesen. Smart path sollte des weiteren laut HPE eigentlich auch so schlau sein und bei Fehlern auf den normalen weg über den Cache gehen, das konnte ich aber nicht beobachten.

Grüße
na dann stell mal auf gelöst

Frank
Backfolie
Backfolie 17.10.2018 um 15:21:37 Uhr
Goto Top
Interessanterweise ging es ja mit 15x 1.6TB SSDs und der einen 1.9B SSD. Ab der 17ten Platte fingen die Fehler dann an. Also ist es entweder die Plattenanzahl, oder der zu verwaltende Speicherplatz mit dem das Konstrukt dann nicht mehr klar gekommen ist.

Gerade in der Plattenanzahl kann der Controller laut Whitepaper 16 Stück verwalten, die Anzahl wird ja aber durch den SAS-Expander erweitert. Eventuell versucht er dann aber über Smart Path die Platten direkt über seine 16 Lanes anzusprechen und fällt dann ab der 17ten auf die Nase.

(Nur eine Theorie)

Grüße