RAID ist nach Aufrüstung sehr langsam
Hallo zusammen,
ich habe ein schier unlösbares Problem, es ist die besagte suche der Nadel im Heuhaufen.
Folgende Konfiguration:
Windows Server 2012r2
Anwendung: SQL 2016
Instanz läuft auf einem anderen Volume.
Problem-Volume:
-RAID 6 oder 5 (beides getestet)
-17 SSD Platten a 1.6 TB
Das System ist kein halbes Jahr alt. (und unterstützt laut Hersteller diese Konfiguration)
Wenn ich jetzt eine von 3 Platten (1.9 TB SSD) zu den bestehenden hinzufüge, läuft das System ohne Probleme.
Sobald eine weitere 1.9 TB SSD hinzugefügt wird, bricht die Leistung des besagten Volumes zusammen bei zwei Platten mehr als 20 SSDs (17x 1.6TB und 3x 1.9TB) selbes Spiel --> Volume ist sehr langsam.
Das bedeutet ich habe Lesezeiten von max. 5ms im Windows Ressourcenmonitor bei laufender Konfig.
Bei der erweiterten Konfig habe ich Lesezeiten von 15000ms.
Hardwareseitig wurde schon alles getauscht, Mainboard, RAID Controller, SAS-Expander, Backplanes von den Bays, Festplatten. Es wurden auch schon die absolut identischen Platten mit 1.6TB getestet.
Im Windows habe ich eine Warnung mit der Event ID 153: Der E/A Vorgang an der logischen Blockadresse ... für den Datenträger ... wurde wiederholt.
Es fühlt sich für mich wie ein Limit an welches hier überschritten wird, allerdings spricht laut Hersteller nichts gegen diese Konfig und die Logs sind Hardwareseitig auch unauffällig.
Microsoft bestätigt auch, dass in den SQL Logs alles sauber ist und hier die Konfig passt.
Ich bin nun restlos überfragt und hoffe, dass hier eventuell jemand ist, dem sowas schon mal untergekommen ist.
ich habe ein schier unlösbares Problem, es ist die besagte suche der Nadel im Heuhaufen.
Folgende Konfiguration:
Windows Server 2012r2
Anwendung: SQL 2016
Instanz läuft auf einem anderen Volume.
Problem-Volume:
-RAID 6 oder 5 (beides getestet)
-17 SSD Platten a 1.6 TB
Das System ist kein halbes Jahr alt. (und unterstützt laut Hersteller diese Konfiguration)
Wenn ich jetzt eine von 3 Platten (1.9 TB SSD) zu den bestehenden hinzufüge, läuft das System ohne Probleme.
Sobald eine weitere 1.9 TB SSD hinzugefügt wird, bricht die Leistung des besagten Volumes zusammen bei zwei Platten mehr als 20 SSDs (17x 1.6TB und 3x 1.9TB) selbes Spiel --> Volume ist sehr langsam.
Das bedeutet ich habe Lesezeiten von max. 5ms im Windows Ressourcenmonitor bei laufender Konfig.
Bei der erweiterten Konfig habe ich Lesezeiten von 15000ms.
Hardwareseitig wurde schon alles getauscht, Mainboard, RAID Controller, SAS-Expander, Backplanes von den Bays, Festplatten. Es wurden auch schon die absolut identischen Platten mit 1.6TB getestet.
Im Windows habe ich eine Warnung mit der Event ID 153: Der E/A Vorgang an der logischen Blockadresse ... für den Datenträger ... wurde wiederholt.
Es fühlt sich für mich wie ein Limit an welches hier überschritten wird, allerdings spricht laut Hersteller nichts gegen diese Konfig und die Logs sind Hardwareseitig auch unauffällig.
Microsoft bestätigt auch, dass in den SQL Logs alles sauber ist und hier die Konfig passt.
Ich bin nun restlos überfragt und hoffe, dass hier eventuell jemand ist, dem sowas schon mal untergekommen ist.
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 389299
Url: https://administrator.de/contentid/389299
Ausgedruckt am: 24.11.2024 um 08:11 Uhr
11 Kommentare
Neuester Kommentar
Hallo,
wie erweiterst Du das RAID? Im laufenden Betrieb, oder über das BIOS des RAID Controllers? Wie lange lässt Du den Server laufen, sprich, ist die Synchronistaiton / der Rebuild abgeschlossen, oder läuft dieser noch?
Wenn Du das RAID erweiterst, ist doch klar, warum die Performance zunächst in den Keller geht. Das RAID muss ich erst synchronisieren, d.h. es findet ein Rebuild stattt, um die Daten und die Parity neu zu erstellen bzw. zu erweitern.
Gruss Penny.
wie erweiterst Du das RAID? Im laufenden Betrieb, oder über das BIOS des RAID Controllers? Wie lange lässt Du den Server laufen, sprich, ist die Synchronistaiton / der Rebuild abgeschlossen, oder läuft dieser noch?
Wenn Du das RAID erweiterst, ist doch klar, warum die Performance zunächst in den Keller geht. Das RAID muss ich erst synchronisieren, d.h. es findet ein Rebuild stattt, um die Daten und die Parity neu zu erstellen bzw. zu erweitern.
Gruss Penny.
Moin...
Wenn ich jetzt eine von 3 Platten (1.9 TB SSD) zu den bestehenden hinzufüge, läuft das System ohne Probleme.
was für eine bestehende Config.. also also Raid Level und anzahl der SSD´s bitte
Sobald eine weitere 1.9 TB SSD hinzugefügt wird, bricht die Leistung des besagten Volumes zusammen bei zwei Platten mehr als 20 SSDs (17x 1.6TB und 3x 1.9TB) selbes Spiel --> Volume ist sehr langsam.
was für eine Raid Controller genau ?
bei einem 4 port SAS Raid Controller kannst du je nach Typ bis zu 256 SSD´s an den Expander hängen . die einzelnen Expander arbeiten in diesem fall wie ein switch, das kostet natürlich leistung...
Das bedeutet ich habe Lesezeiten von max. 5ms im Windows Ressourcenmonitor bei laufender Konfig.
Bei der erweiterten Konfig habe ich Lesezeiten von 15000ms.
uhhh...
Hardwareseitig wurde schon alles getauscht, Mainboard, RAID Controller, SAS-Expander, Backplanes von den Bays, Festplatten. Es wurden auch schon die absolut identischen Platten mit 1.6TB getestet.
Im Windows habe ich eine Warnung mit der Event ID 153: Der E/A Vorgang an der logischen Blockadresse ... für den Datenträger ... wurde wiederholt.
hm...
Es fühlt sich für mich wie ein Limit an welches hier überschritten wird, allerdings spricht laut Hersteller nichts gegen diese Konfig und die Logs sind Hardwareseitig auch unauffällig.
Microsoft bestätigt auch, dass in den SQL Logs alles sauber ist und hier die Konfig passt.
Ich bin nun restlos überfragt und hoffe, dass hier eventuell jemand ist, dem sowas schon mal untergekommen ist.
ich würde eher dazu neigen ein Raid 10 für den SQL anzulegen....
Frank
Zitat von @Backfolie:
Hallo zusammen,
ich habe ein schier unlösbares Problem, es ist die besagte suche der Nadel im Heuhaufen.
Folgende Konfiguration:
Windows Server 2012r2
Anwendung: SQL 2016
Instanz läuft auf einem anderen Volume.
Problem-Volume:
-RAID 6 oder 5 (beides getestet)
was für ein RaidController? BBU ? WRITE CACHE STATUS?Hallo zusammen,
ich habe ein schier unlösbares Problem, es ist die besagte suche der Nadel im Heuhaufen.
Folgende Konfiguration:
Windows Server 2012r2
Anwendung: SQL 2016
Instanz läuft auf einem anderen Volume.
Problem-Volume:
-RAID 6 oder 5 (beides getestet)
-17 SSD Platten a 1.6 TB
was für SSD´s genau... TypDas System ist kein halbes Jahr alt. (und unterstützt laut Hersteller diese Konfiguration)
und der Hersteller wäre..?Wenn ich jetzt eine von 3 Platten (1.9 TB SSD) zu den bestehenden hinzufüge, läuft das System ohne Probleme.
Sobald eine weitere 1.9 TB SSD hinzugefügt wird, bricht die Leistung des besagten Volumes zusammen bei zwei Platten mehr als 20 SSDs (17x 1.6TB und 3x 1.9TB) selbes Spiel --> Volume ist sehr langsam.
bei einem 4 port SAS Raid Controller kannst du je nach Typ bis zu 256 SSD´s an den Expander hängen . die einzelnen Expander arbeiten in diesem fall wie ein switch, das kostet natürlich leistung...
Das bedeutet ich habe Lesezeiten von max. 5ms im Windows Ressourcenmonitor bei laufender Konfig.
Bei der erweiterten Konfig habe ich Lesezeiten von 15000ms.
Hardwareseitig wurde schon alles getauscht, Mainboard, RAID Controller, SAS-Expander, Backplanes von den Bays, Festplatten. Es wurden auch schon die absolut identischen Platten mit 1.6TB getestet.
Im Windows habe ich eine Warnung mit der Event ID 153: Der E/A Vorgang an der logischen Blockadresse ... für den Datenträger ... wurde wiederholt.
Es fühlt sich für mich wie ein Limit an welches hier überschritten wird, allerdings spricht laut Hersteller nichts gegen diese Konfig und die Logs sind Hardwareseitig auch unauffällig.
Microsoft bestätigt auch, dass in den SQL Logs alles sauber ist und hier die Konfig passt.
Ich bin nun restlos überfragt und hoffe, dass hier eventuell jemand ist, dem sowas schon mal untergekommen ist.
Frank
Zitat von @Spirit-of-Eli:
Abgesehen davon das wir nicht wissen was eingesetzt wird.
Ich werde mal ein Kollegen fragen was maximal Sinn macht. Ich würde aber an der Stelle ohne hin zum RAID 6 raten wenn nur die beiden zur Auswahl stehen.
ja wenn... warum sollte kein raid 10 drin sein?Abgesehen davon das wir nicht wissen was eingesetzt wird.
Ich werde mal ein Kollegen fragen was maximal Sinn macht. Ich würde aber an der Stelle ohne hin zum RAID 6 raten wenn nur die beiden zur Auswahl stehen.
Ich bin mir ziemlich sicher, das wir in dem Fall mehrere Arrays erstellen würden.
paritätsblocks voraussetzt. bei 3-6 HDD´s an einem 4 Kanal Controller ist das kein problem, mach das mal aber mit 20 HDD´s / SSD´s an einem SAS expander..
so.. Prost
Frank
Zitat von @Vision2015:
Ich bin mir ziemlich sicher, das wir in dem Fall mehrere Arrays erstellen würden.
hm.. kommt auf den Controller an! wenn du mit Raid 5/6 und 20 platten am basteln bist, brauchst du schon einiges an CPU zeit um die Pritäten zu berechnen... der overhead an schreiboperationen ist nicht zu vernachlässigen, da das schreiben eines datenblocks die volle neuberechnung des zugehörigen
paritätsblocks voraussetzt. bei 3-6 HDD´s an einem 4 Kanal Controller ist das kein problem, mach das mal aber mit 20 HDD´s / SSD´s an einem SAS expander..
so.. Prost
Frank
Zitat von @Spirit-of-Eli:
Abgesehen davon das wir nicht wissen was eingesetzt wird.
Ich werde mal ein Kollegen fragen was maximal Sinn macht. Ich würde aber an der Stelle ohne hin zum RAID 6 raten wenn nur die beiden zur Auswahl stehen.
ja wenn... warum sollte kein raid 10 drin sein?Abgesehen davon das wir nicht wissen was eingesetzt wird.
Ich werde mal ein Kollegen fragen was maximal Sinn macht. Ich würde aber an der Stelle ohne hin zum RAID 6 raten wenn nur die beiden zur Auswahl stehen.
Ich bin mir ziemlich sicher, das wir in dem Fall mehrere Arrays erstellen würden.
paritätsblocks voraussetzt. bei 3-6 HDD´s an einem 4 Kanal Controller ist das kein problem, mach das mal aber mit 20 HDD´s / SSD´s an einem SAS expander..
so.. Prost
Frank
Darauf wollt ich ja hinaus, ich habe nur zu wenig mit der Planung solcher Systeme zu tun.
Für mich machen mehrere Arrays nach wie vor mehr Sinn.
Moin...
Entweder ist es ein Fehler in der Software, oder es funktioniert für große Datenbanken in der Menge wie wir sie einsetzen einfach nicht. Auf jeden Fall hab ich das Feature ausgeschaltet und den Controller Cache manuell konfiguriert und schon geht es.
ich denke deine SSD´s waren zu groß...
bei LSI RaidController heißt das CacheCade Pro 2...
Die Arraygröße war auf jeden Fall nicht das Problem und eher ein Zufall, oder eine Limitierung in der Funktion des Features smart path. Das konnte ich aber nirgends rauslesen. Smart path sollte des weiteren laut HPE eigentlich auch so schlau sein und bei Fehlern auf den normalen weg über den Cache gehen, das konnte ich aber nicht beobachten.
Grüße
na dann stell mal auf gelöst
Frank
Zitat von @Backfolie:
Hallo zusammen,
der Kommentar von Vision2015 hat mich auf den richtigen Weg geleitet. tatsächlich nutzt der RAID Controller von HPE ein Funktion namens smart path, im Prinzip macht sich die Funktion, die Schnelligkeit der SSDs zu nutze und spart sich den Weg über den Controllereigenen Cache.
das ist richtig, funktioniert aber nur mit SSD`s bis 256GBHallo zusammen,
der Kommentar von Vision2015 hat mich auf den richtigen Weg geleitet. tatsächlich nutzt der RAID Controller von HPE ein Funktion namens smart path, im Prinzip macht sich die Funktion, die Schnelligkeit der SSDs zu nutze und spart sich den Weg über den Controllereigenen Cache.
Entweder ist es ein Fehler in der Software, oder es funktioniert für große Datenbanken in der Menge wie wir sie einsetzen einfach nicht. Auf jeden Fall hab ich das Feature ausgeschaltet und den Controller Cache manuell konfiguriert und schon geht es.
bei LSI RaidController heißt das CacheCade Pro 2...
Die Arraygröße war auf jeden Fall nicht das Problem und eher ein Zufall, oder eine Limitierung in der Funktion des Features smart path. Das konnte ich aber nirgends rauslesen. Smart path sollte des weiteren laut HPE eigentlich auch so schlau sein und bei Fehlern auf den normalen weg über den Cache gehen, das konnte ich aber nicht beobachten.
Grüße
Frank