kalma73
Goto Top

Performance Probleme bei MSA P2000

Hallo,

seid ein paar Wochen haben wir auf unsere MSA P2000 sehr starke Performance Probleme.

Dies äußert sich in langsamen Zugriffen auf unserem Fileserver und langsame Zugriffszeiten in unserem ERP System.
Sowie beim Löschen von Snapshots die Veeam für seine Backups benötigt und beim manuell erstellen und löschen von Snapshots die ich vor jedem Microsoft Patchday mache.

Auf Nachfrage bei VMware, wurde festgestellt das die I/O Latenz Zeiten auf unserer MSA P2000 sehr stark schwanken, zwischen 130 und dann plötzlich nur noch 36.

Habe aus diesem Grund auch mit VeeamONE eine Überwachung der MSA P2000 eingerichtet und dort werden jetzt Fehler per E-Mail verschickt.


Object: MSAP2000
Object Type: Datastore
Location: 192.x.x.x / Datencenter-Oddesse / Datastores
Host: 192.x.x.x
IP:
Guest OS:
Guest Host Name:
Description:
Business View group: Storage Type / Shared;
Status: Warning
Previous Status: Reset/resolved
Alarm: Datastore read latency
Time: 20.12.2016 04:57:31
Details: "Disk/Datastore: Datastore Read Latency" (126.0 Milliseconds) is above a defined threshold (100.0 Milliseconds)

KB article
Summary: Datastore latency has exceeded the threshold of total read latency
Cause: Response times for read operations for this datastore in the last interval has exceeded the configured threshold
Resolution: View datastore read latency for historical information. If your workload is disk-intensive, consider offloading some of the most IO-intensive VMs to other datastores. Check out hosts HBA performance that are connected to this datastore
External:
Custom:


Object: MSAP2000
Object Type: Datastore
Location: 192.x.x.x / Datencenter-Oddesse / Datastores
Host: 192.x.x.x
IP:
Guest OS:
Guest Host Name:
Description:
Business View group: Storage Type / Shared;
Status: Reset/resolved
Previous Status: Warning
Alarm: Datastore read latency
Time: 20.12.2016 05:12:00
Details: All alarm metrics are back to normal

KB article
Summary: Datastore latency has exceeded the threshold of total read latency
Cause: Response times for read operations for this datastore in the last interval has exceeded the configured threshold
Resolution: View datastore read latency for historical information. If your workload is disk-intensive, consider offloading some of the most IO-intensive VMs to other datastores. Check out hosts HBA performance that are connected to this datastore


Wie kann es sein, das jetzt plötzlich die Performance so einbricht?

Haben wir einen HDD oder Controller defekt?

Wie kann das Problem behoben werden?

Etwas zur IT Landschaft:

17 VMs laufen auf mehreren HP ProLiants
VMWare 5.5 Update 3

Über Hilfe wäre ich erfreut.

Dank im Voraus

Kalma

Content-Key: 324320

Url: https://administrator.de/contentid/324320

Ausgedruckt am: 28.03.2024 um 21:03 Uhr

Mitglied: Dr.EVIL
Dr.EVIL 20.12.2016 um 11:19:38 Uhr
Goto Top
Versuche doch mal den Ursachen auf den Grund zu gehen:
Was "sagt" die MSA? (Fehlerspeicher, Performance-Log)
Ist sie technisch okay? Also ist bspw. das Write-Back Cache eingeschaltet (Deaktiviert sich, wenn z.B. ein FBWC Capacitor defekt ist)
Mitglied: ukulele-7
ukulele-7 20.12.2016 um 11:30:56 Uhr
Goto Top
Wie ist die P2000 angebunden, per iSCSI oder FibrChannel?

Sind die Festplatten bei schlechter Performance wirklich aktiv (im Zweifelsfall LED prüfen) oder ist eventuell nur eine einzelne Platte das Problem?
Mitglied: Kalma73
Kalma73 20.12.2016 aktualisiert um 13:03:38 Uhr
Goto Top
Also in Log Files der P2000 kann ich keine Fehler festellen.

FBWC Capacitor -> ich weiss nicht ob sowas verbaut ist und wie soll ich das prüfen???

P2000 ist über SAS Kabel an den VM Servern angebunden.

Die LEDs der HDDs blinken alle grün vor sich hin und in LOGs ist nicht eingetragen das bestimmte HDDs defekte Sektoren oder ähnliches haben.

Das Problem ist erst direkt vor ca. 14 Tagen sichtbar geworden. Als ich einen Snapshot von einer VM löschen wollte und dieser 12 Stunden gebraucht hat um gelöscht zu werden.
Mitglied: 108012
108012 20.12.2016 um 16:57:40 Uhr
Goto Top
Hallo,

BBU defekt und/oder das Cahcemodul eventuell auch?
Was sagen die SMART Werte der HDD/SSDs denn aus?
Wie groß sind denn die HDDs und wie viele davon sind denn dort verbaut?

P2000 ist über SAS Kabel an den VM Servern angebunden.
17 VMs auf mehreren HP Proliants ist das richtig? Wie sind die denn genau angebunden worden?

Das Problem ist erst direkt vor ca. 14 Tagen sichtbar geworden. Als ich einen Snapshot von einer VM löschen
wollte und dieser 12 Stunden gebraucht hat um gelöscht zu werden.
HDD defekt bzw. Prozess immer noch nicht abgeschlossen worden? Oder gar der Controller defekt?
BBU muss erneuert werden? Cachemodul defekt? RAM zu klein für alle VMs?

Also da würde ich noch einmal ansetzen wollen!

Gruß
Dobby
Mitglied: ReneHa
ReneHa 20.12.2016 um 18:41:47 Uhr
Goto Top
Wobei 100ms Storage-Latenz schon schlimm sind.
Führ mal dieses Script im SQL Management Studio aus und poste das Ergebnis:

-- IO and latency by database files.
--
-- Original author - Jonathan Kehayias, @sqlpoolboy
--
-- Remember these latencies: Excellent: < 1ms, Very good: < 5ms, Good: 5 – 10ms, Poor: 10 – 20ms,
-- Bad: 20 – 100ms, Shocking: 100 – 500ms, Horror show: > 500ms
--
-- Also remember IO stalls are a good indication of disk IO pressure.
SELECT DB_NAME(vfs.database_id) AS database_name , vfs.database_id , vfs.file_id ,
io_stall_read_ms / NULLIF(num_of_reads, 0) AS avg_read_latency ,
io_stall_write_ms / NULLIF(num_of_writes, 0) AS avg_write_latency ,
io_stall_write_ms / NULLIF(num_of_writes + num_of_writes, 0) AS avg_total_latency ,
num_of_bytes_read / NULLIF(num_of_reads, 0) AS avg_bytes_per_read ,
num_of_bytes_written / NULLIF(num_of_writes, 0) AS avg_bytes_per_write ,
vfs.io_stall , vfs.num_of_reads , vfs.num_of_bytes_read ,vfs.io_stall_read_ms ,
vfs.num_of_writes ,vfs.num_of_bytes_written , vfs.io_stall_write_ms ,
size_on_disk_bytes / 1024 / 1024. AS size_on_disk_mbytes , physical_name
FROM sys.dm_io_virtual_file_stats(NULL, NULL) AS vfs
JOIN sys.master_files AS mf
ON vfs.database_id = mf.database_id AND vfs.file_id = mf.file_id
ORDER BY database_name DESC;

Bei mir muss ich überlgen, ob ich Verfügbarkeitsanforderungen durch anderes Produkt abdecke. ERP-Datenbankgrösse = 300GB
Mitglied: Dr.EVIL
Dr.EVIL 20.12.2016 um 20:07:22 Uhr
Goto Top
Zitat von @Kalma73:

Also in Log Files der P2000 kann ich keine Fehler festellen.

FBWC Capacitor -> ich weiss nicht ob sowas verbaut ist und wie soll ich das prüfen???


Ich denke, das Du mal die technischen Beschreibungen eines Storages konsultieren solltest ("RTFM Problem") bevor weiter an den Symptomen herumgedoktort wird. Eine Beantwortung von Dobbys Fragen wären diesbezüglich hilfreich.
Ansonsten würde ich bei HPE einen Call aufmachen und die Jungs das Problem beheben lassen...

Das "fucXXXg Manual" findest Du in epischer Breite hier:
http://h20564.www2.hpe.com/hpsc/doc/public/display?docId=mmr_kc-0126421

Erst wenn Du ausschliessen kannst, das das MSA Storage das Gesamtsystem herunterbremst, würde ich maich an die Analyse der darauf folgenden Komponenten machen...