Performance Probleme bei MSA P2000
Hallo,
seid ein paar Wochen haben wir auf unsere MSA P2000 sehr starke Performance Probleme.
Dies äußert sich in langsamen Zugriffen auf unserem Fileserver und langsame Zugriffszeiten in unserem ERP System.
Sowie beim Löschen von Snapshots die Veeam für seine Backups benötigt und beim manuell erstellen und löschen von Snapshots die ich vor jedem Microsoft Patchday mache.
Auf Nachfrage bei VMware, wurde festgestellt das die I/O Latenz Zeiten auf unserer MSA P2000 sehr stark schwanken, zwischen 130 und dann plötzlich nur noch 36.
Habe aus diesem Grund auch mit VeeamONE eine Überwachung der MSA P2000 eingerichtet und dort werden jetzt Fehler per E-Mail verschickt.
Object: MSAP2000
Object Type: Datastore
Location: 192.x.x.x / Datencenter-Oddesse / Datastores
Host: 192.x.x.x
IP:
Guest OS:
Guest Host Name:
Description:
Business View group: Storage Type / Shared;
Status: Warning
Previous Status: Reset/resolved
Alarm: Datastore read latency
Time: 20.12.2016 04:57:31
Details: "Disk/Datastore: Datastore Read Latency" (126.0 Milliseconds) is above a defined threshold (100.0 Milliseconds)
KB article
Summary: Datastore latency has exceeded the threshold of total read latency
Cause: Response times for read operations for this datastore in the last interval has exceeded the configured threshold
Resolution: View datastore read latency for historical information. If your workload is disk-intensive, consider offloading some of the most IO-intensive VMs to other datastores. Check out hosts HBA performance that are connected to this datastore
External:
Custom:
Object: MSAP2000
Object Type: Datastore
Location: 192.x.x.x / Datencenter-Oddesse / Datastores
Host: 192.x.x.x
IP:
Guest OS:
Guest Host Name:
Description:
Business View group: Storage Type / Shared;
Status: Reset/resolved
Previous Status: Warning
Alarm: Datastore read latency
Time: 20.12.2016 05:12:00
Details: All alarm metrics are back to normal
KB article
Summary: Datastore latency has exceeded the threshold of total read latency
Cause: Response times for read operations for this datastore in the last interval has exceeded the configured threshold
Resolution: View datastore read latency for historical information. If your workload is disk-intensive, consider offloading some of the most IO-intensive VMs to other datastores. Check out hosts HBA performance that are connected to this datastore
Wie kann es sein, das jetzt plötzlich die Performance so einbricht?
Haben wir einen HDD oder Controller defekt?
Wie kann das Problem behoben werden?
Etwas zur IT Landschaft:
17 VMs laufen auf mehreren HP ProLiants
VMWare 5.5 Update 3
Über Hilfe wäre ich erfreut.
Dank im Voraus
Kalma
seid ein paar Wochen haben wir auf unsere MSA P2000 sehr starke Performance Probleme.
Dies äußert sich in langsamen Zugriffen auf unserem Fileserver und langsame Zugriffszeiten in unserem ERP System.
Sowie beim Löschen von Snapshots die Veeam für seine Backups benötigt und beim manuell erstellen und löschen von Snapshots die ich vor jedem Microsoft Patchday mache.
Auf Nachfrage bei VMware, wurde festgestellt das die I/O Latenz Zeiten auf unserer MSA P2000 sehr stark schwanken, zwischen 130 und dann plötzlich nur noch 36.
Habe aus diesem Grund auch mit VeeamONE eine Überwachung der MSA P2000 eingerichtet und dort werden jetzt Fehler per E-Mail verschickt.
Object: MSAP2000
Object Type: Datastore
Location: 192.x.x.x / Datencenter-Oddesse / Datastores
Host: 192.x.x.x
IP:
Guest OS:
Guest Host Name:
Description:
Business View group: Storage Type / Shared;
Status: Warning
Previous Status: Reset/resolved
Alarm: Datastore read latency
Time: 20.12.2016 04:57:31
Details: "Disk/Datastore: Datastore Read Latency" (126.0 Milliseconds) is above a defined threshold (100.0 Milliseconds)
KB article
Summary: Datastore latency has exceeded the threshold of total read latency
Cause: Response times for read operations for this datastore in the last interval has exceeded the configured threshold
Resolution: View datastore read latency for historical information. If your workload is disk-intensive, consider offloading some of the most IO-intensive VMs to other datastores. Check out hosts HBA performance that are connected to this datastore
External:
Custom:
Object: MSAP2000
Object Type: Datastore
Location: 192.x.x.x / Datencenter-Oddesse / Datastores
Host: 192.x.x.x
IP:
Guest OS:
Guest Host Name:
Description:
Business View group: Storage Type / Shared;
Status: Reset/resolved
Previous Status: Warning
Alarm: Datastore read latency
Time: 20.12.2016 05:12:00
Details: All alarm metrics are back to normal
KB article
Summary: Datastore latency has exceeded the threshold of total read latency
Cause: Response times for read operations for this datastore in the last interval has exceeded the configured threshold
Resolution: View datastore read latency for historical information. If your workload is disk-intensive, consider offloading some of the most IO-intensive VMs to other datastores. Check out hosts HBA performance that are connected to this datastore
Wie kann es sein, das jetzt plötzlich die Performance so einbricht?
Haben wir einen HDD oder Controller defekt?
Wie kann das Problem behoben werden?
Etwas zur IT Landschaft:
17 VMs laufen auf mehreren HP ProLiants
VMWare 5.5 Update 3
Über Hilfe wäre ich erfreut.
Dank im Voraus
Kalma
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 324320
Url: https://administrator.de/contentid/324320
Ausgedruckt am: 25.11.2024 um 04:11 Uhr
6 Kommentare
Neuester Kommentar
Hallo,
BBU defekt und/oder das Cahcemodul eventuell auch?
Was sagen die SMART Werte der HDD/SSDs denn aus?
Wie groß sind denn die HDDs und wie viele davon sind denn dort verbaut?
BBU muss erneuert werden? Cachemodul defekt? RAM zu klein für alle VMs?
Also da würde ich noch einmal ansetzen wollen!
Gruß
Dobby
BBU defekt und/oder das Cahcemodul eventuell auch?
Was sagen die SMART Werte der HDD/SSDs denn aus?
Wie groß sind denn die HDDs und wie viele davon sind denn dort verbaut?
P2000 ist über SAS Kabel an den VM Servern angebunden.
17 VMs auf mehreren HP Proliants ist das richtig? Wie sind die denn genau angebunden worden?Das Problem ist erst direkt vor ca. 14 Tagen sichtbar geworden. Als ich einen Snapshot von einer VM löschen
wollte und dieser 12 Stunden gebraucht hat um gelöscht zu werden.
HDD defekt bzw. Prozess immer noch nicht abgeschlossen worden? Oder gar der Controller defekt?wollte und dieser 12 Stunden gebraucht hat um gelöscht zu werden.
BBU muss erneuert werden? Cachemodul defekt? RAM zu klein für alle VMs?
Also da würde ich noch einmal ansetzen wollen!
Gruß
Dobby
Wobei 100ms Storage-Latenz schon schlimm sind.
Führ mal dieses Script im SQL Management Studio aus und poste das Ergebnis:
-- IO and latency by database files.
--
-- Original author - Jonathan Kehayias, @sqlpoolboy
--
-- Remember these latencies: Excellent: < 1ms, Very good: < 5ms, Good: 5 – 10ms, Poor: 10 – 20ms,
-- Bad: 20 – 100ms, Shocking: 100 – 500ms, Horror show: > 500ms
--
-- Also remember IO stalls are a good indication of disk IO pressure.
SELECT DB_NAME(vfs.database_id) AS database_name , vfs.database_id , vfs.file_id ,
io_stall_read_ms / NULLIF(num_of_reads, 0) AS avg_read_latency ,
io_stall_write_ms / NULLIF(num_of_writes, 0) AS avg_write_latency ,
io_stall_write_ms / NULLIF(num_of_writes + num_of_writes, 0) AS avg_total_latency ,
num_of_bytes_read / NULLIF(num_of_reads, 0) AS avg_bytes_per_read ,
num_of_bytes_written / NULLIF(num_of_writes, 0) AS avg_bytes_per_write ,
vfs.io_stall , vfs.num_of_reads , vfs.num_of_bytes_read ,vfs.io_stall_read_ms ,
vfs.num_of_writes ,vfs.num_of_bytes_written , vfs.io_stall_write_ms ,
size_on_disk_bytes / 1024 / 1024. AS size_on_disk_mbytes , physical_name
FROM sys.dm_io_virtual_file_stats(NULL, NULL) AS vfs
JOIN sys.master_files AS mf
ON vfs.database_id = mf.database_id AND vfs.file_id = mf.file_id
ORDER BY database_name DESC;
Bei mir muss ich überlgen, ob ich Verfügbarkeitsanforderungen durch anderes Produkt abdecke. ERP-Datenbankgrösse = 300GB
Führ mal dieses Script im SQL Management Studio aus und poste das Ergebnis:
-- IO and latency by database files.
--
-- Original author - Jonathan Kehayias, @sqlpoolboy
--
-- Remember these latencies: Excellent: < 1ms, Very good: < 5ms, Good: 5 – 10ms, Poor: 10 – 20ms,
-- Bad: 20 – 100ms, Shocking: 100 – 500ms, Horror show: > 500ms
--
-- Also remember IO stalls are a good indication of disk IO pressure.
SELECT DB_NAME(vfs.database_id) AS database_name , vfs.database_id , vfs.file_id ,
io_stall_read_ms / NULLIF(num_of_reads, 0) AS avg_read_latency ,
io_stall_write_ms / NULLIF(num_of_writes, 0) AS avg_write_latency ,
io_stall_write_ms / NULLIF(num_of_writes + num_of_writes, 0) AS avg_total_latency ,
num_of_bytes_read / NULLIF(num_of_reads, 0) AS avg_bytes_per_read ,
num_of_bytes_written / NULLIF(num_of_writes, 0) AS avg_bytes_per_write ,
vfs.io_stall , vfs.num_of_reads , vfs.num_of_bytes_read ,vfs.io_stall_read_ms ,
vfs.num_of_writes ,vfs.num_of_bytes_written , vfs.io_stall_write_ms ,
size_on_disk_bytes / 1024 / 1024. AS size_on_disk_mbytes , physical_name
FROM sys.dm_io_virtual_file_stats(NULL, NULL) AS vfs
JOIN sys.master_files AS mf
ON vfs.database_id = mf.database_id AND vfs.file_id = mf.file_id
ORDER BY database_name DESC;
Bei mir muss ich überlgen, ob ich Verfügbarkeitsanforderungen durch anderes Produkt abdecke. ERP-Datenbankgrösse = 300GB
Zitat von @Kalma73:
Also in Log Files der P2000 kann ich keine Fehler festellen.
FBWC Capacitor -> ich weiss nicht ob sowas verbaut ist und wie soll ich das prüfen???
Also in Log Files der P2000 kann ich keine Fehler festellen.
FBWC Capacitor -> ich weiss nicht ob sowas verbaut ist und wie soll ich das prüfen???
Ich denke, das Du mal die technischen Beschreibungen eines Storages konsultieren solltest ("RTFM Problem") bevor weiter an den Symptomen herumgedoktort wird. Eine Beantwortung von Dobbys Fragen wären diesbezüglich hilfreich.
Ansonsten würde ich bei HPE einen Call aufmachen und die Jungs das Problem beheben lassen...
Das "fucXXXg Manual" findest Du in epischer Breite hier:
http://h20564.www2.hpe.com/hpsc/doc/public/display?docId=mmr_kc-0126421
Erst wenn Du ausschliessen kannst, das das MSA Storage das Gesamtsystem herunterbremst, würde ich maich an die Analyse der darauf folgenden Komponenten machen...