Mdadm: Check dauert lange und verlangsamt Anwendungen
Hallo,
ich verwalte einen gemieteten dedizierten Server unter Ubuntu 20.04.4 LTS.
In ihm laufen zwei Platten mit einer Kapazität von jeweils 4 TB. Die beiden Partitionen md0 und md1 bilden jeweils ein RAID1-Array. md0 ist Bootpartition und hat eine Größe von ca. 1 GB. Den gewaltigen Rest von fast 4 TB bildet die Partition md1.
Am vergangenen Sonntag (6. März) bemerkte ich einen stark verlangsamten Aufbau der Webseiten. Ich fand heraus, dass ein Check der Festplatten begonnen hatte.
Nun habe ich im Internet ( https://www.thomas-krenn.com/de/wiki/Mdadm_checkarray ) den Hinweis gefunden, dass an jedem ersten Sonntag im Monat ein solcher Check durchführt wird. Das passt zusammen, wenngleich der Check nicht um 00:57 startete.
So weit, so (vielleicht) normal.
Jetzt kommt das, was mir auffällt
1.: Der Check dauerte fast ewig (von Sonntag 15:08 bis Dienstag 08:23), allerdings mit Unterbrechungen.
2.: Der Aufbau von Webseiten war während der Check-Zeit stark verlangsamt. (Shellzugriff war jedoch ohne Verzögerung möglich.)
3.: Der Server läuft seit Mitte Oktober 2021 ohne Unterbrechung. In der Zwischenzeit hat es schon viermal erste Sonntage im Monat gegeben. Eine so starke Beeinträchtigung hätte ich doch schon früher bemerken müssen.
4.: Ich finde im Bereich /etc/crontab keine Eintragungen für diesen Check.
Unten habe ich die betreffenden Zeilen aus der syslog zusammengestellt.
Wenn nicht in dieser Woche wegen des heutigen Feiertags in Berlin (Internationaler Frauentag) und des "Brückentags" gestern der Betrieb sehr ruhig gewesen wäre, hätte es bestimmt Anfragen gegeben, was denn los sei. Gegen den Check an sich ist nichts zu sagen. Aber dann darf die Performance doch nicht so stark zurückgehen. Soll ich die Nutzer etwa in einem Monat schon mal vorwarnen? Das kann doch wohl nicht sein.
Was meint ihr zu dem ganzen?
Gruß
Ralph
Mar 6 15:08:37 root: mdcheck start checking /dev/md0
Mar 6 15:08:37 kernel: [11811476.735370] md: data-check of RAID array md0
Mar 6 15:08:37 root: mdcheck start checking /dev/md1
Mar 6 15:08:37 kernel: [11811477.169149] md: delaying data-check of md1 until md0 has finished (they share one or more physical units)
Mar 6 15:08:44 kernel: [11811483.687029] md: md0: data-check done.
Mar 6 15:08:44 kernel: [11811483.700166] md: data-check of RAID array md1
Mar 6 15:10:37 root: mdcheck finished checking /dev/md0
Mar 6 21:08:52 kernel: [11833091.890776] md: md1: data-check interrupted.
Mar 6 21:08:52 root: pause checking /dev/md1 at 4168563968
Mar 7 05:17:27 root: mdcheck continue checking /dev/md1 from 4168563968
Mar 7 05:17:27 kernel: [11862406.477532] md: data-check of RAID array md1
Mar 7 11:17:48 kernel: [11884027.501836] md: md1: data-check interrupted.
Mar 7 11:17:48 root: pause checking /dev/md1 at 6919332096
Mar 8 04:57:33 root: mdcheck continue checking /dev/md1 from 6919332096
Mar 8 04:57:33 kernel: [11947613.320726] md: data-check of RAID array md1
Mar 8 08:22:51 kernel: [11959930.762606] md: md1: data-check done.
Mar 8 08:23:45 root: mdcheck finished checking /dev/md1
ich verwalte einen gemieteten dedizierten Server unter Ubuntu 20.04.4 LTS.
In ihm laufen zwei Platten mit einer Kapazität von jeweils 4 TB. Die beiden Partitionen md0 und md1 bilden jeweils ein RAID1-Array. md0 ist Bootpartition und hat eine Größe von ca. 1 GB. Den gewaltigen Rest von fast 4 TB bildet die Partition md1.
Am vergangenen Sonntag (6. März) bemerkte ich einen stark verlangsamten Aufbau der Webseiten. Ich fand heraus, dass ein Check der Festplatten begonnen hatte.
Nun habe ich im Internet ( https://www.thomas-krenn.com/de/wiki/Mdadm_checkarray ) den Hinweis gefunden, dass an jedem ersten Sonntag im Monat ein solcher Check durchführt wird. Das passt zusammen, wenngleich der Check nicht um 00:57 startete.
So weit, so (vielleicht) normal.
Jetzt kommt das, was mir auffällt
1.: Der Check dauerte fast ewig (von Sonntag 15:08 bis Dienstag 08:23), allerdings mit Unterbrechungen.
2.: Der Aufbau von Webseiten war während der Check-Zeit stark verlangsamt. (Shellzugriff war jedoch ohne Verzögerung möglich.)
3.: Der Server läuft seit Mitte Oktober 2021 ohne Unterbrechung. In der Zwischenzeit hat es schon viermal erste Sonntage im Monat gegeben. Eine so starke Beeinträchtigung hätte ich doch schon früher bemerken müssen.
4.: Ich finde im Bereich /etc/crontab keine Eintragungen für diesen Check.
Unten habe ich die betreffenden Zeilen aus der syslog zusammengestellt.
Wenn nicht in dieser Woche wegen des heutigen Feiertags in Berlin (Internationaler Frauentag) und des "Brückentags" gestern der Betrieb sehr ruhig gewesen wäre, hätte es bestimmt Anfragen gegeben, was denn los sei. Gegen den Check an sich ist nichts zu sagen. Aber dann darf die Performance doch nicht so stark zurückgehen. Soll ich die Nutzer etwa in einem Monat schon mal vorwarnen? Das kann doch wohl nicht sein.
Was meint ihr zu dem ganzen?
Gruß
Ralph
Mar 6 15:08:37 root: mdcheck start checking /dev/md0
Mar 6 15:08:37 kernel: [11811476.735370] md: data-check of RAID array md0
Mar 6 15:08:37 root: mdcheck start checking /dev/md1
Mar 6 15:08:37 kernel: [11811477.169149] md: delaying data-check of md1 until md0 has finished (they share one or more physical units)
Mar 6 15:08:44 kernel: [11811483.687029] md: md0: data-check done.
Mar 6 15:08:44 kernel: [11811483.700166] md: data-check of RAID array md1
Mar 6 15:10:37 root: mdcheck finished checking /dev/md0
Mar 6 21:08:52 kernel: [11833091.890776] md: md1: data-check interrupted.
Mar 6 21:08:52 root: pause checking /dev/md1 at 4168563968
Mar 7 05:17:27 root: mdcheck continue checking /dev/md1 from 4168563968
Mar 7 05:17:27 kernel: [11862406.477532] md: data-check of RAID array md1
Mar 7 11:17:48 kernel: [11884027.501836] md: md1: data-check interrupted.
Mar 7 11:17:48 root: pause checking /dev/md1 at 6919332096
Mar 8 04:57:33 root: mdcheck continue checking /dev/md1 from 6919332096
Mar 8 04:57:33 kernel: [11947613.320726] md: data-check of RAID array md1
Mar 8 08:22:51 kernel: [11959930.762606] md: md1: data-check done.
Mar 8 08:23:45 root: mdcheck finished checking /dev/md1
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 2091499034
Url: https://administrator.de/contentid/2091499034
Ausgedruckt am: 22.11.2024 um 08:11 Uhr
11 Kommentare
Neuester Kommentar
Moin,
Hast Du denn geprüft, ob die lange Dauer des Checks die Ursache oder das Symptom des Problems ist?
Check mal die Smartwerte der Laufwerke, ob die vielleicht erhöhte Lesefehlerraten haben.
Oder läuft gerade ein anderer Job, der durch Festplattenzugriffe sowohl den Check als auch die Webseiten bremst, z.B. Malware im Hintergrund.
Wie immer gilt: wer eine Korrelation findet, darf die Kausalität nicht frei heraussuchen, sondern muß erst prüfen ob wirklich eine Kausalität besteht oder eine gemeinsame Ursache.
lks
PS: Die Ursache kann auch andersherum sein: die Webseitenzugriffe bremsen den Check, so daß dieser länger braucht.
PPS: Meine Kristallkugel sagt übrigens, daß die lange Dauer des Checks Symptom und nicht Ursache des Problems ist.
Edit: Typo
Hast Du denn geprüft, ob die lange Dauer des Checks die Ursache oder das Symptom des Problems ist?
Check mal die Smartwerte der Laufwerke, ob die vielleicht erhöhte Lesefehlerraten haben.
Oder läuft gerade ein anderer Job, der durch Festplattenzugriffe sowohl den Check als auch die Webseiten bremst, z.B. Malware im Hintergrund.
Wie immer gilt: wer eine Korrelation findet, darf die Kausalität nicht frei heraussuchen, sondern muß erst prüfen ob wirklich eine Kausalität besteht oder eine gemeinsame Ursache.
lks
PS: Die Ursache kann auch andersherum sein: die Webseitenzugriffe bremsen den Check, so daß dieser länger braucht.
PPS: Meine Kristallkugel sagt übrigens, daß die lange Dauer des Checks Symptom und nicht Ursache des Problems ist.
Edit: Typo
Hallo,
ich meine dazu, dass ich mich gerade eingelesen habe und seitdem stark zu LVM tendiere.
Alleine schon wegen der Abhängigkeit zur Hardware.
Gruß,
Jörg
ich meine dazu, dass ich mich gerade eingelesen habe und seitdem stark zu LVM tendiere.
Alleine schon wegen der Abhängigkeit zur Hardware.
Gruß,
Jörg
Nein, nur am Thema vorbei.
lks
Zitat von @Lochkartenstanzer:
PPS: Meine Kristallkugel sagt übrigens, daß die lange Dauer des Checks Symptom und nicht Ursache des Problems ist.
Würde ich mich anschließen, zumal checkarray nur Idle-Zeit verbrät und die Arbeit unterbricht sobald wieder andere Arbeit ansteht.PPS: Meine Kristallkugel sagt übrigens, daß die lange Dauer des Checks Symptom und nicht Ursache des Problems ist.