Server extrem langsam bis zum Stillstand
Hallo ihr alle,
ich verwalte einen von einem großen Provider gemieteten dedicated Server unter Ubuntu 18.04.6 LTS (GNU/Linux 4.15.0-135-generic x86_64). Er lief viele Monate problemlos und ohne Unterbrechungen.
Plötzlich gab es in zwei aufeinanderfolgenden Nächten große Probleme. Der Server antwortete extrem langsam und beim zweiten Mal gar nicht mehr, wobei auf ein PING weiterhin reagiert wurde.
Beim ersten Mal führte ich die vom Provider empfohlene "kurze" Untersuchung auf Hardwarefehler über eine externe Konsole durch. Dies ergab nach mehreren Stunden ein negatives Ergebnis und nach einem Hard-Reboot funktionierte der Server wie gewohnt.
In der nächsten Nacht wiederholte sich das Ereignis. Diesmal führte ich sofort einen erfolgreichen Hard-Reboot aus.
In der darauffolgenden Nacht gab es kein besonderes Ereignis.
In der Datei "kern.log" findet sich für den entsprechenden Zeitraum eine Fülle von sich wiederholenden Einträgen. Ich habe sie unten angehängt. Liegt doch ein Hardwarefehler vor oder gibt es eine andere Ursache? Ich kann auch eine "lange" Untersuchung auf Hardwarefehler durchführen. Allerdings fällt dann der Server möglicherweise für einen halben Tag aus.
Was meint ihr?
Gruß
Ralph
Feb 25 03:05:27 kernel: [46602.660633] Hardware name: Supermicro Super Server/X11SSL-F, BIOS 2.0c 10/06/2017
Feb 25 03:05:27 kernel: [46602.660635] Call Trace:
Feb 25 03:05:27 kernel: [46602.660643] dump_stack+0x6d/0x8e
Feb 25 03:05:27 kernel: [46602.660650] warn_alloc+0xff/0x1a0
Feb 25 03:05:27 kernel: [46602.660661] __alloc_pages_slowpath+0xdc5/0xe00
Feb 25 03:05:27 kernel: [46602.660677] ? ___slab_alloc+0x34d/0x4f0
Feb 25 03:05:27 kernel: [46602.660688] __alloc_pages_nodemask+0x29a/0x2c0
Feb 25 03:05:27 kernel: [46602.660700] alloc_pages_current+0x6a/0xe0
Feb 25 03:05:27 kernel: [46602.660713] sa_cache_save+0x479/0x520 [snapapi26]
Feb 25 03:05:27 kernel: [46602.660728] pending_req_handler_thread+0x29d/0x3a0 [snapapi26]
Feb 25 03:05:27 kernel: [46602.660738] kthread+0x121/0x140
Feb 25 03:05:27 kernel: [46602.660753] ? snapapi_make_request+0x210/0x210 [snapapi26]
Feb 25 03:05:27 kernel: [46602.660768] ? kthread_create_worker_on_cpu+0x70/0x70
Feb 25 03:05:27 kernel: [46602.660778] ret_from_fork+0x35/0x40
Feb 25 03:05:27 kernel: [46602.660795] snapapi_prht: page allocation failure: order:0, mode:0xc2(__GFP_HIGHMEM|__GFP_IO|__GFP_FS), nodemask=(null)
Feb 25 03:05:27 kernel: [46602.660797] snapapi_prht cpuset=/ mems_allowed=0
Feb 25 03:05:27 kernel: [46602.660805] CPU: 7 PID: 21501 Comm: snapapi_prht Tainted: G OE 4.15.0-135-generic #139-Ubuntu
ich verwalte einen von einem großen Provider gemieteten dedicated Server unter Ubuntu 18.04.6 LTS (GNU/Linux 4.15.0-135-generic x86_64). Er lief viele Monate problemlos und ohne Unterbrechungen.
Plötzlich gab es in zwei aufeinanderfolgenden Nächten große Probleme. Der Server antwortete extrem langsam und beim zweiten Mal gar nicht mehr, wobei auf ein PING weiterhin reagiert wurde.
Beim ersten Mal führte ich die vom Provider empfohlene "kurze" Untersuchung auf Hardwarefehler über eine externe Konsole durch. Dies ergab nach mehreren Stunden ein negatives Ergebnis und nach einem Hard-Reboot funktionierte der Server wie gewohnt.
In der nächsten Nacht wiederholte sich das Ereignis. Diesmal führte ich sofort einen erfolgreichen Hard-Reboot aus.
In der darauffolgenden Nacht gab es kein besonderes Ereignis.
In der Datei "kern.log" findet sich für den entsprechenden Zeitraum eine Fülle von sich wiederholenden Einträgen. Ich habe sie unten angehängt. Liegt doch ein Hardwarefehler vor oder gibt es eine andere Ursache? Ich kann auch eine "lange" Untersuchung auf Hardwarefehler durchführen. Allerdings fällt dann der Server möglicherweise für einen halben Tag aus.
Was meint ihr?
Gruß
Ralph
Feb 25 03:05:27 kernel: [46602.660633] Hardware name: Supermicro Super Server/X11SSL-F, BIOS 2.0c 10/06/2017
Feb 25 03:05:27 kernel: [46602.660635] Call Trace:
Feb 25 03:05:27 kernel: [46602.660643] dump_stack+0x6d/0x8e
Feb 25 03:05:27 kernel: [46602.660650] warn_alloc+0xff/0x1a0
Feb 25 03:05:27 kernel: [46602.660661] __alloc_pages_slowpath+0xdc5/0xe00
Feb 25 03:05:27 kernel: [46602.660677] ? ___slab_alloc+0x34d/0x4f0
Feb 25 03:05:27 kernel: [46602.660688] __alloc_pages_nodemask+0x29a/0x2c0
Feb 25 03:05:27 kernel: [46602.660700] alloc_pages_current+0x6a/0xe0
Feb 25 03:05:27 kernel: [46602.660713] sa_cache_save+0x479/0x520 [snapapi26]
Feb 25 03:05:27 kernel: [46602.660728] pending_req_handler_thread+0x29d/0x3a0 [snapapi26]
Feb 25 03:05:27 kernel: [46602.660738] kthread+0x121/0x140
Feb 25 03:05:27 kernel: [46602.660753] ? snapapi_make_request+0x210/0x210 [snapapi26]
Feb 25 03:05:27 kernel: [46602.660768] ? kthread_create_worker_on_cpu+0x70/0x70
Feb 25 03:05:27 kernel: [46602.660778] ret_from_fork+0x35/0x40
Feb 25 03:05:27 kernel: [46602.660795] snapapi_prht: page allocation failure: order:0, mode:0xc2(__GFP_HIGHMEM|__GFP_IO|__GFP_FS), nodemask=(null)
Feb 25 03:05:27 kernel: [46602.660797] snapapi_prht cpuset=/ mems_allowed=0
Feb 25 03:05:27 kernel: [46602.660805] CPU: 7 PID: 21501 Comm: snapapi_prht Tainted: G OE 4.15.0-135-generic #139-Ubuntu
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 2009189073
Url: https://administrator.de/contentid/2009189073
Ausgedruckt am: 22.11.2024 um 05:11 Uhr
16 Kommentare
Neuester Kommentar
Moin,
Hmm… zum Log kann ich nicht viel sagen, würde mich aber nicht nur auf Hardwarefehler fokussieren.
Wenn es doch Hardwarefehler sind und du die Koste gemietet hast: kann dich der Provider unterstützen? Im gehört die Kiste ja immerhin…
Edit :
Gruß
em-pie
Hmm… zum Log kann ich nicht viel sagen, würde mich aber nicht nur auf Hardwarefehler fokussieren.
- Denkbar wäre es, das zwei nicht gewollte Prozesse deine Maschine massivst ausgelastet haben?
- Gab es massive Versuche von Extern, die Maschine zu attackieren (DoS)?
- Gibt es geplante Aktivitäten, die in diesen beiden Nächten „aus dem Ruder“ liefen? Datensicherung? ETL-Prozesse? …
Wenn es doch Hardwarefehler sind und du die Koste gemietet hast: kann dich der Provider unterstützen? Im gehört die Kiste ja immerhin…
Edit :
page allocation failure: order:0
danach würde ich mal schauen. Liest sich (im WWW), als wenn dir der RAM ausgeht und es ggf. Probleme beim Swappen gibt.Gruß
em-pie
Moin,
ich würde zunächst mal ein BIOS-Update für das Mainboard vorschlagen. Das laufende BIOS 2.0c ist von 2017 und hat die diversen Microcode-Updates noch nicht. aktuell wäre BIOS 2.6 aus 2021. Vgl. https://www.supermicro.com/Bios/softfiles/14093/X11SSL(-F)_X11SSM_BIOS_2 ...
Weiterhin lässt der Auszug aus dem kern.log auf ein installiertes Kernelmodul von Acronis True Image schließen (snapapi), eventuell benötigt dies auch mal ein Update oder verursacht das Problem.
Gruß
cykes
ich würde zunächst mal ein BIOS-Update für das Mainboard vorschlagen. Das laufende BIOS 2.0c ist von 2017 und hat die diversen Microcode-Updates noch nicht. aktuell wäre BIOS 2.6 aus 2021. Vgl. https://www.supermicro.com/Bios/softfiles/14093/X11SSL(-F)_X11SSM_BIOS_2 ...
Weiterhin lässt der Auszug aus dem kern.log auf ein installiertes Kernelmodul von Acronis True Image schließen (snapapi), eventuell benötigt dies auch mal ein Update oder verursacht das Problem.
Gruß
cykes
Feb 25 03:05:27 kernel: [46602.660795] snapapi_prht: page allocation failure: order:0, mode:0xc2(__GFP_HIGHMEM|__GFP_IO|__GFP_FS), nodemask=(null)
Sieht mir danach aus als wäre der Hauptspeicher vollgelaufen, wenn der Prozess keine Pages mehr alloziieren kann dann wird sehr wahrscheinlich die RAM Auslastung durch einen Prozess auf der Kiste aus dem Ruder laufen. Das würde auch das anfängliche Zähe reagieren erklären. Lass dir die Speicherauslastung der jeweiligen Prozesse mal kontinuierlich in ein Log schreiben.Z.B. die Ausgabe von
ps -eo pmem,pcpu,vsize,pid,cmd | sort -k 1 -nr | head -n 5
Bei bestimmten Intel-Netzwerkkarten z.B. den x520 gab es im Treiber ein Memory-Leak. Da lief dann einfach der Hauptspeicher voll bis zum absoluten Stillstand des Systems. Wie lange das dauert, war von den übertragenen Datenmengen über die Netzwerkkarten abhängig.
Hatte ich bei diversen Xen-Servern und konnte die Ursache zunächst auch nicht ausfindig machen.
Hatte ich bei diversen Xen-Servern und konnte die Ursache zunächst auch nicht ausfindig machen.
Ein schnelles, kleines monitoring könntest du auch selbst auf dem Server etablieren, zB mit
Im Prinzip ein etwas erweitertes "top" - hierin werden in festgelegten Intervallen div. System-Parameter überwacht, übersichtlich dargestellt und auch (farblich hervorgehoben) ggf. auf "bottlenecks" hingewiesen.
Du kannst - in der entspr. Config - die folgenden Parameter anpassen:
um so zB nicht alle 10 Min (default), sondern alle 10 Sek. eine Darstellung abzuspeichern, die du dir im Nachhinein bequem anschauen kannst:
-> ab dem angegebenen timestamp kannst du dann mit "t" (next sample) bzw. "T" (previous sample) die einzelnen Momentaufnahmen durchgehen, bis du ggf. etwas Auffälliges findest.
atop
Du kannst - in der entspr. Config - die folgenden Parameter anpassen:
LOGINTERVAL
LOGPATH
atop -r /path/to/atop_logfile -b HH:MM