Linux Server (Proxmox) stürzt ab
Hallo zusammen,
ich habe einen Proxmox Server am Laufen mit ca 12 kleinen VM´s.
Allerdings habe ich immer wieder mit reboots / Abstürzen zu kämpfen..
Ab und zu kommt es vor das die Kiste einfach überhaupt nicht mehr erreichbar. Da hilft nur noch Stecker ziehen weil selbst der An und Ausknopf nicht mehr reagiert.
Was allerdings häufiger auftritt ist ein plötzlicher Reboot des System
Im Log steht nur
Des weiteren finde ich diese 2 sachen
Einen Memtest habe ich schon mal durchgeführt und wurde ohne Fehler beendet.
Bei der Verbauten Hardware handelt es sich um einen Ryzen 9 5950x, 128GB DDR4 (ohne XMP Profil) Gigabyte B550M Mainboard und 2 990 Pro M2 SSD´s von Samsung im Raid 1 (SSD´s sind geupdatet)
pveversion
Hat jemand vielleicht eine Idee wo ich ansetzen kann um die Probleme in den Griff zu bekommen?
ich habe einen Proxmox Server am Laufen mit ca 12 kleinen VM´s.
Allerdings habe ich immer wieder mit reboots / Abstürzen zu kämpfen..
Ab und zu kommt es vor das die Kiste einfach überhaupt nicht mehr erreichbar. Da hilft nur noch Stecker ziehen weil selbst der An und Ausknopf nicht mehr reagiert.
Was allerdings häufiger auftritt ist ein plötzlicher Reboot des System
Im Log steht nur
Apr 21 08:29:52 pve pvedaemon[608869]: <root@pam> successful auth for user 'root@pam'
-- Reboot --
Apr 21 08:34:15 pve kernel: Linux version 6.2.6-1-pve (build@proxmox) (gcc (Debian 10.2.1-6) 10.2.1 20210110, GNU ld (GNU Binutils for Debian) 2.35.2) #1 SMP PREEMPT_DYNAMIC PVE 6.2.6-1 (2023-03-14T17:08Z) ()
Apr 21 08:34:15 pve kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-6.2.6-1-pve root=/dev/mapper/pve-root ro quiet
Des weiteren finde ich diese 2 sachen
dmesg -l emerg
[ 3.106577] mce: [Hardware Error]: CPU 14: Machine Check: 0 Bank 1: bc800800060c0859
[ 3.106582] mce: [Hardware Error]: TSC 0 ADDR 69b8f1a80 MISC d012000000000000 IPID 100b000000000
[ 3.106585] mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1682058849 SOCKET 0 APIC 1c microcode a20120a
dmesg -l warn
[ 0.829150] #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31
[ 3.097430] tpm tpm0: AMD fTPM version 0x3005400000005 causes system stutter; hwrng disabled
[ 3.100827] i8042: PNP: PS/2 appears to have AUX port disabled, if this is incorrect please boot with i8042.nopnp
[ 3.101283] device-mapper: core: CONFIG_IMA_DISABLE_HTABLE is disabled. Duplicate IMA measurements will not be recorded in the IMA log.
[ 3.101316] platform eisa.0: EISA: Cannot allocate resource for mainboard
[ 3.101317] platform eisa.0: Cannot allocate resource for EISA slot 1
[ 3.101318] platform eisa.0: Cannot allocate resource for EISA slot 2
[ 3.101318] platform eisa.0: Cannot allocate resource for EISA slot 3
[ 3.101319] platform eisa.0: Cannot allocate resource for EISA slot 4
[ 3.101319] platform eisa.0: Cannot allocate resource for EISA slot 5
[ 3.101319] platform eisa.0: Cannot allocate resource for EISA slot 6
[ 3.101320] platform eisa.0: Cannot allocate resource for EISA slot 7
[ 3.101320] platform eisa.0: Cannot allocate resource for EISA slot 8
[ 3.371753] ACPI Warning: SystemIO range 0x0000000000000B00-0x0000000000000B08 conflicts with OpRegion 0x0000000000000B00-0x0000000000000B0F (\GSA1.SMBI) (20221020/utaddress-204)
[ 3.381811] nvme1n1: p1 size 3907029168 extends beyond EOD, truncated
[ 6.070508] spl: loading out-of-tree module taints kernel.
[ 6.072501] znvpair: module license 'CDDL' taints kernel.
[ 6.072502] Disabling lock debugging due to kernel taint
[ 6.077202] systemd-journald[634]: File /var/log/journal/1479f96df07840b9ada8b6cf5330edc2/system.journal corrupted or uncleanly shut down, renaming and replacing.
Einen Memtest habe ich schon mal durchgeführt und wurde ohne Fehler beendet.
Bei der Verbauten Hardware handelt es sich um einen Ryzen 9 5950x, 128GB DDR4 (ohne XMP Profil) Gigabyte B550M Mainboard und 2 990 Pro M2 SSD´s von Samsung im Raid 1 (SSD´s sind geupdatet)
pveversion
pve-manager/7.4-3/9002ab8a (running kernel: 6.2.6-1-pve)
Hat jemand vielleicht eine Idee wo ich ansetzen kann um die Probleme in den Griff zu bekommen?
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 6859660569
Url: https://administrator.de/contentid/6859660569
Ausgedruckt am: 21.11.2024 um 19:11 Uhr
21 Kommentare
Neuester Kommentar
Zitat von @SlainteMhath:
.deuten i.d.R. auf einen Hardwaredefekt - ich tippe Netzteil oder Mainboard - hin.
Würde ich mich auch direkt der Aussage anschließen. Würde aber eher aufs Mainboard tippen.
Scheint wirklich ein Hardware defekt zu sein.
Gruß
Moin,
Die Meldung interpretiere ich so, dass es ein Problem auf dem Bus zwischen CPU und RAM gibt. Hardwarefehler. Neuen Server kaufen und den alten entsorgen.
hth
Erik
Zitat von @Springstil:
dmesg -l emerg
[ 3.106577] mce: [Hardware Error]: CPU 14: Machine Check: 0 Bank 1: bc800800060c0859
[ 3.106582] mce: [Hardware Error]: TSC 0 ADDR 69b8f1a80 MISC d012000000000000 IPID 100b000000000
[ 3.106585] mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1682058849 SOCKET 0 APIC 1c microcode a20120a
Hat jemand vielleicht eine Idee wo ich ansetzen kann um die Probleme in den Griff zu bekommen?
Die Meldung interpretiere ich so, dass es ein Problem auf dem Bus zwischen CPU und RAM gibt. Hardwarefehler. Neuen Server kaufen und den alten entsorgen.
hth
Erik
Bissl früh.
Ich würde zuerst mal die BIOS Compatibility checken. Auch Version des akt. vorhandenen Bios.
https://www.gigabyte.com/de/Ajax/SupportFunction/GetCpuList?Value=300&am ... B550&Type=Chipest
Auch würde ich das BIOS upgraden, wenn möglich.
Dann die üblichen Verdächtigen (oben schon erwähnt): Prozessorcheck, RAM Check, Netzteil. Tests mit einem sauberen Debian (Stick z.B.), um Proxmox-Quark auszuschließen.
Auch im Proxmox-Forum würde ich mal gucken. Den Komfort von Proxmox erkauft man sich immer wieder mal mit Problemen, die man bei nativem Debian nicht hat.
Hier hat bereits das BIOS-Upgrade geholfen:
https://debianforum.de/forum/viewtopic.php?t=176217
Edit: Schau mal auch hier: Hier wird Dein Prozessor (bei sehr ähnlichen Problemen) im Kontext mit einem Kernel-Bug erwähnt. Also mal gucken, welchen Kernel der Proxmox fährt.
https://forum.manjaro.org/t/system-auto-rebooted-mce-hardware-error-in-d ...
Viele Grüße, commodity
Ryzen 9 5950x, 128GB DDR4 (ohne XMP Profil) Gigabyte B550M Mainboard und 2 990 Pro M2 SSD´s von Samsung im Raid 1 (SSD´s sind geupdatet)
Für 12 kleine VMs vielleicht etwas overpowered? Ich baue auch oft mit Ryzen, auch kleine Server, aber etwas konservativer. Habe kürzlich 9 kleine VMs auf einem ODROID H3 aufgesetzt. Schnurrt wie ein Kätzchen.Ich würde zuerst mal die BIOS Compatibility checken. Auch Version des akt. vorhandenen Bios.
https://www.gigabyte.com/de/Ajax/SupportFunction/GetCpuList?Value=300&am ... B550&Type=Chipest
Auch würde ich das BIOS upgraden, wenn möglich.
Dann die üblichen Verdächtigen (oben schon erwähnt): Prozessorcheck, RAM Check, Netzteil. Tests mit einem sauberen Debian (Stick z.B.), um Proxmox-Quark auszuschließen.
Auch im Proxmox-Forum würde ich mal gucken. Den Komfort von Proxmox erkauft man sich immer wieder mal mit Problemen, die man bei nativem Debian nicht hat.
Hier hat bereits das BIOS-Upgrade geholfen:
https://debianforum.de/forum/viewtopic.php?t=176217
Edit: Schau mal auch hier: Hier wird Dein Prozessor (bei sehr ähnlichen Problemen) im Kontext mit einem Kernel-Bug erwähnt. Also mal gucken, welchen Kernel der Proxmox fährt.
https://forum.manjaro.org/t/system-auto-rebooted-mce-hardware-error-in-d ...
Viele Grüße, commodity
den pve-kernel-6.2 zu nutzen
Der Standard-Kernel bei PVE 7 ist ja 5.15, da sollte der Bug auch schon Geschichte sein.Wenn die WaWi wichtig ist, würde ich ohnehin eine Redundanz schaffen. Der Vorteil von Virtualisierung unter Linux ist ja, dass man faktisch unbegrenzte Redundanzoptionen hat.
Also ein natives Debian mit KVM ist schnell aufgesetzt, die VMs rüber gezogen und Du hast alle Zeit der Welt, Dich mit der Problemkiste auseinanderzusetzen. Wenn natürlich PVE-Features (DaSi?) gebraucht werden, wird es schwieriger. Genau der Grund, warum ich um solche OS-Aufsätze (ähnliche Problematik z.B. bei Synologys) möglichst einen Bogen mache.
Viele Grüße, commodity
Ich trau den Onboard Raid Controllern nicht
Zu Recht. Das kann beim sog. Fake-RAID ganz böse ausgehen. Klassisch löst man das ohne RAID-Controller über mdraid.Hier sehen wir aber wieder den Preis für:
Das schöne an PM ist die Oberfläche
Proxmox kann kein mdraid. Den absoluten Standard für Software RAID unter Linux. Zuverlässig, leistungsstark und komfortabel. Aber nicht für Proxmox.https://pve.proxmox.com/wiki/Software_RAID
Mit bitrot als "Argument". Nichts gegen ZFS oder BTRFS. Aber Hand aufs Herz, Synology setzt seit Jahrzehnten mdraid ein, Thomas Krenn empfiehlt es, auf Millionen Servern läuft es. Aber Proxmox schließt es generell aus?
Viele Grüße, commodity
Guter Hinweis! Da kommt bei mir glatt die Frage, hoch, wie es zu einem Kernel 6 bei dem PVE des TO kommt. Gab es Gründe für die Abweichung vom Standardkernel 5.15 (die für Debian ja auch schon eine Backport-Version ist)? Oder stand der (irrtümliche) Gedanke neuer=besser hier im Vordergrund? Im Zweifel also den Rat des Kollegen @surreal1 erwägen: Zurück zum Kernel 5.15.
Ich nutze Proxmox nicht aktiv. Meine Debian-Server laufen bei Bullseye mit Kernel 5.10, was dort der Standardkernel ist. Würde ich nur bei großer Not anfassen.
Viele Grüße, commodity
Ich nutze Proxmox nicht aktiv. Meine Debian-Server laufen bei Bullseye mit Kernel 5.10, was dort der Standardkernel ist. Würde ich nur bei großer Not anfassen.
Viele Grüße, commodity
Evl ist dann wirklich die Überlegung auf Intel umzusteigen.
Ganz schlechte Idee. Vom guten Preis/Leistungsverhältnis abgesehen lässt sich doch gar nicht vorhersagen, bei welchem Hersteller Dich der nächste Kernel-Bug trifft. Wenn überhaupt.Ich nutze Linux seit vielen Jahren, Server seit mehr als 10 und hatte erst ein Kernelproblem (unter KVM). Bin aber im Produktivsegment sehr konsequent bei Debian/Raspbian geblieben.
Und so etwas
"kernel panic not syncing vfs unable to mount root fs on unknown-block"
- bekommt man wohl, wenn man als Laie am Kernel rumspielt. Neuinstallation vielleicht (aber so denkt halt eher der Windows-User. Weil googlen da oft nicht viel hilft). Der Linux-User googlet mal eben. Vielleicht hilfts:https://askubuntu.com/questions/41930/kernel-panic-not-syncing-vfs-unabl ...
Altmodisch, aber wer wissen will, liest ein Buch.
Viele Grüße, commodity
Moin,
Das hatte ich Dir schon vor einem Monat gesagt. Die Fehlermeldung war eindeutig.
Liebe Grüße
Erik
Zitat von @Springstil:
Also nur mal ein Kurzes Update zu dem Fehler, der Server läuft jetzt seit 5 Tagen ohne Probleme nach Austausch des Mainboards. Ich schätze das es wirklich daran lag.
Also nur mal ein Kurzes Update zu dem Fehler, der Server läuft jetzt seit 5 Tagen ohne Probleme nach Austausch des Mainboards. Ich schätze das es wirklich daran lag.
Das hatte ich Dir schon vor einem Monat gesagt. Die Fehlermeldung war eindeutig.
Liebe Grüße
Erik