springstil
Goto Top

Linux Server (Proxmox) stürzt ab

Hallo zusammen,

ich habe einen Proxmox Server am Laufen mit ca 12 kleinen VM´s.

Allerdings habe ich immer wieder mit reboots / Abstürzen zu kämpfen..

Ab und zu kommt es vor das die Kiste einfach überhaupt nicht mehr erreichbar. Da hilft nur noch Stecker ziehen weil selbst der An und Ausknopf nicht mehr reagiert.

Was allerdings häufiger auftritt ist ein plötzlicher Reboot des System

Im Log steht nur
Apr 21 08:29:52 pve pvedaemon[608869]: <root@pam> successful auth for user 'root@pam'  
-- Reboot --
Apr 21 08:34:15 pve kernel: Linux version 6.2.6-1-pve (build@proxmox) (gcc (Debian 10.2.1-6) 10.2.1 20210110, GNU ld (GNU Binutils for Debian) 2.35.2) #1 SMP PREEMPT_DYNAMIC PVE 6.2.6-1 (2023-03-14T17:08Z) ()
Apr 21 08:34:15 pve kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-6.2.6-1-pve root=/dev/mapper/pve-root ro quiet

Des weiteren finde ich diese 2 sachen
 dmesg -l emerg
[    3.106577] mce: [Hardware Error]: CPU 14: Machine Check: 0 Bank 1: bc800800060c0859
[    3.106582] mce: [Hardware Error]: TSC 0 ADDR 69b8f1a80 MISC d012000000000000 IPID 100b000000000 
[    3.106585] mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1682058849 SOCKET 0 APIC 1c microcode a20120a

dmesg -l warn
[    0.829150]  #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31
[    3.097430] tpm tpm0: AMD fTPM version 0x3005400000005 causes system stutter; hwrng disabled
[    3.100827] i8042: PNP: PS/2 appears to have AUX port disabled, if this is incorrect please boot with i8042.nopnp
[    3.101283] device-mapper: core: CONFIG_IMA_DISABLE_HTABLE is disabled. Duplicate IMA measurements will not be recorded in the IMA log.
[    3.101316] platform eisa.0: EISA: Cannot allocate resource for mainboard
[    3.101317] platform eisa.0: Cannot allocate resource for EISA slot 1
[    3.101318] platform eisa.0: Cannot allocate resource for EISA slot 2
[    3.101318] platform eisa.0: Cannot allocate resource for EISA slot 3
[    3.101319] platform eisa.0: Cannot allocate resource for EISA slot 4
[    3.101319] platform eisa.0: Cannot allocate resource for EISA slot 5
[    3.101319] platform eisa.0: Cannot allocate resource for EISA slot 6
[    3.101320] platform eisa.0: Cannot allocate resource for EISA slot 7
[    3.101320] platform eisa.0: Cannot allocate resource for EISA slot 8
[    3.371753] ACPI Warning: SystemIO range 0x0000000000000B00-0x0000000000000B08 conflicts with OpRegion 0x0000000000000B00-0x0000000000000B0F (\GSA1.SMBI) (20221020/utaddress-204)
[    3.381811] nvme1n1: p1 size 3907029168 extends beyond EOD, truncated
[    6.070508] spl: loading out-of-tree module taints kernel.
[    6.072501] znvpair: module license 'CDDL' taints kernel.  
[    6.072502] Disabling lock debugging due to kernel taint
[    6.077202] systemd-journald[634]: File /var/log/journal/1479f96df07840b9ada8b6cf5330edc2/system.journal corrupted or uncleanly shut down, renaming and replacing.

Einen Memtest habe ich schon mal durchgeführt und wurde ohne Fehler beendet.
Bei der Verbauten Hardware handelt es sich um einen Ryzen 9 5950x, 128GB DDR4 (ohne XMP Profil) Gigabyte B550M Mainboard und 2 990 Pro M2 SSD´s von Samsung im Raid 1 (SSD´s sind geupdatet)

pveversion
pve-manager/7.4-3/9002ab8a (running kernel: 6.2.6-1-pve)

Hat jemand vielleicht eine Idee wo ich ansetzen kann um die Probleme in den Griff zu bekommen?

Content-Key: 6859660569

Url: https://administrator.de/contentid/6859660569

Printed on: April 26, 2024 at 04:04 o'clock

Member: SlainteMhath
Solution SlainteMhath Apr 21, 2023 at 07:12:16 (UTC)
Goto Top
Moin,

spontane Reboot und
weil selbst der An und Ausknopf nicht mehr reagiert.
deuten i.d.R. auf einen Hardwaredefekt - ich tippe Netzteil oder Mainboard - hin. Ist das eine selbstgebastelte Kiste, oder hast du dafür Support?

lg,
Slainte
Member: Kristian-86Bit
Solution Kristian-86Bit Apr 21, 2023 at 07:16:09 (UTC)
Goto Top
Zitat von @SlainteMhath:
.
deuten i.d.R. auf einen Hardwaredefekt - ich tippe Netzteil oder Mainboard - hin.


Würde ich mich auch direkt der Aussage anschließen. Würde aber eher aufs Mainboard tippen.
Scheint wirklich ein Hardware defekt zu sein.


Gruß
Member: Springstil
Springstil Apr 21, 2023 at 07:21:04 (UTC)
Goto Top
Die kiste ist "Selbstgebaut" von einem Dienstleister.

Das Netzteil hatte ich auch schon in verdacht wobei ich denke das er dann ja eher ausbleiben würde und nicht rebootet oder?

Werde wohl nicht drum rum kommen das mal durch zu tauschen und zu prüfen wie er sich verhält
Member: godlie
godlie Apr 21, 2023 at 07:25:38 (UTC)
Goto Top
Hallo,

es könnte evtl. auch ein Temperaturproblem sein, aber eher richt es nach einem Spannungseinbruch ( Netzteil, Kondis am Mobo ) ... ist an der Hardware anzusetzen die Suche
Member: Springstil
Springstil Apr 21, 2023 at 07:27:11 (UTC)
Goto Top
Mich macht der SHutter error etwas stutzig. Ich werde sonntag abend mal nen Bios Update machen. Wenn das nicht hilft board und Netzteil tauschen
Member: erikro
Solution erikro Apr 21, 2023 at 08:07:07 (UTC)
Goto Top
Moin,

Zitat von @Springstil:
 dmesg -l emerg
[    3.106577] mce: [Hardware Error]: CPU 14: Machine Check: 0 Bank 1: bc800800060c0859
[    3.106582] mce: [Hardware Error]: TSC 0 ADDR 69b8f1a80 MISC d012000000000000 IPID 100b000000000 
[    3.106585] mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1682058849 SOCKET 0 APIC 1c microcode a20120a

Hat jemand vielleicht eine Idee wo ich ansetzen kann um die Probleme in den Griff zu bekommen?

Die Meldung interpretiere ich so, dass es ein Problem auf dem Bus zwischen CPU und RAM gibt. Hardwarefehler. Neuen Server kaufen und den alten entsorgen.

hth

Erik
Member: commodity
commodity Apr 21, 2023 updated at 12:02:09 (UTC)
Goto Top
Zitat von @erikro:
Neuen Server kaufen und den alten entsorgen.
Bissl früh.
Ryzen 9 5950x, 128GB DDR4 (ohne XMP Profil) Gigabyte B550M Mainboard und 2 990 Pro M2 SSD´s von Samsung im Raid 1 (SSD´s sind geupdatet)
Für 12 kleine VMs vielleicht etwas overpowered? Ich baue auch oft mit Ryzen, auch kleine Server, aber etwas konservativer. Habe kürzlich 9 kleine VMs auf einem ODROID H3 aufgesetzt. Schnurrt wie ein Kätzchen.

Ich würde zuerst mal die BIOS Compatibility checken. Auch Version des akt. vorhandenen Bios.
https://www.gigabyte.com/de/Ajax/SupportFunction/GetCpuList?Value=300&am ... B550&Type=Chipest
Auch würde ich das BIOS upgraden, wenn möglich.

Dann die üblichen Verdächtigen (oben schon erwähnt): Prozessorcheck, RAM Check, Netzteil. Tests mit einem sauberen Debian (Stick z.B.), um Proxmox-Quark auszuschließen.
Auch im Proxmox-Forum würde ich mal gucken. Den Komfort von Proxmox erkauft man sich immer wieder mal mit Problemen, die man bei nativem Debian nicht hat.

Hier hat bereits das BIOS-Upgrade geholfen:
https://debianforum.de/forum/viewtopic.php?t=176217

Edit: Schau mal auch hier: Hier wird Dein Prozessor (bei sehr ähnlichen Problemen) im Kontext mit einem Kernel-Bug erwähnt. Also mal gucken, welchen Kernel der Proxmox fährt.
https://forum.manjaro.org/t/system-auto-rebooted-mce-hardware-error-in-d ...

Viele Grüße, commodity
Member: Springstil
Springstil Apr 21, 2023 at 12:58:23 (UTC)
Goto Top
Auf den VM´s läuft 32bit Windows die wiederum 16 bit Anwendung laufen lassen. Eine Alte aber sehr zuverlässige und schnelle Wawi die in Clipper geschrieben wurde.

Zur zeit sind es 12 Vm´s aber da wird in Zukunft noch bisl was dazu kommen bzw ein zweiter muss her face-smile

Bios und Co werde ich definitiv am Sonntag Abend mal Updaten und mir anschauen, sollte das keine Besserung bringen Board und Netzteil einmal tauschen. Mehr bleibt mir fast nicht übrig.


Das Proxmox Forum ist leider keine große Hilfe, man hat mir geraden mal den pve-kernel-6.2 zu nutzen aber leider ohne wirklichen Erfolg. Ich muss die Kiste laufen lassen und es ist nicht wirklich reproduzierbar, daher fällt es leider flach Debian direkt zu installieren :/
Member: commodity
commodity Apr 21, 2023 at 13:36:35 (UTC)
Goto Top
den pve-kernel-6.2 zu nutzen
Der Standard-Kernel bei PVE 7 ist ja 5.15, da sollte der Bug auch schon Geschichte sein.

Wenn die WaWi wichtig ist, würde ich ohnehin eine Redundanz schaffen. Der Vorteil von Virtualisierung unter Linux ist ja, dass man faktisch unbegrenzte Redundanzoptionen hat.
Also ein natives Debian mit KVM ist schnell aufgesetzt, die VMs rüber gezogen und Du hast alle Zeit der Welt, Dich mit der Problemkiste auseinanderzusetzen. Wenn natürlich PVE-Features (DaSi?) gebraucht werden, wird es schwieriger. Genau der Grund, warum ich um solche OS-Aufsätze (ähnliche Problematik z.B. bei Synologys) möglichst einen Bogen mache.

Viele Grüße, commodity
Member: Springstil
Springstil Apr 24, 2023 at 07:06:15 (UTC)
Goto Top
Zitat von @commodity:

den pve-kernel-6.2 zu nutzen
Der Standard-Kernel bei PVE 7 ist ja 5.15, da sollte der Bug auch schon Geschichte sein.

Wenn die WaWi wichtig ist, würde ich ohnehin eine Redundanz schaffen. Der Vorteil von Virtualisierung unter Linux ist ja, dass man faktisch unbegrenzte Redundanzoptionen hat.
Also ein natives Debian mit KVM ist schnell aufgesetzt, die VMs rüber gezogen und Du hast alle Zeit der Welt, Dich mit der Problemkiste auseinanderzusetzen. Wenn natürlich PVE-Features (DaSi?) gebraucht werden, wird es schwieriger. Genau der Grund, warum ich um solche OS-Aufsätze (ähnliche Problematik z.B. bei Synologys) möglichst einen Bogen mache.

Viele Grüße, commodity

Die Wawi füttert den Shop holt bestellungen und co ab. Gesichert ist alles allerdings man könnte zur not aus umspringen wieder auf einzelne Rechner, das möchte ich aber tunlichst vermeiden.

Das schöne an PM ist die Oberfläche und die Bedingung. Besonders für den Chef :D

ich habe jetzt mal ein Updates vom Bios gemacht und auch die neuen Update von PM installiert. Bin mal gespannt. zur not wird das Board getauscht. Es soll sowieso noch eine zweite Kiste kommen mit PM. Das einzige was mich etwas stört ist das dass Board den Raid Controller spielt. Vermutlich ist es besser wenn die Kiste mit Acronis sichere und auf der neuen Kiste zurück spiele. Ich trau den Onboard Raid Controllern nicht
Member: commodity
commodity Apr 24, 2023 at 11:34:28 (UTC)
Goto Top
Ich trau den Onboard Raid Controllern nicht
Zu Recht. Das kann beim sog. Fake-RAID ganz böse ausgehen. Klassisch löst man das ohne RAID-Controller über mdraid.

Hier sehen wir aber wieder den Preis für:
Das schöne an PM ist die Oberfläche
Proxmox kann kein mdraid. Den absoluten Standard für Software RAID unter Linux. Zuverlässig, leistungsstark und komfortabel. Aber nicht für Proxmox.
https://pve.proxmox.com/wiki/Software_RAID
Mit bitrot als "Argument". Nichts gegen ZFS oder BTRFS. Aber Hand aufs Herz, Synology setzt seit Jahrzehnten mdraid ein, Thomas Krenn empfiehlt es, auf Millionen Servern läuft es. Aber Proxmox schließt es generell aus?

Viele Grüße, commodity
Member: surreal1
surreal1 Apr 24, 2023 at 16:46:04 (UTC)
Goto Top
Proxmox mit AMD Prozessoren, egal ab Ryzen oder Epic funktionieren seit den Kernel Version < 6.X überhaupt nicht zuverlässig und schmieren unregelmäßig ab. Hatten das gleiche Problem. Am besten du bleibst bei 5.15 oder 5.19. diese laufen perfekt.
Member: commodity
commodity Apr 24, 2023 at 17:19:40 (UTC)
Goto Top
Guter Hinweis! Da kommt bei mir glatt die Frage, hoch, wie es zu einem Kernel 6 bei dem PVE des TO kommt. Gab es Gründe für die Abweichung vom Standardkernel 5.15 (die für Debian ja auch schon eine Backport-Version ist)? Oder stand der (irrtümliche) Gedanke neuer=besser hier im Vordergrund? Im Zweifel also den Rat des Kollegen @surreal1 erwägen: Zurück zum Kernel 5.15.

Ich nutze Proxmox nicht aktiv. Meine Debian-Server laufen bei Bullseye mit Kernel 5.10, was dort der Standardkernel ist. Würde ich nur bei großer Not anfassen.

Viele Grüße, commodity
Member: Springstil
Springstil Apr 24, 2023 at 18:34:35 (UTC)
Goto Top
Zitat von @commodity:

Guter Hinweis! Da kommt bei mir glatt die Frage, hoch, wie es zu einem Kernel 6 bei dem PVE des TO kommt. Gab es Gründe für die Abweichung vom Standardkernel 5.15 (die für Debian ja auch schon eine Backport-Version ist)? Oder stand der (irrtümliche) Gedanke neuer=besser hier im Vordergrund? Im Zweifel also den Rat des Kollegen @surreal1 erwägen: Zurück zum Kernel 5.15.

Ich nutze Proxmox nicht aktiv. Meine Debian-Server laufen bei Bullseye mit Kernel 5.10, was dort der Standardkernel ist. Würde ich nur bei großer Not anfassen.

Viele Grüße, commodity

Wurde mir im PM Forum empfohlen darauf zu wechseln um zu sehen obs besser wird. Bin jetzt nach dem Biosupdate mal gespannt. Evl ist dann wirklich die Überlegung auf Intel umzusteigen.

Ich bin zwar selber Systemelektroniker, aber mit Linux habe ich noch nie viel gemacht. Hab jetzt versucht eine kiste zu Virtualisieren (altes gentoo) und bekomm jetzt den Fehler "kernel panic not syncing vfs unable to mount root fs on unknown-block"

Aber das wird da wohl auf ne neu Installation hinauslaufen :D
Member: commodity
commodity Apr 24, 2023, updated at Apr 28, 2023 at 08:13:52 (UTC)
Goto Top
Evl ist dann wirklich die Überlegung auf Intel umzusteigen.
Ganz schlechte Idee. Vom guten Preis/Leistungsverhältnis abgesehen lässt sich doch gar nicht vorhersagen, bei welchem Hersteller Dich der nächste Kernel-Bug trifft. Wenn überhaupt.
Ich nutze Linux seit vielen Jahren, Server seit mehr als 10 und hatte erst ein Kernelproblem (unter KVM). Bin aber im Produktivsegment sehr konsequent bei Debian/Raspbian geblieben.

Und so etwas
"kernel panic not syncing vfs unable to mount root fs on unknown-block"
- bekommt man wohl, wenn man als Laie am Kernel rumspielt. Neuinstallation vielleicht (aber so denkt halt eher der Windows-User. Weil googlen da oft nicht viel hilft). Der Linux-User googlet mal eben. Vielleicht hilfts:
https://askubuntu.com/questions/41930/kernel-panic-not-syncing-vfs-unabl ...

Altmodisch, aber wer wissen will, liest ein Buch.

Viele Grüße, commodity
Member: Springstil
Springstil Apr 25, 2023 updated at 07:56:18 (UTC)
Goto Top
Zitat von @commodity:

Evl ist dann wirklich die Überlegung auf Intel umzusteigen.
Ganz schlechte Idee. Vom guten Preis/Leistungsverhältnis abgesehen lässt sich doch gar nicht vorhersagen, bei welchem Hersteller Dich der nächste Kernel-Bug trifft. Wenn überhaupt.

AMD ist ja leider schon berühmt dafür das sie nicht immer die Stabilsten sind und gerne mal Treiber Probleme haben. Ich würde ungern auf Intel umsteigen wollen.

Ich nutze Linux seit vielen Jahren, Server seit mehr als 10 und hatte noch nie ein Kernelproblem. Bin aber im Produktivsegment sehr konsequent bei Debian/Raspbian geblieben.

Und so etwas
"kernel panic not syncing vfs unable to mount root fs on unknown-block"
- bekommt man wohl, wenn man als Laie am Kernel rumspielt. Neuinstallation vielleicht (aber so denkt halt eher der Windows-User. Weil googlen da oft nicht viel hilft). Der Linux-User googlet mal eben. Vielleicht hilfts:
https://askubuntu.com/questions/41930/kernel-panic-not-syncing-vfs-unabl ...


Das ist es ja, niemand hat dran rumgespielt :P Ich hab nen Image gezogen mit Acronis und dies in der VM eingespielt. Habe schon einige Ratschläge von Google versucht allerdings ohne erfolgt. Und ein Älteren Kernel laden scheint nicht zu funktionieren da es keinen gibt. Das Linux System darauf ist aber auch schon was älter weswegen es vermutlich nicht verkehrt wäre es mal neu aufzusetzen.
Member: Springstil
Springstil May 22, 2023 at 05:56:58 (UTC)
Goto Top
Also nur mal ein Kurzes Update zu dem Fehler, der Server läuft jetzt seit 5 Tagen ohne Probleme nach Austausch des Mainboards. Ich schätze das es wirklich daran lag.
Member: commodity
commodity May 22, 2023 at 07:25:42 (UTC)
Goto Top
Danke für's Update.
Neu aufsetzen brachte nichts?

Viele Grüße, commodity
Member: erikro
erikro May 22, 2023 at 07:40:44 (UTC)
Goto Top
Moin,

Zitat von @Springstil:

Also nur mal ein Kurzes Update zu dem Fehler, der Server läuft jetzt seit 5 Tagen ohne Probleme nach Austausch des Mainboards. Ich schätze das es wirklich daran lag.

Das hatte ich Dir schon vor einem Monat gesagt. Die Fehlermeldung war eindeutig. face-wink

Liebe Grüße

Erik
Member: Springstil
Springstil May 22, 2023 at 11:01:15 (UTC)
Goto Top
Zitat von @commodity:

Danke für's Update.
Neu aufsetzen brachte nichts?

Viele Grüße, commodity

Hab den Hammer rausgeholt und das Board getauscht und das alte in die RMA geschickt. Weniger aufwand :D
Member: commodity
commodity May 22, 2023 at 11:51:46 (UTC)
Goto Top
na, hat ja geklappt. Dann kannst Du Erik ja jetzt als Lösung markieren face-smile

Viele Grüße, commodity