as7806424
Goto Top

Supermicro Mainboard X11DPi-NT - CATERR + restart

Hallo zusammen,

ich habe mit meinem Server immer wieder Probleme, dass er einfach ausgeht und sich nach 10-15 min neustartet.

Serverconfig:
2HE Intel Dual-CPU RI2212-E Server
1x2HE AIC Chassis XE1-2ET00-03 (passive Backplane, SAS3)
1xSupermicro Mainboard X11DPi-NT
2xIntel Xeon Gold 6144 (3,50GHz, 8-Core, 24,75MB)
4x16 GB (1x 16384 MB) ECC Registered (RDIMM) DDR4 2666 RAM 2 Rank (ATP Premium)
2x3,2 TB NVMe Intel SSD 3D-NAND TLC U.2 (Intel DC P4610)
2xMini-SAS HD x4 Kabel 0,8m (SFF-8643 / SFF8087)
2xMini-SAS HD x4 Kabel (gewinkelt) 0,5m (SFF-8643 / SFF-8643)
1xBroadcom U.2 Enabler Kabel 1m (1x SFF-8643 [x8] / 2x SFF-8643 [x4])
1xBroadcom (LSI/Avago) MegaRAID 9460-8i SAS3 / NVMe 8x intern (Tri-Mode)
2xCPU-Kühler
Upgrades
8x32 GB (1x 32768 MB) ECC Registered (RDIMM) DDR4 3200 RAM 2 Rank (ATP Premium)(06.05.2022)


Event Log vom IPMI
15:26:44,Processor ,CATERR has occurred - Assertion339,Information,2024/05/28
15:51:20,Base OS Boot/Installation Status,C: boot completed - Assertion340, Critical,2024/07/09
14:14:01,Processor ,CATERR has occurred - Assertion

Hatte das von Euch schonmal jemand? Wenn ja, was wurde gemacht oder getauscht, damit der Fehler behoben war?

Grüße
Alex

Content-ID: 71130771890

Url: https://administrator.de/forum/supermicro-mainboard-x11dpi-nt-caterr-restart-71130771890.html

Ausgedruckt am: 24.12.2024 um 18:12 Uhr

LordGurke
LordGurke 16.07.2024 aktualisiert um 10:25:53 Uhr
Goto Top
CATERR ist ein CPU-Code von Intel für "Catastrophic Error".

Wenn der Fehler immer für die selbe CPU gemeldet wird, ist entweder diese CPU oder das Mainboard defekt. Wird er immer für unterschiedliche CPUs gemeldet, ist das Mainboard oder die PSU die Ursache.

Falls der Fehler an der selben CPU gemeldet wird:
Defekt am Mainboard kannst du notfalls so testen, dass du die CPUs in den jeweils anderen Sockel steckst und guckst, ob der Fehler dadurch wandert. Wenn nicht, muss das Mainboard ersetzt werden.

Ansonsten kannst du noch die PSU ausschließen indem du, notfalls bei offenem Gehäuse, ein anderes Netzteil anschließt. Die Boards können (ich kenne jetzt dieses spezielle Modell nicht) normalerweise mit einem Standardnetzteil für Desktop-PCs betrieben werden.
as7806424
as7806424 16.07.2024 um 10:48:06 Uhr
Goto Top
Hallo LordGurke,

vielen Dank für die schnelle Antwort.
Ich habe nochmal im IPMI nachgeschaut.
Leider wird kein Prozessor angegeben.

Somit wäre das Tauschen der CPUs raus.
PSU könnte ich zumindest die redundanten PSUs testen, allerdings tritt das Problem nicht regelmäßig auf und ist auch erstmal nicht direkt nachzustellen.

Für mich wäre interessant, ob jemand schon das gleiche Problem hatte und wie es hier eventuell in der Garantie- / Servicezeitraum gelöst wurde.

Leider ist mein Service schon abgelaufen... =(

Grüße
Alex
Starmanager
Starmanager 16.07.2024 um 19:39:31 Uhr
Goto Top
Probier doch mal den Betrieb nur mit einer CPU. Und dann die CPU in den anderen Sockel tauschen. Vielleicht zeigt sich dann bei einem Stresstest etwas.