speed101
Goto Top

Server friert ein - Kaltstart notwendig

Liebes Forum,

ich habe einen Supermicro Server mit Windows Server 2022 am Laufen. Dieser virtualisiert über Windows Hyper V 2 virtuelle Maschinen: 1x Produktivsystem, 1x Domaincontroller.

Hardware (alles aus 02/2023):
Supermicro - X12STL-F - C252 Chipsatz USB 3.2 Gen1 - 2 x Gigabit LAN - 1x M.2 NVME
Intel Xeon E-2336 - 2.9 GHz - 6 Kerne - 12 Threads 12 MB Cache-Speiche
4 x 32GB (ECC UDIMM DDR4 3200) (Hauptspeicher DDR4 UDIMM ECC)
BROADCOM 4-Port 9341-4i SAS3/SATA Controller 12Gb/s
2 x Samsung SSD 870 EVO 250GB 2.5in SATA 6Gb/s MZ-77E250B/EU (System)
2 x Samsung SSD 870 EVO 2TB 2.5in SATA 6 Gb/s MZ- 77E2T0B/EU (Daten, wobei ich diese zeitnah wechseln werde)
X550-T2 10 Gigabit Dual Port Server Netzwerkkarte (BCM957416A4160C)

In letzter Zeit habe ich immer häufiger einen "Freeze". Es geht nichts mehr, bis man einen manuellen Kaltstart durchführt.

Windows-Updates werden regelmäßig durchgeführt.

Der Server stellt eigentlich im wesentlichen ein Netzwerklaufwerk zur Verfügung.

Nachts laufen über Veeam BackUps der VMs.

Diese Kaltstarts nehmen in letzter Zeit signifikant zu (siehe kritische Ereignisse in der Ereignisanzeige):

Wie differenziere ich zwischen einem Hardware vs Software bedingtem Fehler? Wie sollte ich vorgehen?

Vielen Dank an Alle für die Unterstützung!

Beste Grüße
server_kaltstart

Content-ID: 670763

Url: https://administrator.de/forum/server-friert-ein-kaltstart-notwendig-670763.html

Ausgedruckt am: 22.02.2025 um 13:02 Uhr

kreuzberger
kreuzberger 17.01.2025 um 20:08:37 Uhr
Goto Top
@Speed101

Nimm halt testweise je ein RAM Modul raus und lass ihn dann laufen.


Kreuzberger
radiogugu
radiogugu 17.01.2025, aktualisiert am 18.01.2025 um 11:24:51 Uhr
Goto Top
Nabend.

Die Kernel Power Ereignisse sind ja quasi von dir verursacht worden face-cool

Interessanter wären die Ereignisse vor dem Kaltstart.

Hast du die S.M.A.R.T.-Werte der SSD mal überprüft?

Die 870 EVO sind jetzt keine SSD, welche man für Datenbank Anwendungen verwenden sollte. Das sind eher Konsumenten Geräte und nix für professionell Anwendungen geeignet.

Hat das im Supermicro Board integrierte IPMI ein aktives Log? Eventuell stehen da Ereignisse mit Hinweisen drin.

Gruß
Marc
C.R.S.
C.R.S. 17.01.2025 um 23:09:54 Uhr
Goto Top
Hallo,

kommt mir bekannt vor, ich habe nach Veeam auf der Liste gesucht.
Ist das auf aktuellem Stand? Werden tatsächlich nur die VMs gesichert, oder gibt es evtl. auch eine Agent-Sicherung des Hosts?

Grüße
Richard
jsysde
jsysde 17.01.2025 um 23:37:47 Uhr
Goto Top
Moin.

Wie aktuell ist die IPMI (BMC) Firmware, falls IPMI vorhanden? Und das BIOS?

Cheers,
jsysde
StefanKittel
StefanKittel 18.01.2025 um 09:12:32 Uhr
Goto Top
Moin,
sorry, aber das ist normales Troubleshooting.
Und ja, die Antwort wird Dir nicht gefallen.

Das kann ja alles sein.
Software gefühlt eher nicht, aber nicht unmöglich.

Also fängt man mit den Dingen an die einfach und/oder erfolgversprechend sind.
- BIOS, IPMI und sonstiges firmware/treiber updaten
- RAM tauschen
- Alle Kabel ab- und wieder anstecken - bzw. deren Sitz überprüfen
- RAM/System-Test von USB booten und 1-2 Stunden laufen lassen
- Externe Geräte reduzieren
- NT Tauschen

Dann kommt man zu den aufwendigen Dingen:
- Mainboard tauschen
- Sonstige Hardware tauschen

Wenn Du es schaffen könntest den Fehler zu reproduzieren wäre es viel einfacher.
Versuche anhand der Logs oder Beschreibung der Benutzer rauszufinden was kurz vor dem Absturz passiert ist.

Stefan
MysticFoxDE
MysticFoxDE 18.01.2025 um 10:43:39 Uhr
Goto Top
Moin @Speed101,

ähm ja, wo fange ich jetzt nur an. 😬

Also ...

BROADCOM 4-Port 9341-4i SAS3/SATA Controller 12Gb/s

... dieser RAID-Controller ist nicht wirklich für Server 2022 freigegeben.

https://www.windowsservercatalog.com/product/9cce5c92-4ae3-5bcd-44aa-601 ...
https://www.windowsservercatalog.com/product/3b2ce1aa-1fe6-194b-cf4b-7ee ...

2 x Samsung SSD 870 EVO 250GB 2.5in SATA 6Gb/s MZ-77E250B/EU (System)
2 x Samsung SSD 870 EVO 2TB 2.5in SATA 6 Gb/s MZ- 77E2T0B/EU (Daten, wobei ich diese zeitnah wechseln werde)

Die SSD's brauche ich im Windows Server Catalog überhaupt nicht zu suchen, den diese haben wiederum in einem Server überhaupt nichts zu suchen, da es reine Consumer SSD's sind. Zudem sind die von Samsung selber auch nicht wirklich für einen RAID-Betrieb freigegeben.

X550-T2 10 Gigabit Dual Port Server Netzwerkkarte (BCM957416A4160C)

Das wiederum finde ich mittlerweile echt spannend. Der Intel X5xx Netzwerkchipsatz ist mitunter einer der ältesten 10G Chipsätze ...

https://www.windowsservercatalog.com/product/20e5ab2b-4218-7abb-1029-ee8 ...

... wird aber selbst noch vom Server 2025 supportet. 🙃

In letzter Zeit habe ich immer häufiger einen "Freeze". Es geht nichts mehr, bis man einen manuellen Kaltstart durchführt.

Das hört sich nicht gut an, prüf mal bitte ASAP, wie schon von @radiogugu angesprochen, mal die S.M.A.R.T. Werte der entsprechenden SSD's!

Gruss Alex
Speed101
Speed101 18.01.2025 um 15:18:54 Uhr
Goto Top
Moin Mark,

Zitat von @radiogugu:

Die Kernel Power Ereignisse sind ja quasi von dir verursacht worden face-cool
Genau, die Kaltstarts.

Interessanter wären die Ereignisse vor dem Kaltstart.
Wie kann ich diese auslesen?
Hast du die S.M.A.R.T.-Werte der SSD mal überprüft?

Ich habe jetzt mit CrystalDiskInfo die SMART Werte ausgelese (siehe Anhang).

Scheint ok zu sein oder?



Die 870 EVO sind jetzt keine SSD, welche man für Datenbank Anwendungen verwenden sollte. Das sind eher Konsumenten Geräte und nix für professionell Anwendungen geeignet.

Wurde mir leider damals so empfohlen. Heutzutage bin ich schlauer.

Hat das im Supermicro Board integrierte IPMI ein aktives Log? Eventuell stehen da Ereignisse mit Hinweisen drin.
Wie finde ich das heraus?
Gruß
Marc
Vielen Dank!

Moin @MysticFoxDE:


BROADCOM 4-Port 9341-4i SAS3/SATA Controller 12Gb/s

... dieser RAID-Controller ist nicht wirklich für Server 2022 freigegeben.

Ich habe mir diesen Server damals von einem "Experten" aka Verkäufer zusammenstellen lassen.

Das hört sich nicht gut an, prüf mal bitte ASAP, wie schon von @radiogugu angesprochen, mal die S.M.A.R.T. Werte der entsprechenden SSD's!
Ich habe einen Screenshot der Ergebnisse angehängt.
Gruss Alex

Vielen lieben Dank Euch beiden!

Hallo Richard,
Zitat von @c.r.s.:

Hallo,

kommt mir bekannt vor, ich habe nach Veeam auf der Liste gesucht.
Ist das auf aktuellem Stand? Werden tatsächlich nur die VMs gesichert, oder gibt es evtl. auch eine Agent-Sicherung des Hosts?
Ich habe aktuell die Version "Veeam backup replication Build 12.0.0.1420 P20230718"

Ich glaube nicht, dass es eine Agent Sicherung des Hosts gibt. Sollte ich das einrichten?

Grüße
Richard

Moin @jsysde:

Moin.

Wie aktuell ist die IPMI (BMC) Firmware, falls IPMI vorhanden? Und das BIOS?
Noch nie geupdated bis jetzt.

Ich weiß nicht, ob IPMI vorhanden ist. Wie finde ich das heraus?

Ist das das richtige Update?
https://www.supermicro.com/en/support/resources/downloadcenter/firmware/ ...
Cheers,
jsysde

Vielen Dank für die wertvollen Hinweise an alle!
clipboard-image
C.R.S.
C.R.S. 18.01.2025 um 16:39:39 Uhr
Goto Top
Zitat von @Speed101:

Ich habe aktuell die Version "Veeam backup replication Build 12.0.0.1420 P20230718"

Ich glaube nicht, dass es eine Agent Sicherung des Hosts gibt. Sollte ich das einrichten?

Nein, ich habe nur rückblickend immer noch vor allem den Agent in Verdacht, weil ich aus anderem Zusammenhang weiß, dass er Logikfehler im Umgang mit vorhandenen Laufwerken hat. Beispiel: Der Agent-Host wird von einem USB-Medium gestartet, interne Laufwerke bleiben offline, Backup-Cache ist deaktiviert. Die Sicherung wird fehlschlagen mit "Die Sequenz enthält keine Elemente", weil der Agent ein Backup-Cache-Laufwerk sucht und - USB bzw. offline - keines findet. Es muss explizit ein Backup-Cache auf C: konfiguriert werden.
Habe aber nicht weiter untersucht, was er ggf. mit den nicht zu sichernden VM-Laufwerken anstellt.

Dein Veeam ist veraltet und sollte schon wegen der Schwachstellen aktualisiert werden. In meinem Fall ist das Problem seit 12.2 nicht mehr aufgetreten. Bei den betroffenen Servern mit zwei Laufwerken für VHDs war das Symptom, dass jeweils alle VMs auf einem der Laufwerke einfroren und meist auch der Host. Wenn der Host noch reagierte, und man versuchte das betreffende Laufwerk zu parsen, war das das Ende für den Host. Sowohl RAM als auch SSDs wurden ohne Besserung getauscht.
Parallel dazu wurde nutzerseitig geändert, dass Sitzungen diszipliniert beendet und damit die Hyper-V-MMC nicht mehr ständig offengehalten wird. Das war eine andere (vielleich zufällige) Gemeinsamkeit der Systeme. Die Bedeutung liegt in der ständigen Aktualisierung von VM-Daten über die Integrationsdienste, wenn eine VM in der MMC ausgewählt ist.
radiogugu
radiogugu 18.01.2025 um 17:12:54 Uhr
Goto Top
Interessanter wären die Ereignisse vor dem Kaltstart.
Wie kann ich diese auslesen?

Na indem du in der Windows Ereignisanzeige die Ereignisse entsprechend anschaust, welche vor den Neustart Meldungen zu sehen sind face-smile

Hast du die S.M.A.R.T.-Werte der SSD mal überprüft?

Ich habe jetzt mit CrystalDiskInfo die SMART Werte ausgelese (siehe Anhang).

Scheint ok zu sein oder?

Sieht zumindest danach aus. Aber wie sind die Werte der OS SSD?

Hat das im Supermicro Board integrierte IPMI ein aktives Log? Eventuell stehen da Ereignisse mit Hinweisen drin.
Wie finde ich das heraus?

Indem du die Rückseite des Servers anschaust. Dort gibt es zumeist mehrere Netzwerkschnittstellen.
Eine Schnittstelle könnte separat von den Onboard NICs "sitzen".

Supermicro Boards kenne ich persönlich nur aus Homelab Videos und habe noch keines in den Fingern gehabt.

Normalerweise ist ein Netzwerkport entsprechend bezeichnet. Eventuell mal im BIOS nachsehen, ob man einen Hinweis darauf erhält, welcher für IPMI zuständig ist.

Ein Netzwerkkabel einstecken, die IP herausfinden und damit verbinden ist womöglich der schnellste Weg, um Zugriff zu erhalten.

Default Zugangsdaten müsstest du dann recherchieren.

Gruß
Marc
MysticFoxDE
MysticFoxDE 18.01.2025 um 18:38:03 Uhr
Goto Top
Moin @Speed101,

Ich weiß nicht, ob IPMI vorhanden ist. Wie finde ich das heraus?

x12stl-f - bmc
😉

Gruss Alex
Speed101
Speed101 18.01.2025 um 21:34:06 Uhr
Goto Top
Moin Alex @c.r.s.:

Nein, ich habe nur rückblickend immer noch vor allem den Agent in Verdacht, weil ich aus anderem Zusammenhang weiß, dass er Logikfehler im Umgang mit vorhandenen Laufwerken hat. Beispiel: Der Agent-Host wird von einem USB-Medium gestartet, interne Laufwerke bleiben offline, Backup-Cache ist deaktiviert. Die Sicherung wird fehlschlagen mit "Die Sequenz enthält keine Elemente", weil der Agent ein Backup-Cache-Laufwerk sucht und - USB bzw. offline - keines findet. Es muss explizit ein Backup-Cache auf C: konfiguriert werden.
Habe aber nicht weiter untersucht, was er ggf. mit den nicht zu sichernden VM-Laufwerken anstellt.

Dein Veeam ist veraltet und sollte schon wegen der Schwachstellen aktualisiert werden. In meinem Fall ist das Problem seit 12.2 nicht mehr aufgetreten. Bei den betroffenen Servern mit zwei Laufwerken für VHDs war das Symptom, dass jeweils alle VMs auf einem der Laufwerke einfroren und meist auch der Host. Wenn der Host noch reagierte, und man versuchte das betreffende Laufwerk zu parsen, war das das Ende für den Host. Sowohl RAM als auch SSDs wurden ohne Besserung getauscht.
Ich habe jetzt auf die Version 12.3.0.310 alles geupdated. Eventuell hat das geholfen.

Parallel dazu wurde nutzerseitig geändert, dass Sitzungen diszipliniert beendet und damit die Hyper-V-MMC nicht mehr ständig offengehalten wird. Das war eine andere (vielleich zufällige) Gemeinsamkeit der Systeme. Die Bedeutung liegt in der ständigen Aktualisierung von VM-Daten über die Integrationsdienste, wenn eine VM in der MMC ausgewählt ist.
Wie kann ich das einstellen?

Ich vermute nämlich tatsächlich auch, dass es an Veeam liegen könnte. Ich habe auch gesehen, dass manche NAS bei mir im Server noch per IP (da gab es teilweise Fehler) und nicht mit dem Namen angelegt waren (fehlerfrei). Das habe ich nun auch mal angepasst. Auch war noch ein veralteter Job am Laufen, den habe ich auch gelöscht Zudem habe ich entdeckt, dass man auch die Veeam Konfiguration backupen kann. Das habe ich auch direkt mal umgesetzt.

Sehr wertvolle Hinweise! Vielen lieben Dank!

Moin Mark @radiogugu:

Na indem du in der Windows Ereignisanzeige die Ereignisse entsprechend anschaust, welche vor den Neustart Meldungen zu sehen sind face-smile
Mmh, das ist für mich etwas unübersichtlich face-smile

Ich werde nicht ganz schlau aus den Meldungen (siehe Screenshot).

Hast du die S.M.A.R.T.-Werte der SSD mal überprüft?
Ich habe alle 4 Werte angehängt. Es kommt bei allen zwischen 97% und 99% gut.
Ist auch ok oder?


Indem du die Rückseite des Servers anschaust. Dort gibt es zumeist mehrere Netzwerkschnittstellen.
Eine Schnittstelle könnte separat von den Onboard NICs "sitzen".
Ich habe 4 NICs. 3x Onboard und 2x über eine Netzwerkkarte. Ich nutze einen der beiden der Netzwerkkarte.
Normalerweise ist ein Netzwerkport entsprechend bezeichnet. Eventuell mal im BIOS nachsehen, ob man einen Hinweis darauf erhält, welcher für IPMI zuständig ist.

Ein Netzwerkkabel einstecken, die IP herausfinden und damit verbinden ist womöglich der schnellste Weg, um Zugriff zu erhalten.
Ich muss das mal testen.
Default Zugangsdaten müsstest du dann recherchieren.
Ok
Gruß
Marc

Moin Alex @MysticFoxDE:


x12stl-f - bmc
😉
Wow, super! Den habe ich tatsächlich. Das Problem ist nur ich habe alle anderen Netzwerkadapter ausgeschaltet gehabt und weiß nun nicht, welcher der 4 es ist.
Gruss Alex
clipboard-image
clipboard-image
clipboard-image
clipboard-image
clipboard-image
Speed101
Speed101 18.01.2025 um 22:34:47 Uhr
Goto Top
Ich versuche nun herauszufinden, was die IP des IPMI ist.

Wireshark zeigt mir an:

Ich dachte daher ich ändere auf meiner Laptopnetzwerkkarte die IP einfach auf 169.254.2.124. Aber darüber habe ich keinen Zugriff auf die 169.254.2.123 bekommen.

IPMI ist doch die 169.254.2.123 oder?

Was heißt Join Group 239.255.255.250?
clipboard-image
radiogugu
radiogugu 18.01.2025 um 22:47:42 Uhr
Goto Top
Nabend.

Die SSD scheinen ganz OK zu sein.

Bei der Ereignisanzeige musst du unter "Windows-Protokolle" > "System" schauen. Die Ereignisse vor dem Kernel Power Eintrag sind interessant.

Die IPMI Schnittstelle ist auf ein Switch angeschlossen? Sind da VLANs und DHCP konfiguriert? Die IP sieht eher danach aus, dass keine IP abgerufen wird.

Schau doch mal nach in deinem Router / dem Gerät welches sich um DHCP kümmert. Wenn alles richtig konfiguriert wäre, müsste die IP Adresse angezeigt werden.

Gruß
Marc
MysticFoxDE
MysticFoxDE 19.01.2025 aktualisiert um 07:16:31 Uhr
Goto Top
Moin @Speed101,

Ich versuche nun herauszufinden, was die IP des IPMI ist.

da musst du nichts herausfinden, sondern solltest die IP des BMC's, einfach im BIOS des Boards richtig konfigurieren.

Sprich, hier das Handbuch herunterladen ...

https://www.supermicro.com/de/products/motherboard/x12stl-f

... und ab Seite 94 bis 96 mal lesen. 😉

Gruss Alex