Server friert ein - Kaltstart notwendig
Liebes Forum,
ich habe einen Supermicro Server mit Windows Server 2022 am Laufen. Dieser virtualisiert über Windows Hyper V 2 virtuelle Maschinen: 1x Produktivsystem, 1x Domaincontroller.
Hardware (alles aus 02/2023):
Supermicro - X12STL-F - C252 Chipsatz USB 3.2 Gen1 - 2 x Gigabit LAN - 1x M.2 NVME
Intel Xeon E-2336 - 2.9 GHz - 6 Kerne - 12 Threads 12 MB Cache-Speiche
4 x 32GB (ECC UDIMM DDR4 3200) (Hauptspeicher DDR4 UDIMM ECC)
BROADCOM 4-Port 9341-4i SAS3/SATA Controller 12Gb/s
2 x Samsung SSD 870 EVO 250GB 2.5in SATA 6Gb/s MZ-77E250B/EU (System)
2 x Samsung SSD 870 EVO 2TB 2.5in SATA 6 Gb/s MZ- 77E2T0B/EU (Daten, wobei ich diese zeitnah wechseln werde)
X550-T2 10 Gigabit Dual Port Server Netzwerkkarte (BCM957416A4160C)
In letzter Zeit habe ich immer häufiger einen "Freeze". Es geht nichts mehr, bis man einen manuellen Kaltstart durchführt.
Windows-Updates werden regelmäßig durchgeführt.
Der Server stellt eigentlich im wesentlichen ein Netzwerklaufwerk zur Verfügung.
Nachts laufen über Veeam BackUps der VMs.
Diese Kaltstarts nehmen in letzter Zeit signifikant zu (siehe kritische Ereignisse in der Ereignisanzeige):
Wie differenziere ich zwischen einem Hardware vs Software bedingtem Fehler? Wie sollte ich vorgehen?
Vielen Dank an Alle für die Unterstützung!
Beste Grüße
ich habe einen Supermicro Server mit Windows Server 2022 am Laufen. Dieser virtualisiert über Windows Hyper V 2 virtuelle Maschinen: 1x Produktivsystem, 1x Domaincontroller.
Hardware (alles aus 02/2023):
Supermicro - X12STL-F - C252 Chipsatz USB 3.2 Gen1 - 2 x Gigabit LAN - 1x M.2 NVME
Intel Xeon E-2336 - 2.9 GHz - 6 Kerne - 12 Threads 12 MB Cache-Speiche
4 x 32GB (ECC UDIMM DDR4 3200) (Hauptspeicher DDR4 UDIMM ECC)
BROADCOM 4-Port 9341-4i SAS3/SATA Controller 12Gb/s
2 x Samsung SSD 870 EVO 250GB 2.5in SATA 6Gb/s MZ-77E250B/EU (System)
2 x Samsung SSD 870 EVO 2TB 2.5in SATA 6 Gb/s MZ- 77E2T0B/EU (Daten, wobei ich diese zeitnah wechseln werde)
X550-T2 10 Gigabit Dual Port Server Netzwerkkarte (BCM957416A4160C)
In letzter Zeit habe ich immer häufiger einen "Freeze". Es geht nichts mehr, bis man einen manuellen Kaltstart durchführt.
Windows-Updates werden regelmäßig durchgeführt.
Der Server stellt eigentlich im wesentlichen ein Netzwerklaufwerk zur Verfügung.
Nachts laufen über Veeam BackUps der VMs.
Diese Kaltstarts nehmen in letzter Zeit signifikant zu (siehe kritische Ereignisse in der Ereignisanzeige):
Wie differenziere ich zwischen einem Hardware vs Software bedingtem Fehler? Wie sollte ich vorgehen?
Vielen Dank an Alle für die Unterstützung!
Beste Grüße
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 670763
Url: https://administrator.de/forum/server-friert-ein-kaltstart-notwendig-670763.html
Ausgedruckt am: 22.02.2025 um 13:02 Uhr
14 Kommentare
Neuester Kommentar
Nabend.
Die Kernel Power Ereignisse sind ja quasi von dir verursacht worden
Interessanter wären die Ereignisse vor dem Kaltstart.
Hast du die S.M.A.R.T.-Werte der SSD mal überprüft?
Die 870 EVO sind jetzt keine SSD, welche man für Datenbank Anwendungen verwenden sollte. Das sind eher Konsumenten Geräte und nix für professionell Anwendungen geeignet.
Hat das im Supermicro Board integrierte IPMI ein aktives Log? Eventuell stehen da Ereignisse mit Hinweisen drin.
Gruß
Marc
Die Kernel Power Ereignisse sind ja quasi von dir verursacht worden
Interessanter wären die Ereignisse vor dem Kaltstart.
Hast du die S.M.A.R.T.-Werte der SSD mal überprüft?
Die 870 EVO sind jetzt keine SSD, welche man für Datenbank Anwendungen verwenden sollte. Das sind eher Konsumenten Geräte und nix für professionell Anwendungen geeignet.
Hat das im Supermicro Board integrierte IPMI ein aktives Log? Eventuell stehen da Ereignisse mit Hinweisen drin.
Gruß
Marc
Moin,
sorry, aber das ist normales Troubleshooting.
Und ja, die Antwort wird Dir nicht gefallen.
Das kann ja alles sein.
Software gefühlt eher nicht, aber nicht unmöglich.
Also fängt man mit den Dingen an die einfach und/oder erfolgversprechend sind.
- BIOS, IPMI und sonstiges firmware/treiber updaten
- RAM tauschen
- Alle Kabel ab- und wieder anstecken - bzw. deren Sitz überprüfen
- RAM/System-Test von USB booten und 1-2 Stunden laufen lassen
- Externe Geräte reduzieren
- NT Tauschen
Dann kommt man zu den aufwendigen Dingen:
- Mainboard tauschen
- Sonstige Hardware tauschen
Wenn Du es schaffen könntest den Fehler zu reproduzieren wäre es viel einfacher.
Versuche anhand der Logs oder Beschreibung der Benutzer rauszufinden was kurz vor dem Absturz passiert ist.
Stefan
sorry, aber das ist normales Troubleshooting.
Und ja, die Antwort wird Dir nicht gefallen.
Das kann ja alles sein.
Software gefühlt eher nicht, aber nicht unmöglich.
Also fängt man mit den Dingen an die einfach und/oder erfolgversprechend sind.
- BIOS, IPMI und sonstiges firmware/treiber updaten
- RAM tauschen
- Alle Kabel ab- und wieder anstecken - bzw. deren Sitz überprüfen
- RAM/System-Test von USB booten und 1-2 Stunden laufen lassen
- Externe Geräte reduzieren
- NT Tauschen
Dann kommt man zu den aufwendigen Dingen:
- Mainboard tauschen
- Sonstige Hardware tauschen
Wenn Du es schaffen könntest den Fehler zu reproduzieren wäre es viel einfacher.
Versuche anhand der Logs oder Beschreibung der Benutzer rauszufinden was kurz vor dem Absturz passiert ist.
Stefan
Moin @Speed101,
ähm ja, wo fange ich jetzt nur an. 😬
Also ...
... dieser RAID-Controller ist nicht wirklich für Server 2022 freigegeben.
https://www.windowsservercatalog.com/product/9cce5c92-4ae3-5bcd-44aa-601 ...
https://www.windowsservercatalog.com/product/3b2ce1aa-1fe6-194b-cf4b-7ee ...
Die SSD's brauche ich im Windows Server Catalog überhaupt nicht zu suchen, den diese haben wiederum in einem Server überhaupt nichts zu suchen, da es reine Consumer SSD's sind. Zudem sind die von Samsung selber auch nicht wirklich für einen RAID-Betrieb freigegeben.
Das wiederum finde ich mittlerweile echt spannend. Der Intel X5xx Netzwerkchipsatz ist mitunter einer der ältesten 10G Chipsätze ...
https://www.windowsservercatalog.com/product/20e5ab2b-4218-7abb-1029-ee8 ...
... wird aber selbst noch vom Server 2025 supportet. 🙃
Das hört sich nicht gut an, prüf mal bitte ASAP, wie schon von @radiogugu angesprochen, mal die S.M.A.R.T. Werte der entsprechenden SSD's!
Gruss Alex
ähm ja, wo fange ich jetzt nur an. 😬
Also ...
BROADCOM 4-Port 9341-4i SAS3/SATA Controller 12Gb/s
... dieser RAID-Controller ist nicht wirklich für Server 2022 freigegeben.
https://www.windowsservercatalog.com/product/9cce5c92-4ae3-5bcd-44aa-601 ...
https://www.windowsservercatalog.com/product/3b2ce1aa-1fe6-194b-cf4b-7ee ...
2 x Samsung SSD 870 EVO 250GB 2.5in SATA 6Gb/s MZ-77E250B/EU (System)
2 x Samsung SSD 870 EVO 2TB 2.5in SATA 6 Gb/s MZ- 77E2T0B/EU (Daten, wobei ich diese zeitnah wechseln werde)
2 x Samsung SSD 870 EVO 2TB 2.5in SATA 6 Gb/s MZ- 77E2T0B/EU (Daten, wobei ich diese zeitnah wechseln werde)
Die SSD's brauche ich im Windows Server Catalog überhaupt nicht zu suchen, den diese haben wiederum in einem Server überhaupt nichts zu suchen, da es reine Consumer SSD's sind. Zudem sind die von Samsung selber auch nicht wirklich für einen RAID-Betrieb freigegeben.
X550-T2 10 Gigabit Dual Port Server Netzwerkkarte (BCM957416A4160C)
Das wiederum finde ich mittlerweile echt spannend. Der Intel X5xx Netzwerkchipsatz ist mitunter einer der ältesten 10G Chipsätze ...
https://www.windowsservercatalog.com/product/20e5ab2b-4218-7abb-1029-ee8 ...
... wird aber selbst noch vom Server 2025 supportet. 🙃
In letzter Zeit habe ich immer häufiger einen "Freeze". Es geht nichts mehr, bis man einen manuellen Kaltstart durchführt.
Das hört sich nicht gut an, prüf mal bitte ASAP, wie schon von @radiogugu angesprochen, mal die S.M.A.R.T. Werte der entsprechenden SSD's!
Gruss Alex
Zitat von @Speed101:
Ich habe aktuell die Version "Veeam backup replication Build 12.0.0.1420 P20230718"
Ich glaube nicht, dass es eine Agent Sicherung des Hosts gibt. Sollte ich das einrichten?
Ich habe aktuell die Version "Veeam backup replication Build 12.0.0.1420 P20230718"
Ich glaube nicht, dass es eine Agent Sicherung des Hosts gibt. Sollte ich das einrichten?
Nein, ich habe nur rückblickend immer noch vor allem den Agent in Verdacht, weil ich aus anderem Zusammenhang weiß, dass er Logikfehler im Umgang mit vorhandenen Laufwerken hat. Beispiel: Der Agent-Host wird von einem USB-Medium gestartet, interne Laufwerke bleiben offline, Backup-Cache ist deaktiviert. Die Sicherung wird fehlschlagen mit "Die Sequenz enthält keine Elemente", weil der Agent ein Backup-Cache-Laufwerk sucht und - USB bzw. offline - keines findet. Es muss explizit ein Backup-Cache auf C: konfiguriert werden.
Habe aber nicht weiter untersucht, was er ggf. mit den nicht zu sichernden VM-Laufwerken anstellt.
Dein Veeam ist veraltet und sollte schon wegen der Schwachstellen aktualisiert werden. In meinem Fall ist das Problem seit 12.2 nicht mehr aufgetreten. Bei den betroffenen Servern mit zwei Laufwerken für VHDs war das Symptom, dass jeweils alle VMs auf einem der Laufwerke einfroren und meist auch der Host. Wenn der Host noch reagierte, und man versuchte das betreffende Laufwerk zu parsen, war das das Ende für den Host. Sowohl RAM als auch SSDs wurden ohne Besserung getauscht.
Parallel dazu wurde nutzerseitig geändert, dass Sitzungen diszipliniert beendet und damit die Hyper-V-MMC nicht mehr ständig offengehalten wird. Das war eine andere (vielleich zufällige) Gemeinsamkeit der Systeme. Die Bedeutung liegt in der ständigen Aktualisierung von VM-Daten über die Integrationsdienste, wenn eine VM in der MMC ausgewählt ist.
Interessanter wären die Ereignisse vor dem Kaltstart.
Wie kann ich diese auslesen?Na indem du in der Windows Ereignisanzeige die Ereignisse entsprechend anschaust, welche vor den Neustart Meldungen zu sehen sind
Hast du die S.M.A.R.T.-Werte der SSD mal überprüft?
Ich habe jetzt mit CrystalDiskInfo die SMART Werte ausgelese (siehe Anhang).
Scheint ok zu sein oder?
Sieht zumindest danach aus. Aber wie sind die Werte der OS SSD?
Hat das im Supermicro Board integrierte IPMI ein aktives Log? Eventuell stehen da Ereignisse mit Hinweisen drin.
Wie finde ich das heraus?Indem du die Rückseite des Servers anschaust. Dort gibt es zumeist mehrere Netzwerkschnittstellen.
Eine Schnittstelle könnte separat von den Onboard NICs "sitzen".
Supermicro Boards kenne ich persönlich nur aus Homelab Videos und habe noch keines in den Fingern gehabt.
Normalerweise ist ein Netzwerkport entsprechend bezeichnet. Eventuell mal im BIOS nachsehen, ob man einen Hinweis darauf erhält, welcher für IPMI zuständig ist.
Ein Netzwerkkabel einstecken, die IP herausfinden und damit verbinden ist womöglich der schnellste Weg, um Zugriff zu erhalten.
Default Zugangsdaten müsstest du dann recherchieren.
Gruß
Marc
Nabend.
Die SSD scheinen ganz OK zu sein.
Bei der Ereignisanzeige musst du unter "Windows-Protokolle" > "System" schauen. Die Ereignisse vor dem Kernel Power Eintrag sind interessant.
Die IPMI Schnittstelle ist auf ein Switch angeschlossen? Sind da VLANs und DHCP konfiguriert? Die IP sieht eher danach aus, dass keine IP abgerufen wird.
Schau doch mal nach in deinem Router / dem Gerät welches sich um DHCP kümmert. Wenn alles richtig konfiguriert wäre, müsste die IP Adresse angezeigt werden.
Gruß
Marc
Die SSD scheinen ganz OK zu sein.
Bei der Ereignisanzeige musst du unter "Windows-Protokolle" > "System" schauen. Die Ereignisse vor dem Kernel Power Eintrag sind interessant.
Die IPMI Schnittstelle ist auf ein Switch angeschlossen? Sind da VLANs und DHCP konfiguriert? Die IP sieht eher danach aus, dass keine IP abgerufen wird.
Schau doch mal nach in deinem Router / dem Gerät welches sich um DHCP kümmert. Wenn alles richtig konfiguriert wäre, müsste die IP Adresse angezeigt werden.
Gruß
Marc
Moin @Speed101,
da musst du nichts herausfinden, sondern solltest die IP des BMC's, einfach im BIOS des Boards richtig konfigurieren.
Sprich, hier das Handbuch herunterladen ...
https://www.supermicro.com/de/products/motherboard/x12stl-f
... und ab Seite 94 bis 96 mal lesen. 😉
Gruss Alex
Ich versuche nun herauszufinden, was die IP des IPMI ist.
da musst du nichts herausfinden, sondern solltest die IP des BMC's, einfach im BIOS des Boards richtig konfigurieren.
Sprich, hier das Handbuch herunterladen ...
https://www.supermicro.com/de/products/motherboard/x12stl-f
... und ab Seite 94 bis 96 mal lesen. 😉
Gruss Alex