mondragor

Windows Server 2025 friert komplett nach Reboot und Zugriff auf iSCSI-Target ein

back-to-topUmgebung: Windows Server 2025 (Build 26100.3476).


Hallo,

Hergang:
vor gut einem Monat wurde ein neuer Backupserver für unsere Umgebung installiert. Das hat ein Systemhaus vorgenommen.
Dieses wurde in ein separates VLAN gepackt und die Verbindung zwischen diesem und dem Storage (ISCSI) noch mal in ein eigenes.
C: läuft auf M.2 SSD und das ISCSI-Target bindet das 480TB Storage an.
Per Firewall und in den Switchen ist das alles so eingerichtet, dass es nicht aufs Internet zugreifen kann, sicher ist sicher.
Hat alles einen Monat lang super funktioniert mit wirklich sehr guter performance und war sehr zuverlässig.

Nun hatte durch einen Vorfall, bei dem wir viele Systeme wiederherstellen mussten, auch dieser Server einen Fehler und musste neu gestartet werden. Das war der erste Neustart, einen Monat nach Inbetriebnahme des Servers.

Problem:
Danach kam es dazu, dass immer, wenn auf das iSCSI-Target zugegriffen wird, dies zwar (mehr schlecht als recht) funktioniert, der Server dann aber offenbar irgendeinen Deadlock hat, also man sieht nich ganz wenige Frames für den Anfang und dann friert die Sitzung komplett ein. Selbst die Uhrzeit aktualisiert sich nicht mehr. Der Ping auf das System antwortet aber noch.

Es bleibt nicht einmal ein sauberer Reboot über die management-Oberfläche des zugrunde liegenden Terra-Servers.
Einzig ein Power-cycle bzw. force shutdown funktioniert.

Sowohl der Zugriff von Veeam aus als auch aus dem Dateisystem lösen das aus. Deaktiviere ich den Microsoft ISCSI-Dienst, bleibt das Target selbstverständlich im System unsichtbar aber der Server läuft problemlos weiter, seit mehr als einem Tag.

Ein Versuch, die Remotedesktopverbindung neu aufzubauen scheitert ebenfalls, es kommt nicht einmal eine Passwortabfrage. Am Gerät selbst komme ich auch mit Tastatur nicht zu einem Loginscreen. Teils reagiert nicht einmal NumLock.
Wenn der TaskManager während des Einfrierens läuft, sieht man als letzten Frame den Prozess: System (NT Kernel & System) mit 12 K Memory bei 33% CPU Load rödeln. GesamtCPU-Load: ca. 100%.
Verbaut ist ein Xeon E-356G @ 3,2 GHz (6C,12T) und 32 GB RAM.

Vielleicht hilft das noch bei der Einordnung.
Aus den Event views sehe ich nicht viel während dieser Phasen.
Vielmehr scheint er währenddessen so ziemlich gar nichts zu loggen. Nächstes Ereignis ist dann mit großem Zeitabstand mit dem Poswercycle zu verzeichnen.

Frage:
Kennt jemand dieses Verhalten oder weiß, wie man es löst?


Grüße und danke im Voraus.

Mondragor
Auf Facebook teilen
Auf X (Twitter) teilen
Auf Reddit teilen
Auf Linkedin teilen

Content-ID: 672774

Url: https://administrator.de/forum/windows-server-2025-friert-komplett-nach-reboot-und-zugriff-auf-iscsi-target-ein-672774.html

Ausgedruckt am: 08.05.2025 um 05:05 Uhr

pebcak7123
pebcak7123 07.05.2025 um 17:02:45 Uhr
Goto Top
Moin,
da fehlen leider so ziemlich alle wichtigen Informationen. Welche und wie viele NICs ? Wird teaming benutzt ?
Der Backupserver erscheint mir auch reichlich schwach mit der asbach Rocket Lake CPU und nur 32GB Ram, bei 480TB würd ich ja mehr als nur ne Handvoll Jobs erwarten
Penny.Cilin
Penny.Cilin 07.05.2025 um 17:09:03 Uhr
Goto Top
pebcak7123 07.05.2025 um 17:02:45 Uhr

Moin,
da fehlen leider so ziemlich alle wichtigen Informationen. Welche und wie viele NICs ? Wird teaming benutzt ?
Der Backupserver erscheint mir auch reichlich schwach mit der asbach Rocket Lake CPU und nur 32GB Ram, bei 480TB würd ich ja mehr als nur ne Handvoll Jobs erwarten

Auch hier wieder: Wie man eine Frage richtig stellt!
Liest man die Hilfe nicht?

Gruss Penny.
Mondragor
Mondragor 07.05.2025 aktualisiert um 18:40:27 Uhr
Goto Top
Zitat von @pebcak7123:

Moin,
da fehlen leider so ziemlich alle wichtigen Informationen. Welche und wie viele NICs ? Wird teaming benutzt ?
Der Backupserver erscheint mir auch reichlich schwach mit der asbach Rocket Lake CPU und nur 32GB Ram, bei 480TB würd ich ja mehr als nur ne Handvoll Jobs erwarten


Der Server hat 2 x 10 GBit RJ45 (Intel 210), wobei einer quasi in das Intranet schaut, die andere die Verbindung zum Storage gewährleistet.
Da beide NICs in verschiedene VLANs schauen, kein Teaming, LAG oder dergleichen.
Es macht nicht eben die Anzahl der Jobs als eher der Datenumfang je Fullbackup.
Wie gesagt, es schrieb mit teils über 1 Gigabyte je Sekunde, alles gut soweit. Also Performance passte immer.

Software ist Veeam B&R Standardversion, die man halt damals zur Essentials Plus von VMWare dazu geholt hat. Neueste Version...

Wenn Du noch was konkretes wissen musst, frag halt...

Die 480 TB sind halt, um auch für die Zukunft noch Reserven zu haben, bei einem entsprechenden Vorhaltekonzept. Aktuelle Datenmenge ist ca. 40 TB je Vollsicherung. Größte Server sind Gut 18 und 12.4 TB pro Job.

Ich habe extra dazu geschrieben, dass die Lösung dazu von einem Systemhaus bereitgestellt wurde. Ich finde es müßig, jetzt über solche Einzelheiten zu befinden, wenn ich schreibe, dass es für unser Dafürhalten gut und performant lief, bis zum Neustart. Bitte akzeptiere das als Realität. Das denke ich mir nicht aus.

Grüße
Mondragor
Mondragor
Mondragor 07.05.2025 aktualisiert um 18:33:06 Uhr
Goto Top
Zitat von @Penny.Cilin:

pebcak7123 07.05.2025 um 17:02:45 Uhr

Moin,
da fehlen leider so ziemlich alle wichtigen Informationen. Welche und wie viele NICs ? Wird teaming benutzt ?
Der Backupserver erscheint mir auch reichlich schwach mit der asbach Rocket Lake CPU und nur 32GB Ram, bei 480TB würd ich ja mehr als nur ne Handvoll Jobs erwarten

Auch hier wieder: Wie man eine Frage richtig stellt!
Liest man die Hilfe nicht?

Gruss Penny.

Hallo, auch Du bist herzlich eingeladen, mir konkrete Fragen zu stellen.
Zusammengefasst, wenn ich den ISCSI-initiator nicht aktiv habe, läufts. Wenn er aktiv ist und sich das Storage verbindet, muss nur ein Zugriff stattfinden, damit das System in ca. 30 - 90 Sekunden das beschriebene Verhalten zeigt.
Ich mag mich irren, aber meines Erachtens ist egal, was damit gebackupt wird, welche Software das Backup schreibt oder wo ich geboren bin. Es ist einfach dieser Unterschied, der ausmacht, ob das System einfriert oder nicht, egal, welche Anwendung auf das damit eingebundene "Laufwerk" letztendlich zugreift.

So stellt sich das Problem für mich dar und daher weiß ich nicht, welche Information Euch fehlt. Einen Link dazu zu posten, wie man eine Frage stellt, hilft mir da leider nicht, weil ich denke, dass ich mir Mühe gegeben habe, die von mir bereits gewonnenen Erkenntnisse soweit einzuflechten, sodass (meines Erachtens) überflüssige Informationen nicht unbedingt noch rein müssen.

Wenn dann etwas konkretes fehlt, bitte nachfragen. Ich gebe mir Mühe, entsprechend nachzuliefern.

Was mir bisher jedoch noch nie weiter geholfen hat, sind Leute, die aus Prinzip genau solche Kommentare schreiben, ohne je im Verlauf "wieder" irgendetwas Hilfreiches beizutragen.
Warum verschwendet man seine Lebenszeit damit, so einen Kommentar zu posten?
Nichts davon nimmt auch nur einen Funken an Bezug auf die Informationen, die ich bereits geliefert habe, konkretisiert, was angeblich fehlt oder nimmt Bezug die Frage, die ich gestellt habe.

Grüße
Mondragor
C.R.S.
C.R.S. 07.05.2025 um 18:58:51 Uhr
Goto Top
Hallo,

sinnvolle nächste Schritte wären, das Volume auf einem alternativen Rechner/OS zu mounten und jeweils abzuschichten, ob schon das Einhängen der Disk oder erst des Volumes zum Problem führt. Wahrscheinlich liegt halt ein Dateisystemfehler vor, der beim Parsing des Dateisystems zu dem Crash führt.

Den könnte man prinzipiell an der eingehängten Disk diagnostizieren, oder auch Daten mit alternativen Parsern wiederherstellen. Aber bei einem Backup-Ziel ist es an sich naheliegender, in einem solchen Fall das Volume neu aufzubauen und die Backups nachzuholen.

Grüße
Richard
em-pie
em-pie 07.05.2025 um 19:39:41 Uhr
Goto Top
Moin,

Vorweg: iSCSI ist ein Thema, bei dem ich nur weiß, wie man es schreibt und dass es auf EthernetFrames basiert face-wink

Zergliedere das Problem:
Hast du mal alle Veeam-Dienste deaktiviert, die Kiste neu gestartet und dann das iSCSI-Target wieder verbunden? Wenn das stabil läuft: kannst du gesichert per Explorer drauf arbeiten?
Wenn es stabil läuft: VEEAM in den Fokus holen. Welche Version setzt du ein? 12.3.1?

Wenn der Explorer-Zugriff auch schon scheitert: mal am Target eine weitere LUN angelegt und die gemounted?
Wurden im Rahmen des Reboots Updates (Windows) installiert?
Wie verhält sich ein anderer Initiator (wie oben schon beschrieben)…


Am Rande: sehr gewagt, VEEAM/ Windows nur mit einem Bein an das Target anzubinden. Werden Daten geschrieben und während dessen bricht dir die Verbindung (physisch) weg, kann das zu Datensalat führen. Mit einer Mehrport-Verbindung (MPIO) fährst du besserface-wink Ist es im übrigen eine DualPort-Karte oder zwei Single? Oder sind die onBoard?

Noch ne Frage: ist die NIC direkt mit dem Target verbunden oder hängt da noch ein Switch zwischen?
Coreknabe
Coreknabe 07.05.2025 um 22:42:01 Uhr
Goto Top
Moin,

Deiner Beschreibung nach hängt zwischen Server und Storage ein Switch. Verbinde doch einmal testweise den Server direkt mit dem Storage. Bleibt der Fehler, kannst Du Dir die Fehlersuche am Switch im Grunde sparen.

Ansonsten:
  • Verwendet Ihr Jumbo Frames?
  • Ping läuft, OK. Aber hast Du auch einen Dauerping mit -f laufen lassen? Bei Jumbo Frames bspw. ping -f 8972. Paketverluste? Oder gar ein Hinweis auf Fragmentierung?
  • Flow Control aktiv und an den entscheidenden Stellen entsprechend konfiguriert?
  • Intel Netzwerkkarte, NVM stimmt mit Treiberversion Intel ProSet überein?
  • Da RJ45, Kabelspezifikation reicht für 10Gbit aus? Testweise Kabeltausch?
  • Ihr habt das iSCSI-Target hoffentlich nicht mit ReFS formatiert?

Das mal so als spontane Ideen face-wink

Gruß