mondragor

Windows Server 2025 friert komplett nach Reboot und Zugriff auf iSCSI-Target ein

back-to-topUmgebung: Windows Server 2025 (Build 26100.3476).


Hallo,

Hergang:
vor gut einem Monat wurde ein neuer Backupserver für unsere Umgebung installiert. Das hat ein Systemhaus vorgenommen.
Dieses wurde in ein separates VLAN gepackt und die Verbindung zwischen diesem und dem Storage (ISCSI) noch mal in ein eigenes.
C: läuft auf M.2 SSD und das ISCSI-Target bindet das 480TB Storage an.
Per Firewall und in den Switchen ist das alles so eingerichtet, dass es nicht aufs Internet zugreifen kann, sicher ist sicher.
Hat alles einen Monat lang super funktioniert mit wirklich sehr guter performance und war sehr zuverlässig.

Nun hatte durch einen Vorfall, bei dem wir viele Systeme wiederherstellen mussten, auch dieser Server einen Fehler und musste neu gestartet werden. Das war der erste Neustart, einen Monat nach Inbetriebnahme des Servers.

Problem:
Danach kam es dazu, dass immer, wenn auf das iSCSI-Target zugegriffen wird, dies zwar (mehr schlecht als recht) funktioniert, der Server dann aber offenbar irgendeinen Deadlock hat, also man sieht nich ganz wenige Frames für den Anfang und dann friert die Sitzung komplett ein. Selbst die Uhrzeit aktualisiert sich nicht mehr. Der Ping auf das System antwortet aber noch.

Es bleibt nicht einmal ein sauberer Reboot über die management-Oberfläche des zugrunde liegenden Terra-Servers.
Einzig ein Power-cycle bzw. force shutdown funktioniert.

Sowohl der Zugriff von Veeam aus als auch aus dem Dateisystem lösen das aus. Deaktiviere ich den Microsoft ISCSI-Dienst, bleibt das Target selbstverständlich im System unsichtbar aber der Server läuft problemlos weiter, seit mehr als einem Tag.

Ein Versuch, die Remotedesktopverbindung neu aufzubauen scheitert ebenfalls, es kommt nicht einmal eine Passwortabfrage. Am Gerät selbst komme ich auch mit Tastatur nicht zu einem Loginscreen. Teils reagiert nicht einmal NumLock.
Wenn der TaskManager während des Einfrierens läuft, sieht man als letzten Frame den Prozess: System (NT Kernel & System) mit 12 K Memory bei 33% CPU Load rödeln. GesamtCPU-Load: ca. 100%.
Verbaut ist ein Xeon E-356G @ 3,2 GHz (6C,12T) und 32 GB RAM.

Vielleicht hilft das noch bei der Einordnung.
Aus den Event views sehe ich nicht viel während dieser Phasen.
Vielmehr scheint er währenddessen so ziemlich gar nichts zu loggen. Nächstes Ereignis ist dann mit großem Zeitabstand mit dem Poswercycle zu verzeichnen.

Frage:
Kennt jemand dieses Verhalten oder weiß, wie man es löst?


Grüße und danke im Voraus.

Mondragor
Auf Facebook teilen
Auf X (Twitter) teilen
Auf Reddit teilen
Auf Linkedin teilen

Content-ID: 672774

Url: https://administrator.de/forum/windows-server-2025-friert-komplett-nach-reboot-und-zugriff-auf-iscsi-target-ein-672774.html

Ausgedruckt am: 08.05.2025 um 10:05 Uhr

pebcak7123
pebcak7123 07.05.2025 um 17:02:45 Uhr
Goto Top
Moin,
da fehlen leider so ziemlich alle wichtigen Informationen. Welche und wie viele NICs ? Wird teaming benutzt ?
Der Backupserver erscheint mir auch reichlich schwach mit der asbach Rocket Lake CPU und nur 32GB Ram, bei 480TB würd ich ja mehr als nur ne Handvoll Jobs erwarten
Penny.Cilin
Penny.Cilin 07.05.2025 um 17:09:03 Uhr
Goto Top
pebcak7123 07.05.2025 um 17:02:45 Uhr

Moin,
da fehlen leider so ziemlich alle wichtigen Informationen. Welche und wie viele NICs ? Wird teaming benutzt ?
Der Backupserver erscheint mir auch reichlich schwach mit der asbach Rocket Lake CPU und nur 32GB Ram, bei 480TB würd ich ja mehr als nur ne Handvoll Jobs erwarten

Auch hier wieder: Wie man eine Frage richtig stellt!
Liest man die Hilfe nicht?

Gruss Penny.
Mondragor
Mondragor 07.05.2025 aktualisiert um 18:40:27 Uhr
Goto Top
Zitat von @pebcak7123:

Moin,
da fehlen leider so ziemlich alle wichtigen Informationen. Welche und wie viele NICs ? Wird teaming benutzt ?
Der Backupserver erscheint mir auch reichlich schwach mit der asbach Rocket Lake CPU und nur 32GB Ram, bei 480TB würd ich ja mehr als nur ne Handvoll Jobs erwarten


Der Server hat 2 x 10 GBit RJ45 (Intel 210), wobei einer quasi in das Intranet schaut, die andere die Verbindung zum Storage gewährleistet.
Da beide NICs in verschiedene VLANs schauen, kein Teaming, LAG oder dergleichen.
Es macht nicht eben die Anzahl der Jobs als eher der Datenumfang je Fullbackup.
Wie gesagt, es schrieb mit teils über 1 Gigabyte je Sekunde, alles gut soweit. Also Performance passte immer.

Software ist Veeam B&R Standardversion, die man halt damals zur Essentials Plus von VMWare dazu geholt hat. Neueste Version...

Wenn Du noch was konkretes wissen musst, frag halt...

Die 480 TB sind halt, um auch für die Zukunft noch Reserven zu haben, bei einem entsprechenden Vorhaltekonzept. Aktuelle Datenmenge ist ca. 40 TB je Vollsicherung. Größte Server sind Gut 18 und 12.4 TB pro Job.

Ich habe extra dazu geschrieben, dass die Lösung dazu von einem Systemhaus bereitgestellt wurde. Ich finde es müßig, jetzt über solche Einzelheiten zu befinden, wenn ich schreibe, dass es für unser Dafürhalten gut und performant lief, bis zum Neustart. Bitte akzeptiere das als Realität. Das denke ich mir nicht aus.

Grüße
Mondragor
Mondragor
Mondragor 07.05.2025 aktualisiert um 18:33:06 Uhr
Goto Top
Zitat von @Penny.Cilin:

pebcak7123 07.05.2025 um 17:02:45 Uhr

Moin,
da fehlen leider so ziemlich alle wichtigen Informationen. Welche und wie viele NICs ? Wird teaming benutzt ?
Der Backupserver erscheint mir auch reichlich schwach mit der asbach Rocket Lake CPU und nur 32GB Ram, bei 480TB würd ich ja mehr als nur ne Handvoll Jobs erwarten

Auch hier wieder: Wie man eine Frage richtig stellt!
Liest man die Hilfe nicht?

Gruss Penny.

Hallo, auch Du bist herzlich eingeladen, mir konkrete Fragen zu stellen.
Zusammengefasst, wenn ich den ISCSI-initiator nicht aktiv habe, läufts. Wenn er aktiv ist und sich das Storage verbindet, muss nur ein Zugriff stattfinden, damit das System in ca. 30 - 90 Sekunden das beschriebene Verhalten zeigt.
Ich mag mich irren, aber meines Erachtens ist egal, was damit gebackupt wird, welche Software das Backup schreibt oder wo ich geboren bin. Es ist einfach dieser Unterschied, der ausmacht, ob das System einfriert oder nicht, egal, welche Anwendung auf das damit eingebundene "Laufwerk" letztendlich zugreift.

So stellt sich das Problem für mich dar und daher weiß ich nicht, welche Information Euch fehlt. Einen Link dazu zu posten, wie man eine Frage stellt, hilft mir da leider nicht, weil ich denke, dass ich mir Mühe gegeben habe, die von mir bereits gewonnenen Erkenntnisse soweit einzuflechten, sodass (meines Erachtens) überflüssige Informationen nicht unbedingt noch rein müssen.

Wenn dann etwas konkretes fehlt, bitte nachfragen. Ich gebe mir Mühe, entsprechend nachzuliefern.

Was mir bisher jedoch noch nie weiter geholfen hat, sind Leute, die aus Prinzip genau solche Kommentare schreiben, ohne je im Verlauf "wieder" irgendetwas Hilfreiches beizutragen.
Warum verschwendet man seine Lebenszeit damit, so einen Kommentar zu posten?
Nichts davon nimmt auch nur einen Funken an Bezug auf die Informationen, die ich bereits geliefert habe, konkretisiert, was angeblich fehlt oder nimmt Bezug die Frage, die ich gestellt habe.

Grüße
Mondragor
C.R.S.
C.R.S. 07.05.2025 um 18:58:51 Uhr
Goto Top
Hallo,

sinnvolle nächste Schritte wären, das Volume auf einem alternativen Rechner/OS zu mounten und jeweils abzuschichten, ob schon das Einhängen der Disk oder erst des Volumes zum Problem führt. Wahrscheinlich liegt halt ein Dateisystemfehler vor, der beim Parsing des Dateisystems zu dem Crash führt.

Den könnte man prinzipiell an der eingehängten Disk diagnostizieren, oder auch Daten mit alternativen Parsern wiederherstellen. Aber bei einem Backup-Ziel ist es an sich naheliegender, in einem solchen Fall das Volume neu aufzubauen und die Backups nachzuholen.

Grüße
Richard
em-pie
em-pie 07.05.2025 um 19:39:41 Uhr
Goto Top
Moin,

Vorweg: iSCSI ist ein Thema, bei dem ich nur weiß, wie man es schreibt und dass es auf EthernetFrames basiert face-wink

Zergliedere das Problem:
Hast du mal alle Veeam-Dienste deaktiviert, die Kiste neu gestartet und dann das iSCSI-Target wieder verbunden? Wenn das stabil läuft: kannst du gesichert per Explorer drauf arbeiten?
Wenn es stabil läuft: VEEAM in den Fokus holen. Welche Version setzt du ein? 12.3.1?

Wenn der Explorer-Zugriff auch schon scheitert: mal am Target eine weitere LUN angelegt und die gemounted?
Wurden im Rahmen des Reboots Updates (Windows) installiert?
Wie verhält sich ein anderer Initiator (wie oben schon beschrieben)…


Am Rande: sehr gewagt, VEEAM/ Windows nur mit einem Bein an das Target anzubinden. Werden Daten geschrieben und während dessen bricht dir die Verbindung (physisch) weg, kann das zu Datensalat führen. Mit einer Mehrport-Verbindung (MPIO) fährst du besserface-wink Ist es im übrigen eine DualPort-Karte oder zwei Single? Oder sind die onBoard?

Noch ne Frage: ist die NIC direkt mit dem Target verbunden oder hängt da noch ein Switch zwischen?
Coreknabe
Coreknabe 07.05.2025 um 22:42:01 Uhr
Goto Top
Moin,

Deiner Beschreibung nach hängt zwischen Server und Storage ein Switch. Verbinde doch einmal testweise den Server direkt mit dem Storage. Bleibt der Fehler, kannst Du Dir die Fehlersuche am Switch im Grunde sparen.

Ansonsten:
  • Verwendet Ihr Jumbo Frames?
  • Ping läuft, OK. Aber hast Du auch einen Dauerping mit -f laufen lassen? Bei Jumbo Frames bspw. ping -f 8972. Paketverluste? Oder gar ein Hinweis auf Fragmentierung?
  • Flow Control aktiv und an den entscheidenden Stellen entsprechend konfiguriert?
  • Intel Netzwerkkarte, NVM stimmt mit Treiberversion Intel ProSet überein?
  • Da RJ45, Kabelspezifikation reicht für 10Gbit aus? Testweise Kabeltausch?
  • Ihr habt das iSCSI-Target hoffentlich nicht mit ReFS formatiert?

Das mal so als spontane Ideen face-wink

Gruß
pebcak7123
pebcak7123 08.05.2025 um 08:54:27 Uhr
Goto Top
Wegen was für einem Fehler musste der Server denn neu gestartet werden ? Danach scheinen ja die Probleme angefangen zu haben.
Wurde schon mal neu installiert ? Für die Intel i210 gabs vorletzte Woche neue Treiber, wurden die evtl aktualisiert ?
Mal versucht sich wenn der hängt sich falls möglich über powershell draufzuschalten ?
Wenn Windows-Logs nichts aussagen was sagen die Logs vom Baseband Management ?
MysticFoxDE
MysticFoxDE 08.05.2025 um 09:20:56 Uhr
Goto Top
Moin @Coreknabe,

meine Kristallkugel sagt mir, dass du damit ...

* Ihr habt das iSCSI-Target hoffentlich nicht mit ReFS formatiert?

... wahrscheinlich schon ins schwarze getroffen hast.

Denn Veeam mault schon seit Jahren ein Backup-Target an, wenn es mit NTFS formatiert ist und weist darauf hin, dass man dieses mit ReFS formatieren sollte. 😬

Was jedoch total bescheuert ist, da ReFS über iSCSI und vor allem bei derart grossen LUN's, überhaupt nicht stabil läuft. 😔

Gruss Alex
MysticFoxDE
MysticFoxDE 08.05.2025 aktualisiert um 09:33:36 Uhr
Goto Top
Moin @Mondragor,

ich mach es kurz, aber leider nicht schmerzlos.

Wenn das was @Coreknabe betreffend ReFS schon erwähnt hat zutrifft, sprich, wenn du die iSCSI LUN tatsächlich mit ReFS formatiert hast und oder das Systemhaus, was am Ende des Tages auch vollkommen egal ist, da hier die Schuld definitiv bei Microsoft und auch bei Veeam liegt, dann habe ich für dich eine schlechte Nachricht, denn die Wahrscheinlichkeit, dass dir das ReFS um die Ohren geflogen ist, liegt meiner eigenen Erfahrung nach leider bei > 99%.

Denn genau das was du beschreibst, ist uns selbst schon vor mehreren Jahren bei einem Kunden passiert. 😭

Bei diesem hatten wir auch ein ~ 250 TB grosse iSCSI-LUN an Veeam drangehängt und hatten diese dann auch mit ReFS formatiert, weil es Veeam damals schon "empfohlen" hat. Diese ReFS formatierte LUN ist dann jedoch innerhalb von einem Jahren zwei Mal komplett um die Ohren geflogen, mit ähnlichen Effekten wie bei dir. Danach wurde die LUN mit NTFS und einer Block-Size von 64K formatiert und seitdem läuft diese nun seit einigen Jahren ohne Probleme.

Gruss Alex
MysticFoxDE
MysticFoxDE 08.05.2025 aktualisiert um 09:46:59 Uhr
Goto Top
Moin @Mondragor,

ich glaube, du solltest dir das ...

https://www.borncity.com/blog/2025/04/02/windows-server-2019-2025-maerz- ...

... und auch das ...

https://www.veeam.com/kb2792

... mal etwas genauer durchlesen. 😬

Insbesondere denn folgenden Hinweis von Veeam ...

windows server 2025 friert komplett nach reboot und zugriff auf iscsi-target ein - 01

... finde ich schon sehr spannend.

Denn bei der Einrichtung selbst, weist Veeam einfach nur darauf hin, dass es anstelle eines NTFS formatierten Volume, lieber ein ReFS formatiertes Volume hätte, ohne auch nur eine Silbe über die damit auch verbundenen Risiken zu erwähnen. 😔

Gruss Alex
Coreknabe
Coreknabe 08.05.2025 aktualisiert um 10:32:24 Uhr
Goto Top
Moin,

@mysticfox

Denn Veeam mault schon seit Jahren ein Backup-Target an, wenn es mit NTFS formatiert ist und weist darauf hin, dass man dieses mit ReFS formatieren sollte.

Man beachte hier auch die Historie. Erst von Veeam empfohlen und propagiert, dann verschämt in KB-Einträgen versteckt, dass das keine gute Idee ist, als Krönung erfolgt IMMER NOCH (aktuelle Version 12.3.1) eine Warnung in Veeam. Hammer...

Dazu muss man sagen, ich hatte hier auch diverse Dinge zum Thema iSCSI gepostet, wenn man sich drauf einlässt, der Datendurchsatz ist mit ReFS tatsächlich fast doppelt so hoch, wie mit NTFS! Zumindest habe ich das nach einigen kurzen Tests so beobachtet. Wenn man also vorher nicht recherchiert hat und sich auf die Veeam-Warnung verlässt, wird die Begeisterung bis zum ersten Einschlag anhalten...

Aber das sind alles Spekulationen, solange der TO sich hier nicht mehr äußert face-wink

Gruß
MysticFoxDE
MysticFoxDE 08.05.2025 aktualisiert um 12:36:26 Uhr
Goto Top
Moin @Coreknabe,

Man beachte hier auch die Historie. Erst von Veeam empfohlen und propagiert

das wird es seit ~2016 bis heute immer noch.

https://www.veeam.com/blog/advanced-refs-integration-coming-veeam-availa ...
https://www.veeam.com/resources/wp-availability-suite-advanced-refs-inte ...
https://www.veeam.com/resources/videos/storage-best-practices-recorded-d ...

😔

Interessant finde ich dem ersten Link auch die folgende Aussage.

„The advanced ReFS integration supports ReFS volumes on internal, direct-attached storage (DAS) and Storage Spaces — both classic and Storage Spaces Direct (S2D).“

Sprich, hier steckt meiner Ansicht nach eigentlich schon ein Hinweis, dass ReFS nur für DAS oder S2D geeignet ist.

By the way, die Backups mit auf das produktive S2D abzulegen, ist fürchte ich auch nicht wirklich eine sehr kluge Idee und ein extra S2D nur für Backups zu implementieren, ist meiner Ansicht nach fast noch bescheuerter. 😔

Somit bleibt nur noch DAS übrig, wobei auch hier kein RAID-Kontroller dazwischen stecken sollte, da sich diese auch gerne mit ReFS beissen. 🙃

Somit bleibt für ReFS nur noch ein einzelnes Laufwerk, was direkt per SAS oder PCIe am Veeam Server dranhängt als mögliches Backupziel übrig und diese Konstellation, ist eher alles andere als alltagstypisch.

dann verschämt in KB-Einträgen versteckt, dass das keine gute Idee ist, als Krönung erfolgt IMMER NOCH (aktuelle Version 12.3.1) eine Warnung in Veeam. Hammer...

Tja, vielleicht verstehst du nun etwas besser, warum ich mir in letzter Zeit, insbesondere die Software Hersteller besonders gerne vorknöpfe. 😉

Dazu muss man sagen, ich hatte hier auch diverse Dinge zum Thema iSCSI gepostet, wenn man sich drauf einlässt, der Datendurchsatz ist mit ReFS tatsächlich fast doppelt so hoch, wie mit NTFS! Zumindest habe ich das nach einigen kurzen Tests so beobachtet. Wenn man also vorher nicht recherchiert hat und sich auf die Veeam-Warnung verlässt, wird die Begeisterung bis zum ersten Einschlag anhalten...

Ja, ReFS bringt bei gewissen Dingen durchaus einen Zugewinn, aber nicht wirklich in jeder Umgebung und es hat vor allem auch enorme Nachteile, vor allem was dessen Stabilität angeht.

Darüber spricht jedoch so gut wie kein Hersteller, zumindest nicht besonders offen.

Einer meiner ersten Artikel die ich hier geschrieben habe, war übrigens dieser …

Warum ihr keine ReFS Formatierung für CSVs verwenden solltet, die von einem SAN bereitgestellt werden

… hier.

Und es hat am Ende des Tages über 2 Jahre gedauert, bis Microsoft die entsprechende Dokus so überarbeitet hat, dass in diesen ReFS nicht mehr pauschal auch für CSV’s empfohlen wird. 😔

Aber das sind alles Spekulationen, solange der TO sich hier nicht mehr äußert

Ich fürchte, der TO ist wahrscheinlich schon dabei seinen Diensleister wegen dem ReFS zu kloppen. 😬

Gruss Alex