29.04.2025

3345

Server 2025 HCI S2D Cluster mit aktuellen AMD Epyc?

Hallo zusammen,
wir sind gerade dabei über unseren Lieferanten einen neuen 2-Knoten Cluster zusammen stellen zu lassen, welche räumlich getrennt stehen werden, mit rund 160m OM4 LWL dazwischen. Dabei hatten wir auch ein paar wünsche geäußert wie 2x AMD Epyc 9375F CPUs je Knoten, 1TB Ram, 30TB (Netto!) U.2/3 SSDs, Mellanox ConnectX-6 Karten 25G SFP28

Scheinbar bietet soetwas aber auch nicht jeder Hersteller an, da die Hardware wohl zertifiziert sein muss damit ein S2D Cluster überhaupt erst eingerichtet werden kann? Gibt wohl nur ältere Epyc Systeme, oder halt Intel - was wir aber nicht wollen weil ineffizienter und weniger Performance.

Es sollen zukünftig um die 30-40VMs darauf laufen. OS wird MS Server 2025 Datacenter, ohne Azure, also alles klassisch OnPrem.

Wir hatten auch schon die Überlegung, das ganze selber zusammen zu bauen wenn es keiner der großen Hersteller hinbekommt - dann sind wir Servicetechnisch natürlich auf uns alleine gestellt.

Wie schaut es aus mit der Einrichtung? würde eine S2D einrichten dennoch funktionieren und nicht nicht supported werden falls doch mal ein so hartnäckiger Fehler auftreten sollte, dass wir den MS Support direkt kontaktieren müssten?

Und noch eine frage am rande: Wie würdet ihr die Festplatten-Redundanz über den S2D einrichten? gibt ja verschiedene Spiegelungsarten....

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 672658

Url: https://administrator.de/forum/server-2025-hci-s2d-cluster-mit-aktuellen-amd-epyc-672658.html

Ausgedruckt am: 17.07.2025 um 14:07 Uhr

44 Kommentare

Neuester Kommentar

Moin,
zu S2D, würde ich dringend von abraten bei nur 2 nodes. Das läuft und lief noch nie wirklich zuverlässig, zusätzlich wie du schon bemerkt hast diese schwachsinnigen Anforderungen bezüglich zertifizierung. Alternative ist stattdessen zB Starwind vSAN zu nutzen.

Macht lieber nicht so ein Fancy S2D Cluster, es funktioniert zwar aber hat halt doch viele Dinge die beachtet werden müssen.
Wie wäre es mit einer ganz normalen Virtualisierungs Umgebung Storage System + Compute Units + Virtualisierungsplattform.

Meint ihr sowas wie zwei dicke Synology's welche sich gegenseitig replizieren und das Storage über FC an die Server bereitstellen, und eben zwei Server mit reichlich RAM und CPU für das HyperV?

Starwind vSAN macht im Grunde ähnliches wie S2D, Storage ist in jedem Server und darüber wird dann ein virtuelles RAID gebildet das per iSCSI dem Hyper-V Cluster zur verfügung gestellt wird. Funktioniert zumindest in der 2 Node variante deutlich zuverlässiger und schneller als S2D, kostet zwar extra, dafür ist deren Support aber echt auf Zack.

andere möglichkeit wäre wie @Geomatrix schon gesagt hat, klassisch nen Blockstorage zu verwenden und das per iscsi oder fc an beide Nodes anzubinden, in deinem fall wohl eher iscsi. Synology wäre da eher nicht erste Wahl sondern sowas wie Dell ME5024 oder HP MSA 2060, gibts natürlich in beliebig teuer...

Aktuell verwendet unserer Cluster das DataCore SANsymphony, da wird das Storage auch via iSCSI hochgegeben...wir empfinden diese art aber als recht unperformant, vor allem wenn mehrere VMs viel IOPS erzeugen. Trotz mehrere Enterprise SSDs pro Knoten.
Ich vermute da, dass es am iSCSI liegt, welches zuviel CPU overhead verursacht.

Daher die Idee mit nativen Boardmitteln wie eben S2D zu arbeiten...das gibts ja auch nicht erst seit gestern, das sollte doch - gerade im Server 2025 schon gut ausgereift sein, oder doch nicht?

Zitat von @Assassin:

Aktuell verwendet unserer Cluster das DataCore SANsymphony, da wird das Storage auch via iSCSI hochgegeben...wir empfinden diese art aber als recht unperformant, vor allem wenn mehrere VMs viel IOPS erzeugen. Trotz mehrere Enterprise SSDs pro Knoten.
Ich vermute da, dass es am iSCSI liegt, welches zuviel CPU overhead verursacht.

liegt vermutlich eher an SANsymphony

Daher die Idee mit nativen Boardmitteln wie eben S2D zu arbeiten...das gibts ja auch nicht erst seit gestern, das sollte doch - gerade im Server 2025 schon gut ausgereift sein, oder doch nicht?

Das ist einfach nicht auf zwei Knoten ausgelegt, auch wenn es theoretisch funktioniert, wenn da zb der Storage gesynct werden muss geht erstmal gar nichts mehr. Perfomance mit mirrored spaces ist ok mit parity immer noch unterirdisch.

Also wegen 30-40 VMs musst du nicht das letzte halbe % an Performance raus holen. Unsere Intel Gold's horten 60-70 VMs und langweilen sich. Der Flaschenhals ist immer zu wenig RAM, wenn es sich um normale Firmen handelt und keine Multimedia Buden sind, wie Pixar

@kreuzberger
Du bist ein Witzbold

Was ist denn ein AMD Epcy? - Ach Du meint AMD Epyc!
Es gibt einen Bearbeitungsbutton um auch das Beitragsthema zu korrigieren.

Edit 30.04.2025]
Falscher TO erwiischt. Mein Fehler. OriginalTO hat Titel korrigiert.

Gruss Penny.

Zitat von @Penny.Cilin:

Ach Du meint AMD Epyc!

Du meinst vermutlich mein(s)t.

Gruss ukulele.

Zitat von @ukulele-7:

Zitat von @Penny.Cilin:

Ach Du meint AMD Epyc!

Du meinst vermutlich mein(s)t.

Gruss ukulele.

Genau

Schon korrigiert ;)

Gibt's keine hier, die bereits einen 2025er S2D einsetzen?

Moin,

Wir nutzen auch (nach wie vor) klassische SANs

Frage dich bei zwei Servern/ Knoten immer, wie du ein SplitBrain verhindern kannst. Bringt ja nichts, wenn du ein HA (egal ob per S2D oder SAN) etabliertst, allerdings ein großes Problem bekommst, wenn die Strecke zwischen den Systemen gekappt wird und jede Seite (die ja weiterhin intakt ist) meint, sie wäre der Master. Die Daten bekommst du irgendwann nicht mehr zusammen.

Wir haben dafür an einem dritten Standort ein Quorum etabliert. Wer von den SAN-HA-Knoten das Quorum „als erstes“ erreicht, hat die Hoheit über die Daten. Bei den erneuerungen der Hardware sowie bei turnusmäßigen Updates wird genau dies immer mit getestet - auch das Wiederanlaufen.

Ja, einen quorum PC haben wir auch an einem 3.standort für unsere Stratus EverRun FT Maschinen... Sowas wird's doch bestimmt auch für S2D HCI Cluster geben.
Das SanSymphony macht das unter sich aus, es gibt ja eine redundante direkt LWL P2P verbindung.

Zitat von @Assassin:

Ja, einen quorum PC haben wir auch an einem 3.standort für unsere Stratus EverRun FT Maschinen... Sowas wird's doch bestimmt auch für S2D HCI Cluster geben.

In stretched S2D Clustern nutzt man in der Regel ne Fileshare Witness an einem dritten Standort, das kann prinzipiell jedes beliebige Windows Fileshare sein. Alternativ kann man bei vorhandem Internetzugriff ne Azure Witness nutzen, das ist einfach nur ein kleiner BLOB Store in der Cloud. Die Herausforderung bei der Fileshare Witness ist das man das Netzwerk so designen muß das der Zugriff aufs Fileshare aus jedem Standort unabhängig vom anderen erfolgen muß.

Die Hardware für S2D muß nur im Windows Hardware Katalog aufgeführt sein, idealerweise als SDDC Premium zertifiziert. Das ganze System muß nicht zertifiziert sein, ist ja kein Azure Local Cluster. Für den Support durch Microsoft ist hier am Ende des Tages nur wichtig das der Cluster den Cluster Validation Test ohne Fehler besteht.

learn.microsoft.com/en-us/windows-server/storage/storage-spaces/ ...
windowsservercatalog.com/hardware

/Thomas

Ok, wenn ich das richtig sehe gibt es in dem Server Hardware catalog keine einzelnen CPUs wo man schauen kann, ob diese zertifiziert sind. Es scheint aber nicht eine Netzwerk karte zu geben, die sddc Premium Server 2025 zertifiziert ist, schon etwas arg eigenartig.

Das mit dem quorum ist auch klar, dass beide Knoten den erreichen müssen - ist bei uns auch gegeben.

Zitat von @pebcak7123:

Moin,
zu S2D, würde ich dringend von abraten bei nur 2 nodes. Das läuft und lief noch nie wirklich zuverlässig, zusätzlich wie du schon bemerkt hast diese schwachsinnigen Anforderungen bezüglich zertifizierung. Alternative ist stattdessen zB Starwind vSAN zu nutzen.

Quatsch ! Wir haben 3x 2 Node Cluster am laufen und das seit Jahren zuverlässig. Mag man bei MS kaum glauben.
Ist aber so. Auch mit der Zertifizierung ist das kein Thema. Muss man halt an die passenden Hersteller ran. HP / Dell / FSC / Krenn etc.

Mit Epyc hab ich keine Erfahrungen. Nur mit den Intel Gold und die laufen.

Gruss

Moin,

Also ich hab mal schnell bei Lenovo geschaut: sollte mit einem SR665v3 eigentlich alles lösbar sein.
CPU geht,
8x 64G Riegel um auf 1TB RAM zu kommen
25G MLX Karten gibt es…

Selbst die 30TB netto, wobei du nicht gesagt hast, ob JBOD, RAID 5, RAID6, RAID 10 oder auch RAID60…
Bei RAID6 kommst du aber mit 10x 3,84TB hin, zzgl. HOTSpare.

Ich würde im übrigen nicht auf 25G gehen, sondern Karten mit 40G bis 100G wählen. Da hast du weniger Leistungseinbussen/ bist Zukunftssicherer aufgestellt - sofern der Rest der Infrastruktur passt.
Oder beides: 25G fürs LAN und 40G/ 100G für die iSCSI-Verbindungen.
Wobei OM4 bis 150m bei 40/100G limitiert ist, bei 40G sollten aber auch 165m machbar sein (deine 160m+ Patchkabel)

Genau das ist bei uns das Problem, es sind rund 160,vielleicht auch 170m OM4, mit LC Patchpannels.
Die 50/100G Transceiver module die 200 oder 300m machen, haben einen MPO stecker - haben wir nicht, bzw. soviel Glasfaser liegen auch nicht zwischen den Gebäuden (da gibts es "nur" 8x LC)

Auch wegen dem RAID sind wir uns noch nicht so ganz im klaren was da besser wäre... Es ist ja auch kein richtiges RAID, weil S2D fasst dann alle einzelnen SSDs als Software-RAID zusammen.
Raid6 für ein leistungsstarken Server ist eh Gift, wenn dann eher sowas wie ein raid10, vieleicht noch raid5 - wobei auch dies gerade als Software basiertes raid (=S2D) ja auch nicht gerade performant sein soll soweit ich gelesen habe...

Moin @Assassin,

bei einem AS-HCI System, wird immer das jeweilige System als Ganzes zertifiziert und nicht die Einzelkomponnenten.

Wenn du nich viel Wert auf die grossen Namen wie DELL oder HPE legst, dann kannst du HCI, respektive, "Azure Local" zertifizierte Systeme auch bei ...

thomas-krenn.com/de/produkte/einsatzzweck/software-defined-stora ..?

... Thomas Krenn kaufen. 😉

Aber, ich würde dir eher ein SAN Konzept empfehlen, da diese ganze S2D Geschichte (Über Netzwerk verteiltes Software-RAID), performancetechnisch nicht wirklich das Blaue vom Himmel ist.

Und wenn SAN, dann bitte was richtiges und nicht was von Synology oder Qnap, sondern eher was in die ...

infortrend.com/de/products/families/esds/4000u

... Richtung.

Gruss Alex

Moin @Assassin,

Die 50/100G Transceiver module die 200 oder 300m machen, haben einen MPO stecker - haben wir nicht, bzw. soviel Glasfaser liegen auch nicht zwischen den Gebäuden (da gibts es "nur" 8x LC)

100G sind auch über ...

fs.com/de-en/products/135557.html?

... oder ...

fs.com/de-en/products/179813.html?

... LC-Duplex möglich, ist aber bei MM auf max. 100m spezifiziert, jedoch mit OM3.
Eventuell ist mit OM4 auch deine Strecke zu schaffen.

Gruss Alex

Servus Alex, darum meinte ich ja auch: Transceiver welche über 200 oder 300m mitmachen...dass es 100G LC Module gibt weiß ich, aber eben nur bis 100m

Hab auch das von dir verlinkte QSFP-LX4-100G schon gesehen, aber das ist auch mit OM4 nur bis 100m angegeben:
support.huawei.com/enterprise/en/doc/EDOC1100095397/f5394f29/qsf ...

aktuell fahren wir unseren Datacore mit 2x 16G FC - geht auch, dauert halt ein paar Minuten eb alles rüber ist oder neu gesynct ist.
Darum war die idee mit mehreren 25G Modulen zu arbeiten, die arbeiten ja dann eh über SMB3 und somit über "Kanalbündelung"

Moin @Assassin,

Servus Alex, darum meinte ich ja auch: Transceiver welche über 200 oder 300m mitmachen...dass es 100G LC Module gibt weiß ich, aber eben nur bis 100m

Hab auch das von dir verlinkte QSFP-LX4-100G schon gesehen, aber das ist auch mit OM4 nur bis 100m angegeben:
support.huawei.com/enterprise/en/doc/EDOC1100095397/f5394f29/qsf ...

ich sehe es gerade selber, selbst bei 50G sieht es nicht besser aus. 😬

Auf der anderen Seite, wenn man von diesem ganzen vSAN Sync Mist mal absieht, benötigt ein normales Unternehmen heutzutage auch nicht wirklich 100G, selbst 25G sind bei den Meisten schon zu viel des Guten. 🙃

Ausserdem ist kann man selbst mit einem Server 2025, stand heute und aus diversesten Gründen, zumindest per Default, noch nicht mal eine 10G Schnittstelle anständig ausreizen, geschweige denn was Schnellerem. 😔😭
Einen SAS-HBA oder FC-HBA, steckt man meistens rein, installiert die Treiber und gut ist und vor allem hat man dann auch gleich die volle Leistung zur Verfügung und generiert mit jeglichen IO's auch einen viel kleineren Overhead. 😁

aktuell fahren wir unseren Datacore mit 2x 16G FC - geht auch, dauert halt ein paar Minuten eb alles rüber ist oder neu gesynct ist.

An dieser Stelle was ganz Wichtiges! Du darfs eine native FC-Storage-Anbindung niemals mit einer iSCSI oder SMB, sprich, einer Ethernet Verbindung vergleichen und zwar ganz egal, was dir das Marketing oder Vertrieb vorgaukeln möchten und zwar selbst dann, wenn die auch Zauberworte wie RDMA in den Mund nehmen!

Das effektivste und schnellste, mit dem du auch stand heute ein SAN an die Hypervisoren koppeln kannst, ist noch nach wie vor SAS oder FC. 😉

Darum war die idee mit mehreren 25G Modulen zu arbeiten, die arbeiten ja dann eh über SMB3 und somit über "Kanalbündelung"

😬 … glaub mir, das macht die Sache noch viel komplizierter. 😔

Denn damit SMB Multichannel sauber funktioniert, müssen ebenfalls diverseste Voraussetzungen erfüllt sein und SMB ist auch nicht wirklich gut dafür geeignet um blockbasierte Daten effektiv zu übertragen.

Warum möchtest du denn überhaupt unbedingt dein produktives System über zwei Standorte splitten?
Sprich, welche Gefahren möchtest du damit den genau abfedern?

Eine viel zu komplizierte Umgebung, kann übrigens noch eine viel schlimmere und vor allem realistischere Gefahr für ein Unternehmen darstellen, als all das was du mir jetzt wahrscheinlich nennen wirst.

Gruss Alex

Es sind zwei Brandabschnitte sind gefordert, es gibt aber im selben Gebäude keine zwei serverräumr, also wurde LWL ins nachbar-Gebäude gezogen.

Das FC weniger overhead verursacht dachte ich mir schon... Aber auch da ist eben das Problem mit dem verlegte Kabel, dass ich auf OM4 limitiert bin, was eben zwischen 160 und 170m lang ist

Moin @Assassin,

Es sind zwei Brandabschnitte sind gefordert, es gibt aber im selben Gebäude keine zwei serverräumr, also wurde LWL ins nachbar-Gebäude gezogen.

mir ist kein Gesetz bekannt, welches die Aufteilung eines produktiven Systems auf zwei getrennte Brandabschnitte fordert. Ich kennen nur welche, die fordern, dass man die Backups in einem anderen Brandabschnitt aufbewahren sollte/muss, was ja auch vollkommen Sinn macht.

Bei den Dingen, die meiner Ansicht nach aktuell jedoch die grösste Gefahr für ein IT-System darstellen, sprich ein Cyber-Angriff, bringt ein auf zwei Standorte gespiegeltes Prod-System, jedoch nicht wirklich etwas, ausser einen Haufen Kosten und Mehraufwand zu verursachen.

Das FC weniger overhead verursacht dachte ich mir schon... Aber auch da ist eben das Problem mit dem verlegte Kabel, dass ich auf OM4 limitiert bin, was eben zwischen 160 und 170m lang ist

Ja, FC als Storage-Direktverbindung kannst du bei der Strecke leider auch knicken.
Hier sind über OEM4 und auch nur mit 16G, max. 125m möglich. 😬

Ich bin mir ziemlich sicher, dass ihr mit einem guten HA fähigen Prod-System in dem einen Raum und einem guten Backup System in dem anderen, wahrscheinlich mit am besten aufgehoben seid.

Gruss Alex

Moin @MysticFoxDE

mir ist kein Gesetz bekannt, welches die aufteilung eines produktiven Systems auf zwei getrennte Brandabschnitte fordert.

Dafür gibt es auch kein Gesetz, aber je nachdem, in welcher Branche du aktiv bist und wie nah dran du am Endverbraucher/ -Hersteller bist, kann es Normen geben, die einem das „nahelegen“, zumindest wird Dich ab einer gewissen Größe ein Auditor drauf aufmerksam machen. Spontan fällt mir da die IATF16949 ein.
Man darf ja nicht nur Cyberangriffe betrachten. Was machst du, wenn dein Serverraum aufgrund eines Brandschadens in Flammen oder unter Wasser steht?
Da können die Produktivdaten, abgelegt in einem anderen Brandabschnitt schon sinnvoll sein, außer du machst in Echtzeit Backups, aber das wäre dann auch ein Stretched Cluster

Moin @em-pie,

auch in der IATF16949 sehe ich nicht wirklich eine direkte Forderung, wonach das produktive System,
im Falle eines Notfalls, sofort wieder zur Verfügung stehen muss.

Man darf ja nicht nur Cyberangriffe betrachten.

Das ist allerdings vollkommen korrekt.

Was machst du, wenn dein Serverraum aufgrund eines Brandschadens in Flammen oder unter Wasser steht?

datacenter-group.com/de/leistungen/products/dc-itsafe/dc-it-safe ...
😉

Da können die Produktivdaten, abgelegt in einem anderen Brandabschnitt schon sinnvoll sein

Ja und dafür sollte das mindestens täglich laufende Backup der Produktivdaten selbst, auch unbedingt in einem anderen Brandabschnitt liegen, und am besten noch ein Wochenbackup, komplett ausserhalb des Geländes aufbewahrt werden.

Und wenn Godzilla dann endlich vorbeigeschlappt ist, muss man eh erstmal die Gesamtschäden begutachten und wird dann wahrscheinlich dabei feststellen, dass eine umgehende Wiederherstellung der IT-Landschaft, eher das kleinere Problem ist. Denn was bringt eine sofort laufende IT, wenn z.B. die Produktion oder andere wichtige Bereiche des Unternehmens, ebenfalls mit abgefackelt und oder abgesoffen sind.

Gruss Alex

Man kann auch sagen: Es ist eine deutliche Empfehlung mit zwei seperaten Gebäude/Brandabschnitte. Klar ein Muss ist das nicht, aber wenn es jetzt schon so gebaut ist, kann man es doch nutzen, oder nicht?

Backup ist natürlich in einem 3. Brandabschnitte + extern.

Welche Vorteil genau erkauft man sich, wenn man extra noch zwei seperaten SAN Systeme nimmt außer das es teurer wird? Festplatten- Replizieren kann doch S2D auch bzw. Ist doch genau dafür da? Ich meine - wenn man schon dicke Server hat, ist da doch auch genug Platz für ein paar SSD's.

Zitat von @Assassin:

Schon korrigiert ;)

Gibt's keine hier, die bereits einen 2025er S2D einsetzen?

Guten Morgen,

ich habe zwei HP DL325 Gen11 Server ein Cluster mit S2D am laufen und Windows Server 2025 Datacenter.
HyperV HCI Cluster ohne Azure rein OnPrem.

Und zwei HP DL380 Gen 10 bei einer Außenstelle die ebenfalls ein HCI S2D mit WS 2025 Datacenter ohne Azure laufen.

Was genau möchten Sie wissen?

- Hattest du vorher ein anderes Cluster-System?
- Bist du mit der Leistung zufrieden?
- wie zuverlässig läuft das ganze, bzw. hattest du mal Probleme, oder sagst du - jederzeit wieder so einrichten?
- wie ist dein Storage konfiguriert, Dual Parity oder einfaches Mirror, oder garnichts?
- Nutzt du ReFS auf dem ClusterShare?
- Zuverlässigkeit gerade in Hinblick falls ein Knoten ausfällt - gibt es irgendwelche sachen die beachtet werden müssen oder gar fatal sein können, wenn man den ausgefallenen Knoten wieder online bringt?
- Gibt es dinge, die du vermisst oder anders gelöst haben wölltest?
- Hast du den Cluster selbst eingerichtet, oder über eine Firma? Falls selber eingerichtet: Empfandest du die Einrichtung als "unnötig" Kompliziert?

Zitat von @Assassin:

- Hattest du vorher ein anderes Cluster-System?

Vorher HCI mit WS 2022 Datacenter und S2D

- Bist du mit der Leistung zufrieden?

Aktuell laufen 18 VM drauf und ich empfinde diese als Flott, die DL325 Gen11 haben je auch nur einen Epyc verbaut.
Wenn Updates gefahren werden muss, übernimmt einer alles bis der zweite wieder da ist. Beschwerden über Leistungseinbußen beim Terminal Server gibt es nicht wenn einer alles bereitstellen muss.
Ich bin zufrieden!

- wie zuverlässig läuft das ganze, bzw. hattest du mal Probleme, oder sagst du - jederzeit wieder so einrichten?

Verschiedene HCI laufen seit mindesten 2020 und hatte diesbezüglich bisher keinen extremen Ausfall.
Wenn mal ein Blech Probleme hatte, war das Konstrukt in der Lage weiter zu werkeln bis das zweite Blech wieder lief.
Reparatur vom S2D geschieht von selbst sobald der zweite wieder da ist.

Es kam einmal vor, das ich zwangsweise Probleme mit Server 1 hatte und ich musste den zweiten auch aus machen.
Extremes Herzklopfen gehabt als ich die Server wieder hochfahren lies ob die VMs starten usw...
Zum Glück war alles gut (sollte HyperV Fehlermeldungen bringen, sind die im Netz zu finden).

- wie ist dein Storage konfiguriert, Dual Parity oder einfaches Mirror, oder garnichts?
- Nutzt du ReFS auf dem ClusterShare?

Nutze CSVFS_ReFS, Geschachtelte Parität mit Beschleunigung durch Spiegelung als Cluster Share.

- Zuverlässigkeit gerade in Hinblick falls ein Knoten ausfällt - gibt es irgendwelche sachen die beachtet werden müssen oder gar fatal sein können, wenn man den ausgefallenen Knoten wieder online bringt?

Laufen seit Jahren zuverlässig, wenn es Probleme gab, konnten diese relativ einfach behoben werden.

- Gibt es dinge, die du vermisst oder anders gelöst haben wölltest?

Nein, bin so zufrieden wie es ist.

- Hast du den Cluster selbst eingerichtet, oder über eine Firma? Falls selber eingerichtet: Empfandest du die Einrichtung als "unnötig" Kompliziert?

Jedes Cluster selber eingerichtet.
"Kompliziert" ist es nicht, was unschön gelöst ist, ist der Zwangswechsel von Konfiguration mit der GUI, Zwangsweise Power Shell Befehle (weil GUI es nicht kann, WAC auch nicht) und Windows Admin Center zu nutzen.

Zitat von @MysticFoxDE:
Moin @em-pie,

Salut

auch in der IATF16949 sehe ich nicht wirklich eine direkte Forderung, wonach das produktive System,
im Falle eines Notfalls, sofort wieder zur Verfügung stehen muss.

Habe ja auch nicht behauptet, dass es explizit drin steht. Sowas wirst du auch in keiner Norm/ keinem Gesetz finden - das würde a) zu sehr einengen b) den Gesetz-/ Normengeber verleiten, zur Abwechslung mal "Butter bei de Fische" zu packen

In der IATF musst dur dir halt im Kontext der Notfallpläne bzw. vorbeugende Maßnahmen und dem Zusammenspiel der Risikoanalyse gedanken machen.

@Assassin

Welche Vorteil genau erkauft man sich, wenn man extra noch zwei seperaten SAN Systeme nimmt außer das es teurer wird? Festplatten- Replizieren kann doch S2D auch bzw. Ist doch genau dafür da? Ich meine - wenn man schon dicke Server hat, ist da doch auch genug Platz für ein paar SSD's.

Je nach Umgebung kann sich das bereits ab dem dritten Knoten des Hypervisors lohnen:
ich muss dann keine drei Knoten mit Speichermedien "vollhauen" sondern kann einen Knoten mit ausreichend CPU, RAM und HBAs kaufen und "einfach" ins SAN hängen.
Bei Migrationen/ Upgrades kann man die Kosten so auch auf zwei Perioden aufteilen: GJ 2025: Hosts erneuern, GJ2026: Storage erneuern.
Auch muss sich der Hypervisor-Knoten nicht noch mit dem Datenmanagement befassen, sondern stellt seine Ressourcen zu 95-100% den VMs bereit.

Gut, dafür kostet ein passables SAN mehr, als wenn ich die Knoten direkt mit passenden Speichermedien bestücke. Hier muss ja auch die ggf. erforderliche Infrastruktur passen. Wenn ich für iSCSI nur 10Gbit verfügbar habe, wird das ggf. etwas dünn. Da müssen u. U. DC-Switche mit 25G, 40G oder 100G her - oder man geht auf FibreChannel (mein persönlicher Favorit - liegt aber auch daran, dass ich FC gewohnt bin).

@em-pie - moment mal, gehst du von EINEM SAN aus wo die ganzen SSDs drin hängen? Es wird aber ein Failover-System gefordert was in zwei Brandabschnitten steht welche auch unabhängig voneinander arbeiten können wenn einer komplett ausgefallen ist. Das heißt, selbst wenn ein Serverraum in Flammen steht, darf der Produktivbetrieb davon nicht eingeschränkt werden - das ist die Zielvorgabe.
Wenn ich nur ein dickes SAN habe wo alle Platten drin sind und meine Cluster mit dem einem Blech-SAN anbinde - was passiert dann wenn gerade der Serverraum in Flamen steht, wo das SAN drin ist?
Eine 3 Knoten Lösung ist auch nicht angedacht.

@dawn84, vielen dank für deine Zeit und Antworten

Das klingt ja alles garnicht mal so schlecht, und irgendwie gewohnt in der Windows Welt (also das Gui und PS vermischt ist). Das mit dem Hertzklopfen kenne ich zu genüge, da auch der Datacore so seine eigenarten hat, der dafür sorgen kann, dass das komplette CSV einfach weg ist...
Was nutzt ihr als Quorum, bzw. wie verhindert ihr Split-Brain?

Assassin 05.05.2025 aktualisiert um 15:31:52 Uhr

@em-pie - moment mal, gehst du von EINEM SAN aus wo die ganzen SSDs drin hängen? Es wird aber ein Failover-System gefordert was in zwei Brandabschnitten steht welche auch unabhängig voneinander arbeiten können wenn einer komplett ausgefallen ist. Das heißt, selbst wenn ein Serverraum in Flammen steht, darf der Produktivbetrieb davon nicht eingeschränkt werden - das ist die Zielvorgabe.

Nein, man kann auch ein SAN spiegeln. Mit Datacore zum Beispiel kannst Du ein gespiegeltes SAN aufbauen. Kostet alt etwas. UND GANZ WICHTIG: SCHULUNG, SCHULUNG, SCHULUNG,...

Gruss Penny.

Nein - ein SAN (= Storage Area Network) ist ja ein Netzwerk, welches ausschließlich der Speicheranbindung dient. Und ich gehe hier weiterhin von gespiegelten Storages aus. Deine Anforderung war ja ein S2D Cluster - daher war es für mich selbstverständlich, auch ein HA-SAN anzusprechen.
Und rechne dir aus, was zwei SAN-Storages mit 30TB netto kostet (ggf. + Infrastruktur) und was dich dein angepeiltes S2D-Cluster mit 2x30TB kosten wird (ggf. zzgl. Infrastruktur). Dann rechnest du noch aus, was die HyperV-Hosts ohne die 2x30TB kosten und du hast dein monetäres Delta - wobei man fairerweise natürlich die Wartungskosten mit einfließen lassen muss. Wartung für 2x Hardware ist günstiger als für 4x Hardware

Und ziehe bei deiner SAN-Bewertung nicht Datacore zugrunde. Hier hast du ja neben der Hardware auch noch die Kosten für die Windows-Lizenzen sowie die DataCore-Lizenzen. Habe schon sehr lange keine DC-Preise mehr gesehen, aber unter Strich wären zwei gespiegelte Storages von HPE, IBM, DELL, InforTrend (@MysticFoxDE nicht vergessen) günstiger, denn die Datacore-Variante.
Da ihr aber ohnehin nur zwei HyperV-Knoten haben wollt, kann ein dediziertes Storage kostentechnisch eh unnötig sein.

Moin @Penny.Cilin,

Nein, man kann auch ein SAN spiegeln.

dafür benötigt ein Enterprise-SAN auch kein Datacore, sondern kann dies mit Boardmitteln machen.

Mit Datacore zum Beispiel kannst Du ein gespiegeltes SAN aufbauen. Kostet alt etwas. UND GANZ WICHTIG: SCHULUNG, SCHULUNG, SCHULUNG,...

Datacore geht ausserdem schon eher wieder Richtung vSAN.

Gruss Alex

Moin @em-pie,

ein HA-SAN ist aber nicht dasselbe wie ein gespiegeltes SAN.

Ein HA-SAN bedeutet nur, dass das SAN selber HA ausgelegt ist, sprich, redundante Netzteile, redundante Controller, redundante Host-Anbindung.

Die SAN's der DS Serie von Infortrend ...

infortrend.com/de/products/ds

... sind z.B. alle HA fähig.

Und spiegeln lassen die sich auch, ...

infortrend.com/de/solutions/local-remote-replication

... das haben wir so jedoch bisher noch nirgends benötigt.

Und rechne dir aus, was zwei SAN-Storages mit 30TB netto kostet (ggf. + Infrastruktur) und was dich dein angepeiltes S2D-Cluster mit 2x30TB kosten wird (ggf. zzgl. Infrastruktur). Dann rechnest du noch aus, was die HyperV-Hosts ohne die 2x30TB kosten und du hast dein monetäres Delta

Moment, wenn man eine vSAN plant, dann sollte man nicht nur mit den Kosten für die reine Kapazität kalkulieren, sprich nur das was die SSD’s kosten, sondern muss auch die Kosten für stärkere CPU’s mitberücksichtigen und auch etwas mehr RAM einplanen. Zudem kommen die Kosten für RDMA fähige NIC’s und gegebenen Falls entsprechende Switche noch hinzu. Für insbesondere mehr CPU Ressourcen, kommen dann aber auch noch zusätzliche Lizenzkosten (Datacenter und oder VMware) hinzu und schon ist das vSAN teurer als ein SAN, bei einer geringeren Performance und Effizienz. 🙃

Gruss Alex

Moin @Assassin,

Es wird aber ein Failover-System gefordert was in zwei Brandabschnitten steht welche auch unabhängig voneinander arbeiten können wenn einer komplett ausgefallen ist. Das heißt, selbst wenn ein Serverraum in Flammen steht, darf der Produktivbetrieb davon nicht eingeschränkt werden - das ist die Zielvorgabe.

das ist gut, mit der Aussage kann ich schon etwas mehr anfangen.
Gut, wenn der Serverraum A warum auch immer brennt, darf die Produktion nicht stehen, verstanden.

Aber, ist die Produktion denn auch redundant/HA vernetzt, sprich, sind die entsprechenden Netzwerkverteiler ebenfalls redundant/HA ausgelegt und auch Richtung beider Serverräume verkabelt?
Sind auch die Fertigungsanlagen redundant an zwei getrennte Netwerkverteiler angeschlossen?

Meine Kristallkugel sagt mir nämlich, dass bei dir die Netzwerkverkabelung, so wie bei allen Betrieben die ich auch sonst so kenne, nicht wirklich redundant ausgelegt ist und meistens reicht es dann, wenn ein bestimmter Netzwerkverteiler abraucht und schon steht der ganze Laden. 🙃

By the way, die grösste Gefahr für eine IT-Landshaft, ist stand heute kein Brand sondern ein Cyberangriff und im Falle einer Infiltration oder Verschlüsselung, bringt dir ein gespiegeltes System überhaupt gar nichts.

Das Einzige was hier wirklich etwas bringt, ist ein sehr gutes Backup, welches so gut wie möglich und zwar sowohl physisch (getrennte Brandabschnitte) als auch logisch (eigenständiges VLAN) gesehen, isoliert von dem Rest der IT-Landschaft läuft.

Daher fragt heutzutage auch keine Betriebsausfallversicherung die ich kenne nach einem über zwei Serverräume verteiltem Hauptsystem, sondern interessieren sich eher für die Backupinfrastruktur und vor allem wie gut diese vom produktivem System isoliert ist und wie schnell die Backups im Bedarfsfall auch wiederhergestellt werden können.

Und ja, ganz ganz wichtig. Bitte niemals eine HV-Umgebung und zwar egal ob Hyper-V oder VMware und auch egal ob mit oder ohne S2D/vSAN, mit in die produktive Domäne reinhängen, sondern immer über eine isolierte Management-Domäne betreiben!

Gruss Alex

Zum Thema kosten.
Da kommt es genau auf den Fall an. Bei uns war der S2D Cluster Günstiger als die klassische Lösung mit 2 Nodes + 1 SAN. Auch wegen der vollständigen Redundanz von Node samt Speicher war damals Pro S2D.
Was für den TE vielleicht noch interessant ist. Es braucht auch noch einen Zeugenserver. Können aber auch einfache SMB Shares sein.

Gruss

Um das Thema mal abzuschließen:
Wir haben uns jetzt für einen 2 Knoten Cluster entschieden, mit je 2x Epyc 9375F CPUs. Von Thomas Krenn - die richten uns das Ding auch gleich fix und fertig ein. Als NIC halt die Mellanox x6 mit 25G (4 Ports ingesammt je Knoten) und ESR SFP28 Module die bis 300m gehen.

Kurze frage noch in die runde - es gibt doch Firmen, die alte gebrauchte Server ankaufen, habt ihr mit sowas Erfahrung oder könnt gar einen Anbieter für solche Dienstleistung empfehlen?

Du kannst die alte Hardware ja mal hier im Forum anbieten, vielleicht nimmt die einer. Neulich hat hier erst jemand etwas für den Übergang gesucht, leider finde ich den Thread grade nicht mehr.

Naja, sollte schon ein B2B Geschäft sein. Wie ist es dann eigentlich mit der Gewährleistung? Kann man die grundsätzlich ausschließen bei gebrauchten zeugs im B2B Geschäft?

Die beiden alten Knoten sind halt auch schon 7 Jahre alt

Die beiden alten Knoten sind halt auch schon 7 Jahre alt

Da wirst nicht mehr viel für bekommen. Kannst ja mal bei Ebay schauen, was da für ähnliche Ausstattung aufgerufen wird. Rebuyer werden da vermutlich drunter liegen.

Wenn die nur noch einen Appel und ein Ei wert sind: Spende die einer Schule/ Berufskolleg als Lernprojekt…

Wie ist es dann eigentlich mit der Gewährleistung?

Entfällt (meines Wissens nach). Bei gebrauchten Zeugs ist das ja ein Verbraucherschutz. Hier sind beide Parteien ja aber jur. Personen…
Achtung: bin kein Jurist!

Hier im Forum sind viele auch beruflich unterwegs, kannst ja sagen das sich dein Angebot an B2B richtet. Nach meinem Verständnis kann auch bei B2C die Gewährleistung ausgeschlossen werden, wenn z.B. Anlagevermögen abverkauft wird. Steht bei uns auf den Rechnungen dann einfach drauf. Jurist bin ich aber auch nicht.