Server 2025 HCI S2D Cluster mit aktuellen AMD Epyc?
Hallo zusammen,
wir sind gerade dabei über unseren Lieferanten einen neuen 2-Knoten Cluster zusammen stellen zu lassen, welche räumlich getrennt stehen werden, mit rund 160m OM4 LWL dazwischen. Dabei hatten wir auch ein paar wünsche geäußert wie 2x AMD Epyc 9375F CPUs je Knoten, 1TB Ram, 30TB (Netto!) U.2/3 SSDs, Mellanox ConnectX-6 Karten 25G SFP28
Scheinbar bietet soetwas aber auch nicht jeder Hersteller an, da die Hardware wohl zertifiziert sein muss damit ein S2D Cluster überhaupt erst eingerichtet werden kann? Gibt wohl nur ältere Epyc Systeme, oder halt Intel - was wir aber nicht wollen weil ineffizienter und weniger Performance.
Es sollen zukünftig um die 30-40VMs darauf laufen. OS wird MS Server 2025 Datacenter, ohne Azure, also alles klassisch OnPrem.
Wir hatten auch schon die Überlegung, das ganze selber zusammen zu bauen wenn es keiner der großen Hersteller hinbekommt - dann sind wir Servicetechnisch natürlich auf uns alleine gestellt.
Wie schaut es aus mit der Einrichtung? würde eine S2D einrichten dennoch funktionieren und nicht nicht supported werden falls doch mal ein so hartnäckiger Fehler auftreten sollte, dass wir den MS Support direkt kontaktieren müssten?
Und noch eine frage am rande: Wie würdet ihr die Festplatten-Redundanz über den S2D einrichten? gibt ja verschiedene Spiegelungsarten....
wir sind gerade dabei über unseren Lieferanten einen neuen 2-Knoten Cluster zusammen stellen zu lassen, welche räumlich getrennt stehen werden, mit rund 160m OM4 LWL dazwischen. Dabei hatten wir auch ein paar wünsche geäußert wie 2x AMD Epyc 9375F CPUs je Knoten, 1TB Ram, 30TB (Netto!) U.2/3 SSDs, Mellanox ConnectX-6 Karten 25G SFP28
Scheinbar bietet soetwas aber auch nicht jeder Hersteller an, da die Hardware wohl zertifiziert sein muss damit ein S2D Cluster überhaupt erst eingerichtet werden kann? Gibt wohl nur ältere Epyc Systeme, oder halt Intel - was wir aber nicht wollen weil ineffizienter und weniger Performance.
Es sollen zukünftig um die 30-40VMs darauf laufen. OS wird MS Server 2025 Datacenter, ohne Azure, also alles klassisch OnPrem.
Wir hatten auch schon die Überlegung, das ganze selber zusammen zu bauen wenn es keiner der großen Hersteller hinbekommt - dann sind wir Servicetechnisch natürlich auf uns alleine gestellt.
Wie schaut es aus mit der Einrichtung? würde eine S2D einrichten dennoch funktionieren und nicht nicht supported werden falls doch mal ein so hartnäckiger Fehler auftreten sollte, dass wir den MS Support direkt kontaktieren müssten?
Und noch eine frage am rande: Wie würdet ihr die Festplatten-Redundanz über den S2D einrichten? gibt ja verschiedene Spiegelungsarten....
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 672658
Url: https://administrator.de/forum/server-2025-hci-s2d-cluster-mit-aktuellen-amd-epyc-672658.html
Ausgedruckt am: 20.05.2025 um 14:05 Uhr
38 Kommentare
Neuester Kommentar
Starwind vSAN macht im Grunde ähnliches wie S2D, Storage ist in jedem Server und darüber wird dann ein virtuelles RAID gebildet das per iSCSI dem Hyper-V Cluster zur verfügung gestellt wird. Funktioniert zumindest in der 2 Node variante deutlich zuverlässiger und schneller als S2D, kostet zwar extra, dafür ist deren Support aber echt auf Zack.
andere möglichkeit wäre wie @Geomatrix schon gesagt hat, klassisch nen Blockstorage zu verwenden und das per iscsi oder fc an beide Nodes anzubinden, in deinem fall wohl eher iscsi. Synology wäre da eher nicht erste Wahl sondern sowas wie Dell ME5024 oder HP MSA 2060, gibts natürlich in beliebig teuer...
andere möglichkeit wäre wie @Geomatrix schon gesagt hat, klassisch nen Blockstorage zu verwenden und das per iscsi oder fc an beide Nodes anzubinden, in deinem fall wohl eher iscsi. Synology wäre da eher nicht erste Wahl sondern sowas wie Dell ME5024 oder HP MSA 2060, gibts natürlich in beliebig teuer...
Zitat von @Assassin:
Aktuell verwendet unserer Cluster das DataCore SANsymphony, da wird das Storage auch via iSCSI hochgegeben...wir empfinden diese art aber als recht unperformant, vor allem wenn mehrere VMs viel IOPS erzeugen. Trotz mehrere Enterprise SSDs pro Knoten.
Ich vermute da, dass es am iSCSI liegt, welches zuviel CPU overhead verursacht.
liegt vermutlich eher an SANsymphonyAktuell verwendet unserer Cluster das DataCore SANsymphony, da wird das Storage auch via iSCSI hochgegeben...wir empfinden diese art aber als recht unperformant, vor allem wenn mehrere VMs viel IOPS erzeugen. Trotz mehrere Enterprise SSDs pro Knoten.
Ich vermute da, dass es am iSCSI liegt, welches zuviel CPU overhead verursacht.
Daher die Idee mit nativen Boardmitteln wie eben S2D zu arbeiten...das gibts ja auch nicht erst seit gestern, das sollte doch - gerade im Server 2025 schon gut ausgereift sein, oder doch nicht?
Das ist einfach nicht auf zwei Knoten ausgelegt, auch wenn es theoretisch funktioniert, wenn da zb der Storage gesynct werden muss geht erstmal gar nichts mehr. Perfomance mit mirrored spaces ist ok mit parity immer noch unterirdisch.Du bist ein Witzbold
Was ist denn ein AMD Epcy? - Ach Du meint AMD Epyc!
Es gibt einen Bearbeitungsbutton um auch das Beitragsthema zu korrigieren.
Edit 30.04.2025]
Falscher TO erwiischt. Mein Fehler. OriginalTO hat Titel korrigiert.
Gruss Penny.
Moin,
Wir nutzen auch (nach wie vor) klassische SANs
Frage dich bei zwei Servern/ Knoten immer, wie du ein SplitBrain verhindern kannst. Bringt ja nichts, wenn du ein HA (egal ob per S2D oder SAN) etabliertst, allerdings ein großes Problem bekommst, wenn die Strecke zwischen den Systemen gekappt wird und jede Seite (die ja weiterhin intakt ist) meint, sie wäre der Master. Die Daten bekommst du irgendwann nicht mehr zusammen.
Wir haben dafür an einem dritten Standort ein Quorum etabliert. Wer von den SAN-HA-Knoten das Quorum „als erstes“ erreicht, hat die Hoheit über die Daten. Bei den erneuerungen der Hardware sowie bei turnusmäßigen Updates wird genau dies immer mit getestet - auch das Wiederanlaufen.
Wir nutzen auch (nach wie vor) klassische SANs
Frage dich bei zwei Servern/ Knoten immer, wie du ein SplitBrain verhindern kannst. Bringt ja nichts, wenn du ein HA (egal ob per S2D oder SAN) etabliertst, allerdings ein großes Problem bekommst, wenn die Strecke zwischen den Systemen gekappt wird und jede Seite (die ja weiterhin intakt ist) meint, sie wäre der Master. Die Daten bekommst du irgendwann nicht mehr zusammen.
Wir haben dafür an einem dritten Standort ein Quorum etabliert. Wer von den SAN-HA-Knoten das Quorum „als erstes“ erreicht, hat die Hoheit über die Daten. Bei den erneuerungen der Hardware sowie bei turnusmäßigen Updates wird genau dies immer mit getestet - auch das Wiederanlaufen.
Zitat von @Assassin:
Ja, einen quorum PC haben wir auch an einem 3.standort für unsere Stratus EverRun FT Maschinen... Sowas wird's doch bestimmt auch für S2D HCI Cluster geben.
Ja, einen quorum PC haben wir auch an einem 3.standort für unsere Stratus EverRun FT Maschinen... Sowas wird's doch bestimmt auch für S2D HCI Cluster geben.
In stretched S2D Clustern nutzt man in der Regel ne Fileshare Witness an einem dritten Standort, das kann prinzipiell jedes beliebige Windows Fileshare sein. Alternativ kann man bei vorhandem Internetzugriff ne Azure Witness nutzen, das ist einfach nur ein kleiner BLOB Store in der Cloud. Die Herausforderung bei der Fileshare Witness ist das man das Netzwerk so designen muß das der Zugriff aufs Fileshare aus jedem Standort unabhängig vom anderen erfolgen muß.
Die Hardware für S2D muß nur im Windows Hardware Katalog aufgeführt sein, idealerweise als SDDC Premium zertifiziert. Das ganze System muß nicht zertifiziert sein, ist ja kein Azure Local Cluster. Für den Support durch Microsoft ist hier am Ende des Tages nur wichtig das der Cluster den Cluster Validation Test ohne Fehler besteht.
https://learn.microsoft.com/en-us/windows-server/storage/storage-spaces/ ...
https://www.windowsservercatalog.com/hardware
/Thomas
Zitat von @pebcak7123:
Moin,
zu S2D, würde ich dringend von abraten bei nur 2 nodes. Das läuft und lief noch nie wirklich zuverlässig, zusätzlich wie du schon bemerkt hast diese schwachsinnigen Anforderungen bezüglich zertifizierung. Alternative ist stattdessen zB Starwind vSAN zu nutzen.
Moin,
zu S2D, würde ich dringend von abraten bei nur 2 nodes. Das läuft und lief noch nie wirklich zuverlässig, zusätzlich wie du schon bemerkt hast diese schwachsinnigen Anforderungen bezüglich zertifizierung. Alternative ist stattdessen zB Starwind vSAN zu nutzen.
Quatsch ! Wir haben 3x 2 Node Cluster am laufen und das seit Jahren zuverlässig. Mag man bei MS kaum glauben.
Ist aber so. Auch mit der Zertifizierung ist das kein Thema. Muss man halt an die passenden Hersteller ran. HP / Dell / FSC / Krenn etc.
Mit Epyc hab ich keine Erfahrungen. Nur mit den Intel Gold und die laufen.
Gruss
Moin,
Also ich hab mal schnell bei Lenovo geschaut: sollte mit einem SR665v3 eigentlich alles lösbar sein.
CPU geht,
8x 64G Riegel um auf 1TB RAM zu kommen
25G MLX Karten gibt es…
Selbst die 30TB netto, wobei du nicht gesagt hast, ob JBOD, RAID 5, RAID6, RAID 10 oder auch RAID60…
Bei RAID6 kommst du aber mit 10x 3,84TB hin, zzgl. HOTSpare.
Ich würde im übrigen nicht auf 25G gehen, sondern Karten mit 40G bis 100G wählen. Da hast du weniger Leistungseinbussen/ bist Zukunftssicherer aufgestellt - sofern der Rest der Infrastruktur passt.
Oder beides: 25G fürs LAN und 40G/ 100G für die iSCSI-Verbindungen.
Wobei OM4 bis 150m bei 40/100G limitiert ist, bei 40G sollten aber auch 165m machbar sein (deine 160m+ Patchkabel)
Also ich hab mal schnell bei Lenovo geschaut: sollte mit einem SR665v3 eigentlich alles lösbar sein.
CPU geht,
8x 64G Riegel um auf 1TB RAM zu kommen
25G MLX Karten gibt es…
Selbst die 30TB netto, wobei du nicht gesagt hast, ob JBOD, RAID 5, RAID6, RAID 10 oder auch RAID60…
Bei RAID6 kommst du aber mit 10x 3,84TB hin, zzgl. HOTSpare.
Ich würde im übrigen nicht auf 25G gehen, sondern Karten mit 40G bis 100G wählen. Da hast du weniger Leistungseinbussen/ bist Zukunftssicherer aufgestellt - sofern der Rest der Infrastruktur passt.
Oder beides: 25G fürs LAN und 40G/ 100G für die iSCSI-Verbindungen.
Wobei OM4 bis 150m bei 40/100G limitiert ist, bei 40G sollten aber auch 165m machbar sein (deine 160m+ Patchkabel)
Moin @Assassin,
bei einem AS-HCI System, wird immer das jeweilige System als Ganzes zertifiziert und nicht die Einzelkomponnenten.
Wenn du nich viel Wert auf die grossen Namen wie DELL oder HPE legst, dann kannst du HCI, respektive, "Azure Local" zertifizierte Systeme auch bei ...
https://www.thomas-krenn.com/de/produkte/einsatzzweck/software-defined-s ..?
... Thomas Krenn kaufen. 😉
Aber, ich würde dir eher ein SAN Konzept empfehlen, da diese ganze S2D Geschichte (Über Netzwerk verteiltes Software-RAID), performancetechnisch nicht wirklich das Blaue vom Himmel ist.
Und wenn SAN, dann bitte was richtiges und nicht was von Synology oder Qnap, sondern eher was in die ...
https://www.infortrend.com/de/products/families/esds/4000u
... Richtung.
Gruss Alex
Ok, wenn ich das richtig sehe gibt es in dem Server Hardware catalog keine einzelnen CPUs wo man schauen kann, ob diese zertifiziert sind. Es scheint aber nicht eine Netzwerk karte zu geben, die sddc Premium Server 2025 zertifiziert ist, schon etwas arg eigenartig.
bei einem AS-HCI System, wird immer das jeweilige System als Ganzes zertifiziert und nicht die Einzelkomponnenten.
Wenn du nich viel Wert auf die grossen Namen wie DELL oder HPE legst, dann kannst du HCI, respektive, "Azure Local" zertifizierte Systeme auch bei ...
https://www.thomas-krenn.com/de/produkte/einsatzzweck/software-defined-s ..?
... Thomas Krenn kaufen. 😉
Aber, ich würde dir eher ein SAN Konzept empfehlen, da diese ganze S2D Geschichte (Über Netzwerk verteiltes Software-RAID), performancetechnisch nicht wirklich das Blaue vom Himmel ist.
Und wenn SAN, dann bitte was richtiges und nicht was von Synology oder Qnap, sondern eher was in die ...
https://www.infortrend.com/de/products/families/esds/4000u
... Richtung.
Gruss Alex
Moin @Assassin,
100G sind auch über ...
https://www.fs.com/de-en/products/135557.html?
... oder ...
https://www.fs.com/de-en/products/179813.html?
... LC-Duplex möglich, ist aber bei MM auf max. 100m spezifiziert, jedoch mit OM3.
Eventuell ist mit OM4 auch deine Strecke zu schaffen.
Gruss Alex
Die 50/100G Transceiver module die 200 oder 300m machen, haben einen MPO stecker - haben wir nicht, bzw. soviel Glasfaser liegen auch nicht zwischen den Gebäuden (da gibts es "nur" 8x LC)
100G sind auch über ...
https://www.fs.com/de-en/products/135557.html?
... oder ...
https://www.fs.com/de-en/products/179813.html?
... LC-Duplex möglich, ist aber bei MM auf max. 100m spezifiziert, jedoch mit OM3.
Eventuell ist mit OM4 auch deine Strecke zu schaffen.
Gruss Alex
Moin @Assassin,
ich sehe es gerade selber, selbst bei 50G sieht es nicht besser aus. 😬
Auf der anderen Seite, wenn man von diesem ganzen vSAN Sync Mist mal absieht, benötigt ein normales Unternehmen heutzutage auch nicht wirklich 100G, selbst 25G sind bei den Meisten schon zu viel des Guten. 🙃
Ausserdem ist kann man selbst mit einem Server 2025, stand heute und aus diversesten Gründen, zumindest per Default, noch nicht mal eine 10G Schnittstelle anständig ausreizen, geschweige denn was Schnellerem. 😔😭
Einen SAS-HBA oder FC-HBA, steckt man meistens rein, installiert die Treiber und gut ist und vor allem hat man dann auch gleich die volle Leistung zur Verfügung und generiert mit jeglichen IO's auch einen viel kleineren Overhead. 😁
An dieser Stelle was ganz Wichtiges! Du darfs eine native FC-Storage-Anbindung niemals mit einer iSCSI oder SMB, sprich, einer Ethernet Verbindung vergleichen und zwar ganz egal, was dir das Marketing oder Vertrieb vorgaukeln möchten und zwar selbst dann, wenn die auch Zauberworte wie RDMA in den Mund nehmen!
Das effektivste und schnellste, mit dem du auch stand heute ein SAN an die Hypervisoren koppeln kannst, ist noch nach wie vor SAS oder FC. 😉
😬 … glaub mir, das macht die Sache noch viel komplizierter. 😔
Denn damit SMB Multichannel sauber funktioniert, müssen ebenfalls diverseste Voraussetzungen erfüllt sein und SMB ist auch nicht wirklich gut dafür geeignet um blockbasierte Daten effektiv zu übertragen.
Warum möchtest du denn überhaupt unbedingt dein produktives System über zwei Standorte splitten?
Sprich, welche Gefahren möchtest du damit den genau abfedern?
Eine viel zu komplizierte Umgebung, kann übrigens noch eine viel schlimmere und vor allem realistischere Gefahr für ein Unternehmen darstellen, als all das was du mir jetzt wahrscheinlich nennen wirst.
Gruss Alex
Servus Alex, darum meinte ich ja auch: Transceiver welche über 200 oder 300m mitmachen...dass es 100G LC Module gibt weiß ich, aber eben nur bis 100m 
Hab auch das von dir verlinkte QSFP-LX4-100G schon gesehen, aber das ist auch mit OM4 nur bis 100m angegeben:
https://support.huawei.com/enterprise/en/doc/EDOC1100095397/f5394f29/qsf ...
Hab auch das von dir verlinkte QSFP-LX4-100G schon gesehen, aber das ist auch mit OM4 nur bis 100m angegeben:
https://support.huawei.com/enterprise/en/doc/EDOC1100095397/f5394f29/qsf ...
ich sehe es gerade selber, selbst bei 50G sieht es nicht besser aus. 😬
Auf der anderen Seite, wenn man von diesem ganzen vSAN Sync Mist mal absieht, benötigt ein normales Unternehmen heutzutage auch nicht wirklich 100G, selbst 25G sind bei den Meisten schon zu viel des Guten. 🙃
Ausserdem ist kann man selbst mit einem Server 2025, stand heute und aus diversesten Gründen, zumindest per Default, noch nicht mal eine 10G Schnittstelle anständig ausreizen, geschweige denn was Schnellerem. 😔😭
Einen SAS-HBA oder FC-HBA, steckt man meistens rein, installiert die Treiber und gut ist und vor allem hat man dann auch gleich die volle Leistung zur Verfügung und generiert mit jeglichen IO's auch einen viel kleineren Overhead. 😁
aktuell fahren wir unseren Datacore mit 2x 16G FC - geht auch, dauert halt ein paar Minuten eb alles rüber ist oder neu gesynct ist.
An dieser Stelle was ganz Wichtiges! Du darfs eine native FC-Storage-Anbindung niemals mit einer iSCSI oder SMB, sprich, einer Ethernet Verbindung vergleichen und zwar ganz egal, was dir das Marketing oder Vertrieb vorgaukeln möchten und zwar selbst dann, wenn die auch Zauberworte wie RDMA in den Mund nehmen!
Das effektivste und schnellste, mit dem du auch stand heute ein SAN an die Hypervisoren koppeln kannst, ist noch nach wie vor SAS oder FC. 😉
Darum war die idee mit mehreren 25G Modulen zu arbeiten, die arbeiten ja dann eh über SMB3 und somit über "Kanalbündelung"
😬 … glaub mir, das macht die Sache noch viel komplizierter. 😔
Denn damit SMB Multichannel sauber funktioniert, müssen ebenfalls diverseste Voraussetzungen erfüllt sein und SMB ist auch nicht wirklich gut dafür geeignet um blockbasierte Daten effektiv zu übertragen.
Warum möchtest du denn überhaupt unbedingt dein produktives System über zwei Standorte splitten?
Sprich, welche Gefahren möchtest du damit den genau abfedern?
Eine viel zu komplizierte Umgebung, kann übrigens noch eine viel schlimmere und vor allem realistischere Gefahr für ein Unternehmen darstellen, als all das was du mir jetzt wahrscheinlich nennen wirst.
Gruss Alex
Moin @Assassin,
mir ist kein Gesetz bekannt, welches die Aufteilung eines produktiven Systems auf zwei getrennte Brandabschnitte fordert. Ich kennen nur welche, die fordern, dass man die Backups in einem anderen Brandabschnitt aufbewahren sollte/muss, was ja auch vollkommen Sinn macht.
Bei den Dingen, die meiner Ansicht nach aktuell jedoch die grösste Gefahr für ein IT-System darstellen, sprich ein Cyber-Angriff, bringt ein auf zwei Standorte gespiegeltes Prod-System, jedoch nicht wirklich etwas, ausser einen Haufen Kosten und Mehraufwand zu verursachen.
Ja, FC als Storage-Direktverbindung kannst du bei der Strecke leider auch knicken.
Hier sind über OEM4 und auch nur mit 16G, max. 125m möglich. 😬
Ich bin mir ziemlich sicher, dass ihr mit einem guten HA fähigen Prod-System in dem einen Raum und einem guten Backup System in dem anderen, wahrscheinlich mit am besten aufgehoben seid.
Gruss Alex
Es sind zwei Brandabschnitte sind gefordert, es gibt aber im selben Gebäude keine zwei serverräumr, also wurde LWL ins nachbar-Gebäude gezogen.
mir ist kein Gesetz bekannt, welches die Aufteilung eines produktiven Systems auf zwei getrennte Brandabschnitte fordert. Ich kennen nur welche, die fordern, dass man die Backups in einem anderen Brandabschnitt aufbewahren sollte/muss, was ja auch vollkommen Sinn macht.
Bei den Dingen, die meiner Ansicht nach aktuell jedoch die grösste Gefahr für ein IT-System darstellen, sprich ein Cyber-Angriff, bringt ein auf zwei Standorte gespiegeltes Prod-System, jedoch nicht wirklich etwas, ausser einen Haufen Kosten und Mehraufwand zu verursachen.
Das FC weniger overhead verursacht dachte ich mir schon... Aber auch da ist eben das Problem mit dem verlegte Kabel, dass ich auf OM4 limitiert bin, was eben zwischen 160 und 170m lang ist
Ja, FC als Storage-Direktverbindung kannst du bei der Strecke leider auch knicken.
Hier sind über OEM4 und auch nur mit 16G, max. 125m möglich. 😬
Ich bin mir ziemlich sicher, dass ihr mit einem guten HA fähigen Prod-System in dem einen Raum und einem guten Backup System in dem anderen, wahrscheinlich mit am besten aufgehoben seid.
Gruss Alex
Moin @MysticFoxDE
Man darf ja nicht nur Cyberangriffe betrachten. Was machst du, wenn dein Serverraum aufgrund eines Brandschadens in Flammen oder unter Wasser steht?
Da können die Produktivdaten, abgelegt in einem anderen Brandabschnitt schon sinnvoll sein, außer du machst in Echtzeit Backups, aber das wäre dann auch ein Stretched Cluster
mir ist kein Gesetz bekannt, welches die aufteilung eines produktiven Systems auf zwei getrennte Brandabschnitte fordert.
Dafür gibt es auch kein Gesetz, aber je nachdem, in welcher Branche du aktiv bist und wie nah dran du am Endverbraucher/ -Hersteller bist, kann es Normen geben, die einem das „nahelegen“, zumindest wird Dich ab einer gewissen Größe ein Auditor drauf aufmerksam machen. Spontan fällt mir da die IATF16949 ein.Man darf ja nicht nur Cyberangriffe betrachten. Was machst du, wenn dein Serverraum aufgrund eines Brandschadens in Flammen oder unter Wasser steht?
Da können die Produktivdaten, abgelegt in einem anderen Brandabschnitt schon sinnvoll sein, außer du machst in Echtzeit Backups, aber das wäre dann auch ein Stretched Cluster
Moin @em-pie,
auch in der IATF16949 sehe ich nicht wirklich eine direkte Forderung, wonach das produktive System,
im Falle eines Notfalls, sofort wieder zur Verfügung stehen muss.
Das ist allerdings vollkommen korrekt.
https://datacenter-group.com/de/leistungen/products/dc-itsafe/dc-it-safe ...
😉
Ja und dafür sollte das mindestens täglich laufende Backup der Produktivdaten selbst, auch unbedingt in einem anderen Brandabschnitt liegen, und am besten noch ein Wochenbackup, komplett ausserhalb des Geländes aufbewahrt werden.
Und wenn Godzilla dann endlich vorbeigeschlappt ist, muss man eh erstmal die Gesamtschäden begutachten und wird dann wahrscheinlich dabei feststellen, dass eine umgehende Wiederherstellung der IT-Landschaft, eher das kleinere Problem ist. Denn was bringt eine sofort laufende IT, wenn z.B. die Produktion oder andere wichtige Bereiche des Unternehmens, ebenfalls mit abgefackelt und oder abgesoffen sind.
Gruss Alex
Dafür gibt es auch kein Gesetz, aber je nachdem, in welcher Branche du aktiv bist und wie nah dran du am Endverbraucher/ -Hersteller bist, kann es Normen geben, die einem das „nahelegen“, zumindest wird Dich ab einer gewissen Größe ein Auditor drauf aufmerksam machen. Spontan fällt mir da die IATF16949 ein.
auch in der IATF16949 sehe ich nicht wirklich eine direkte Forderung, wonach das produktive System,
im Falle eines Notfalls, sofort wieder zur Verfügung stehen muss.
Man darf ja nicht nur Cyberangriffe betrachten.
Das ist allerdings vollkommen korrekt.
Was machst du, wenn dein Serverraum aufgrund eines Brandschadens in Flammen oder unter Wasser steht?
https://datacenter-group.com/de/leistungen/products/dc-itsafe/dc-it-safe ...
😉
Da können die Produktivdaten, abgelegt in einem anderen Brandabschnitt schon sinnvoll sein
Ja und dafür sollte das mindestens täglich laufende Backup der Produktivdaten selbst, auch unbedingt in einem anderen Brandabschnitt liegen, und am besten noch ein Wochenbackup, komplett ausserhalb des Geländes aufbewahrt werden.
Und wenn Godzilla dann endlich vorbeigeschlappt ist, muss man eh erstmal die Gesamtschäden begutachten und wird dann wahrscheinlich dabei feststellen, dass eine umgehende Wiederherstellung der IT-Landschaft, eher das kleinere Problem ist. Denn was bringt eine sofort laufende IT, wenn z.B. die Produktion oder andere wichtige Bereiche des Unternehmens, ebenfalls mit abgefackelt und oder abgesoffen sind.
Gruss Alex
Guten Morgen,
ich habe zwei HP DL325 Gen11 Server ein Cluster mit S2D am laufen und Windows Server 2025 Datacenter.
HyperV HCI Cluster ohne Azure rein OnPrem.
Und zwei HP DL380 Gen 10 bei einer Außenstelle die ebenfalls ein HCI S2D mit WS 2025 Datacenter ohne Azure laufen.
Was genau möchten Sie wissen?
Vorher HCI mit WS 2022 Datacenter und S2D
- Bist du mit der Leistung zufrieden?
Aktuell laufen 18 VM drauf und ich empfinde diese als Flott, die DL325 Gen11 haben je auch nur einen Epyc verbaut.
Wenn Updates gefahren werden muss, übernimmt einer alles bis der zweite wieder da ist. Beschwerden über Leistungseinbußen beim Terminal Server gibt es nicht wenn einer alles bereitstellen muss.
Ich bin zufrieden!
- wie zuverlässig läuft das ganze, bzw. hattest du mal Probleme, oder sagst du - jederzeit wieder so einrichten?
Verschiedene HCI laufen seit mindesten 2020 und hatte diesbezüglich bisher keinen extremen Ausfall.
Wenn mal ein Blech Probleme hatte, war das Konstrukt in der Lage weiter zu werkeln bis das zweite Blech wieder lief.
Reparatur vom S2D geschieht von selbst sobald der zweite wieder da ist.
Es kam einmal vor, das ich zwangsweise Probleme mit Server 1 hatte und ich musste den zweiten auch aus machen.
Extremes Herzklopfen gehabt als ich die Server wieder hochfahren lies ob die VMs starten usw...
Zum Glück war alles gut (sollte HyperV Fehlermeldungen bringen, sind die im Netz zu finden).
- wie ist dein Storage konfiguriert, Dual Parity oder einfaches Mirror, oder garnichts?
- Nutzt du ReFS auf dem ClusterShare?
Nutze CSVFS_ReFS, Geschachtelte Parität mit Beschleunigung durch Spiegelung als Cluster Share.- Nutzt du ReFS auf dem ClusterShare?
- Zuverlässigkeit gerade in Hinblick falls ein Knoten ausfällt - gibt es irgendwelche sachen die beachtet werden müssen oder gar fatal sein können, wenn man den ausgefallenen Knoten wieder online bringt?
Laufen seit Jahren zuverlässig, wenn es Probleme gab, konnten diese relativ einfach behoben werden.- Gibt es dinge, die du vermisst oder anders gelöst haben wölltest?
Nein, bin so zufrieden wie es ist.- Hast du den Cluster selbst eingerichtet, oder über eine Firma? Falls selber eingerichtet: Empfandest du die Einrichtung als "unnötig" Kompliziert?
Jedes Cluster selber eingerichtet.
"Kompliziert" ist es nicht, was unschön gelöst ist, ist der Zwangswechsel von Konfiguration mit der GUI, Zwangsweise Power Shell Befehle (weil GUI es nicht kann, WAC auch nicht) und Windows Admin Center zu nutzen.
Salut 
auch in der IATF16949 sehe ich nicht wirklich eine direkte Forderung, wonach das produktive System,
im Falle eines Notfalls, sofort wieder zur Verfügung stehen muss.
Habe ja auch nicht behauptet, dass es explizit drin steht. Sowas wirst du auch in keiner Norm/ keinem Gesetz finden - das würde a) zu sehr einengen b) den Gesetz-/ Normengeber verleiten, zur Abwechslung mal "Butter bei de Fische" zu packen 
In der IATF musst dur dir halt im Kontext der Notfallpläne bzw. vorbeugende Maßnahmen und dem Zusammenspiel der Risikoanalyse gedanken machen.
@Assassin
ich muss dann keine drei Knoten mit Speichermedien "vollhauen" sondern kann einen Knoten mit ausreichend CPU, RAM und HBAs kaufen und "einfach" ins SAN hängen.
Bei Migrationen/ Upgrades kann man die Kosten so auch auf zwei Perioden aufteilen: GJ 2025: Hosts erneuern, GJ2026: Storage erneuern.
Auch muss sich der Hypervisor-Knoten nicht noch mit dem Datenmanagement befassen, sondern stellt seine Ressourcen zu 95-100% den VMs bereit.
Gut, dafür kostet ein passables SAN mehr, als wenn ich die Knoten direkt mit passenden Speichermedien bestücke. Hier muss ja auch die ggf. erforderliche Infrastruktur passen. Wenn ich für iSCSI nur 10Gbit verfügbar habe, wird das ggf. etwas dünn. Da müssen u. U. DC-Switche mit 25G, 40G oder 100G her - oder man geht auf FibreChannel (mein persönlicher Favorit - liegt aber auch daran, dass ich FC gewohnt bin).
Dafür gibt es auch kein Gesetz, aber je nachdem, in welcher Branche du aktiv bist und wie nah dran du am Endverbraucher/ -Hersteller bist, kann es Normen geben, die einem das „nahelegen“, zumindest wird Dich ab einer gewissen Größe ein Auditor drauf aufmerksam machen. Spontan fällt mir da die IATF16949 ein.
auch in der IATF16949 sehe ich nicht wirklich eine direkte Forderung, wonach das produktive System,
im Falle eines Notfalls, sofort wieder zur Verfügung stehen muss.
In der IATF musst dur dir halt im Kontext der Notfallpläne bzw. vorbeugende Maßnahmen und dem Zusammenspiel der Risikoanalyse gedanken machen.
@Assassin
Welche Vorteil genau erkauft man sich, wenn man extra noch zwei seperaten SAN Systeme nimmt außer das es teurer wird? Festplatten- Replizieren kann doch S2D auch bzw. Ist doch genau dafür da? Ich meine - wenn man schon dicke Server hat, ist da doch auch genug Platz für ein paar SSD's.
Je nach Umgebung kann sich das bereits ab dem dritten Knoten des Hypervisors lohnen:ich muss dann keine drei Knoten mit Speichermedien "vollhauen" sondern kann einen Knoten mit ausreichend CPU, RAM und HBAs kaufen und "einfach" ins SAN hängen.
Bei Migrationen/ Upgrades kann man die Kosten so auch auf zwei Perioden aufteilen: GJ 2025: Hosts erneuern, GJ2026: Storage erneuern.
Auch muss sich der Hypervisor-Knoten nicht noch mit dem Datenmanagement befassen, sondern stellt seine Ressourcen zu 95-100% den VMs bereit.
Gut, dafür kostet ein passables SAN mehr, als wenn ich die Knoten direkt mit passenden Speichermedien bestücke. Hier muss ja auch die ggf. erforderliche Infrastruktur passen. Wenn ich für iSCSI nur 10Gbit verfügbar habe, wird das ggf. etwas dünn. Da müssen u. U. DC-Switche mit 25G, 40G oder 100G her - oder man geht auf FibreChannel (mein persönlicher Favorit - liegt aber auch daran, dass ich FC gewohnt bin).
Assassin 05.05.2025 aktualisiert um 15:31:52 Uhr
@em-pie - moment mal, gehst du von EINEM SAN aus wo die ganzen SSDs drin hängen? Es wird aber ein Failover-System gefordert was in zwei Brandabschnitten steht welche auch unabhängig voneinander arbeiten können wenn einer komplett ausgefallen ist. Das heißt, selbst wenn ein Serverraum in Flammen steht, darf der Produktivbetrieb davon nicht eingeschränkt werden - das ist die Zielvorgabe.
@em-pie - moment mal, gehst du von EINEM SAN aus wo die ganzen SSDs drin hängen? Es wird aber ein Failover-System gefordert was in zwei Brandabschnitten steht welche auch unabhängig voneinander arbeiten können wenn einer komplett ausgefallen ist. Das heißt, selbst wenn ein Serverraum in Flammen steht, darf der Produktivbetrieb davon nicht eingeschränkt werden - das ist die Zielvorgabe.
Nein, man kann auch ein SAN spiegeln. Mit Datacore zum Beispiel kannst Du ein gespiegeltes SAN aufbauen. Kostet alt etwas. UND GANZ WICHTIG: SCHULUNG, SCHULUNG, SCHULUNG,...
Gruss Penny.
@em-pie - moment mal, gehst du von EINEM SAN aus wo die ganzen SSDs drin hängen? Es wird aber ein Failover-System gefordert was in zwei Brandabschnitten steht welche auch unabhängig voneinander arbeiten können wenn einer komplett ausgefallen ist. Das heißt, selbst wenn ein Serverraum in Flammen steht, darf der Produktivbetrieb davon nicht eingeschränkt werden - das ist die Zielvorgabe.
Wenn ich nur ein dickes SAN habe wo alle Platten drin sind und meine Cluster mit dem einem Blech-SAN anbinde - was passiert dann wenn gerade der Serverraum in Flamen steht, wo das SAN drin ist?
Eine 3 Knoten Lösung ist auch nicht angedacht.
Wenn ich nur ein dickes SAN habe wo alle Platten drin sind und meine Cluster mit dem einem Blech-SAN anbinde - was passiert dann wenn gerade der Serverraum in Flamen steht, wo das SAN drin ist?
Eine 3 Knoten Lösung ist auch nicht angedacht.
Nein - ein SAN (= Storage Area Network) ist ja ein Netzwerk, welches ausschließlich der Speicheranbindung dient. Und ich gehe hier weiterhin von gespiegelten Storages aus. Deine Anforderung war ja ein S2D Cluster - daher war es für mich selbstverständlich, auch ein HA-SAN anzusprechen.
Und rechne dir aus, was zwei SAN-Storages mit 30TB netto kostet (ggf. + Infrastruktur) und was dich dein angepeiltes S2D-Cluster mit 2x30TB kosten wird (ggf. zzgl. Infrastruktur). Dann rechnest du noch aus, was die HyperV-Hosts ohne die 2x30TB kosten und du hast dein monetäres Delta - wobei man fairerweise natürlich die Wartungskosten mit einfließen lassen muss. Wartung für 2x Hardware ist günstiger als für 4x Hardware
Und ziehe bei deiner SAN-Bewertung nicht Datacore zugrunde. Hier hast du ja neben der Hardware auch noch die Kosten für die Windows-Lizenzen sowie die DataCore-Lizenzen. Habe schon sehr lange keine DC-Preise mehr gesehen, aber unter Strich wären zwei gespiegelte Storages von HPE, IBM, DELL, InforTrend (@MysticFoxDE nicht vergessen) günstiger, denn die Datacore-Variante.
Da ihr aber ohnehin nur zwei HyperV-Knoten haben wollt, kann ein dediziertes Storage kostentechnisch eh unnötig sein.
Moin @Penny.Cilin,
dafür benötigt ein Enterprise-SAN auch kein Datacore, sondern kann dies mit Boardmitteln machen.
Datacore geht ausserdem schon eher wieder Richtung vSAN.
Gruss Alex
Nein, man kann auch ein SAN spiegeln.
dafür benötigt ein Enterprise-SAN auch kein Datacore, sondern kann dies mit Boardmitteln machen.
Mit Datacore zum Beispiel kannst Du ein gespiegeltes SAN aufbauen. Kostet alt etwas. UND GANZ WICHTIG: SCHULUNG, SCHULUNG, SCHULUNG,...
Datacore geht ausserdem schon eher wieder Richtung vSAN.
Gruss Alex
Moin @em-pie,
ein HA-SAN ist aber nicht dasselbe wie ein gespiegeltes SAN.
Ein HA-SAN bedeutet nur, dass das SAN selber HA ausgelegt ist, sprich, redundante Netzteile, redundante Controller, redundante Host-Anbindung.
Die SAN's der DS Serie von Infortrend ...
https://www.infortrend.com/de/products/ds
... sind z.B. alle HA fähig.
Und spiegeln lassen die sich auch, ...
https://www.infortrend.com/de/solutions/local-remote-replication
... das haben wir so jedoch bisher noch nirgends benötigt.
Moment, wenn man eine vSAN plant, dann sollte man nicht nur mit den Kosten für die reine Kapazität kalkulieren, sprich nur das was die SSD’s kosten, sondern muss auch die Kosten für stärkere CPU’s mitberücksichtigen und auch etwas mehr RAM einplanen. Zudem kommen die Kosten für RDMA fähige NIC’s und gegebenen Falls entsprechende Switche noch hinzu. Für insbesondere mehr CPU Ressourcen, kommen dann aber auch noch zusätzliche Lizenzkosten (Datacenter und oder VMware) hinzu und schon ist das vSAN teurer als ein SAN, bei einer geringeren Performance und Effizienz. 🙃
Gruss Alex
Nein - ein SAN (= Storage Area Network) ist ja ein Netzwerk, welches ausschließlich der Speicheranbindung dient. Und ich gehe hier weiterhin von gespiegelten Storages aus. Deine Anforderung war ja ein S2D Cluster - daher war es für mich selbstverständlich, auch ein HA-SAN anzusprechen.
ein HA-SAN ist aber nicht dasselbe wie ein gespiegeltes SAN.
Ein HA-SAN bedeutet nur, dass das SAN selber HA ausgelegt ist, sprich, redundante Netzteile, redundante Controller, redundante Host-Anbindung.
Die SAN's der DS Serie von Infortrend ...
https://www.infortrend.com/de/products/ds
... sind z.B. alle HA fähig.
Und spiegeln lassen die sich auch, ...
https://www.infortrend.com/de/solutions/local-remote-replication
... das haben wir so jedoch bisher noch nirgends benötigt.
Und rechne dir aus, was zwei SAN-Storages mit 30TB netto kostet (ggf. + Infrastruktur) und was dich dein angepeiltes S2D-Cluster mit 2x30TB kosten wird (ggf. zzgl. Infrastruktur). Dann rechnest du noch aus, was die HyperV-Hosts ohne die 2x30TB kosten und du hast dein monetäres Delta
Moment, wenn man eine vSAN plant, dann sollte man nicht nur mit den Kosten für die reine Kapazität kalkulieren, sprich nur das was die SSD’s kosten, sondern muss auch die Kosten für stärkere CPU’s mitberücksichtigen und auch etwas mehr RAM einplanen. Zudem kommen die Kosten für RDMA fähige NIC’s und gegebenen Falls entsprechende Switche noch hinzu. Für insbesondere mehr CPU Ressourcen, kommen dann aber auch noch zusätzliche Lizenzkosten (Datacenter und oder VMware) hinzu und schon ist das vSAN teurer als ein SAN, bei einer geringeren Performance und Effizienz. 🙃
Gruss Alex
Moin @Assassin,
das ist gut, mit der Aussage kann ich schon etwas mehr anfangen.
Gut, wenn der Serverraum A warum auch immer brennt, darf die Produktion nicht stehen, verstanden.
Aber, ist die Produktion denn auch redundant/HA vernetzt, sprich, sind die entsprechenden Netzwerkverteiler ebenfalls redundant/HA ausgelegt und auch Richtung beider Serverräume verkabelt?
Sind auch die Fertigungsanlagen redundant an zwei getrennte Netwerkverteiler angeschlossen?
Meine Kristallkugel sagt mir nämlich, dass bei dir die Netzwerkverkabelung, so wie bei allen Betrieben die ich auch sonst so kenne, nicht wirklich redundant ausgelegt ist und meistens reicht es dann, wenn ein bestimmter Netzwerkverteiler abraucht und schon steht der ganze Laden. 🙃
By the way, die grösste Gefahr für eine IT-Landshaft, ist stand heute kein Brand sondern ein Cyberangriff und im Falle einer Infiltration oder Verschlüsselung, bringt dir ein gespiegeltes System überhaupt gar nichts.
Das Einzige was hier wirklich etwas bringt, ist ein sehr gutes Backup, welches so gut wie möglich und zwar sowohl physisch (getrennte Brandabschnitte) als auch logisch (eigenständiges VLAN) gesehen, isoliert von dem Rest der IT-Landschaft läuft.
Daher fragt heutzutage auch keine Betriebsausfallversicherung die ich kenne nach einem über zwei Serverräume verteiltem Hauptsystem, sondern interessieren sich eher für die Backupinfrastruktur und vor allem wie gut diese vom produktivem System isoliert ist und wie schnell die Backups im Bedarfsfall auch wiederhergestellt werden können.
Und ja, ganz ganz wichtig. Bitte niemals eine HV-Umgebung und zwar egal ob Hyper-V oder VMware und auch egal ob mit oder ohne S2D/vSAN, mit in die produktive Domäne reinhängen, sondern immer über eine isolierte Management-Domäne betreiben!
Gruss Alex
Es wird aber ein Failover-System gefordert was in zwei Brandabschnitten steht welche auch unabhängig voneinander arbeiten können wenn einer komplett ausgefallen ist. Das heißt, selbst wenn ein Serverraum in Flammen steht, darf der Produktivbetrieb davon nicht eingeschränkt werden - das ist die Zielvorgabe.
das ist gut, mit der Aussage kann ich schon etwas mehr anfangen.
Gut, wenn der Serverraum A warum auch immer brennt, darf die Produktion nicht stehen, verstanden.
Aber, ist die Produktion denn auch redundant/HA vernetzt, sprich, sind die entsprechenden Netzwerkverteiler ebenfalls redundant/HA ausgelegt und auch Richtung beider Serverräume verkabelt?
Sind auch die Fertigungsanlagen redundant an zwei getrennte Netwerkverteiler angeschlossen?
Meine Kristallkugel sagt mir nämlich, dass bei dir die Netzwerkverkabelung, so wie bei allen Betrieben die ich auch sonst so kenne, nicht wirklich redundant ausgelegt ist und meistens reicht es dann, wenn ein bestimmter Netzwerkverteiler abraucht und schon steht der ganze Laden. 🙃
By the way, die grösste Gefahr für eine IT-Landshaft, ist stand heute kein Brand sondern ein Cyberangriff und im Falle einer Infiltration oder Verschlüsselung, bringt dir ein gespiegeltes System überhaupt gar nichts.
Das Einzige was hier wirklich etwas bringt, ist ein sehr gutes Backup, welches so gut wie möglich und zwar sowohl physisch (getrennte Brandabschnitte) als auch logisch (eigenständiges VLAN) gesehen, isoliert von dem Rest der IT-Landschaft läuft.
Daher fragt heutzutage auch keine Betriebsausfallversicherung die ich kenne nach einem über zwei Serverräume verteiltem Hauptsystem, sondern interessieren sich eher für die Backupinfrastruktur und vor allem wie gut diese vom produktivem System isoliert ist und wie schnell die Backups im Bedarfsfall auch wiederhergestellt werden können.
Und ja, ganz ganz wichtig. Bitte niemals eine HV-Umgebung und zwar egal ob Hyper-V oder VMware und auch egal ob mit oder ohne S2D/vSAN, mit in die produktive Domäne reinhängen, sondern immer über eine isolierte Management-Domäne betreiben!
Gruss Alex
Zum Thema kosten.
Da kommt es genau auf den Fall an. Bei uns war der S2D Cluster Günstiger als die klassische Lösung mit 2 Nodes + 1 SAN. Auch wegen der vollständigen Redundanz von Node samt Speicher war damals Pro S2D.
Was für den TE vielleicht noch interessant ist. Es braucht auch noch einen Zeugenserver. Können aber auch einfache SMB Shares sein.
Gruss
Da kommt es genau auf den Fall an. Bei uns war der S2D Cluster Günstiger als die klassische Lösung mit 2 Nodes + 1 SAN. Auch wegen der vollständigen Redundanz von Node samt Speicher war damals Pro S2D.
Was für den TE vielleicht noch interessant ist. Es braucht auch noch einen Zeugenserver. Können aber auch einfache SMB Shares sein.
Gruss