Probleme eines Win 2003 Clusters bei Netzausfall abfangen

Hallo, wir haben hier in der Firma einen Windows 2003 Cluster auf 2 identischen Servern aufgesetzt.
Nun besteht bei uns öfters das Problem, daß das komplette Netz ausfällt, weil die Netzwerktruppe andauernd irgendwas vermurkst.
Das Netz war neulich 10 Minuten ausgefallen, mit der Folge daß der Node der die IP- und die Namensresource hält den Fehler erkennt und versucht die Resourcen auf den anderen Node zu schieben.
Die Sache hat allerdings den Haken, daß beide Nodes vom Netzausfall auf dem Public-Link betroffen sind und auch der Übertrag auf den 2. Node fehlschlägt, da auch dort ein Fehler aufgetreten ist.
Dadurch werden die Resourcen solange versucht zwischen den beiden Nodes hin- und herzuschieben bis die Threshold überschritten ist und der Cluster mit einem Fehlerzustand stoppt.

Weiß irgendjemand eine Möglichkeit wie man diese Problem umgehen kann?

Danke im Voraus.

Viel Grüße
_Kerberos_

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 6625

Url: https://administrator.de/forum/probleme-eines-win-2003-clusters-bei-netzausfall-abfangen-6625.html

Ausgedruckt am: 13.07.2025 um 18:07 Uhr

15 Kommentare

Neuester Kommentar

In der Clusterkonfiguration tauchen doch deine beiden Netzwerke auf.

Wie sind die denn konfiguriert? Getrennt für internen und externen Verkehr, oder im gemischten Modus?

Einfach nen Switch davor der die beiden Server beherbergt und von dort der Uplink (am besten per VLAN) in das eigentliche Netz? Dann haben die Kisten immer Link und sollten nicht durchdrehen wenn einer im Laufenden Betrieb am Netz rumsaut! Was ich übrigends unmöglich finde! -> pcsv.de

Die Nodes hängen an zwei unterschiedlichen Subnets.
Eine NIC pro Node hängt als Public-Link an dem einen Netz und die andere Karte hängt als Heartbeat an dem anderen Netz (Private Netz).
Bei dem Ausfall war zwar der Heartbeat noch da, aber beide Nodes wiesen eben den Fehler auf der Public-Karte auf.
Der Publick Link ist auf Mixed gestellt und der Private Link ist auf nur auf Internal (Private).

Ich würde mal versuchen den Public Link nur für den Clientzugriff zu konfigurieren, so dass die ClusterKommunikation wirklich nur noch über die Heartbeatleitung läuft.

Hallo, danke erstmal.
Das hört sich schon mal nach einer guten Lösung an.
Der Switch sollte in diesem Fall aber nach Möglichkeit nicht ausfallen.

Nur das du dann einen Single Point of failure hast, der dem Gedanken eines Clusters eher entgegensteht.

Kannst ja anstelle des VLANs auch zwei einzelne Switches benutzen die dann jeweils Ihren eigenen Uplink an unterschiedlichen Zugangspunkten verwenden.

Dann würde der Cluster aber doch trotzdem ein Problem an der Karte registrieren bzw. der Resource IP-Adresse, oder irre ich mich da?

ich denke das hängt davon ab wo dein Netz wegbricht.
Die Recource IP sollte nur offline gehen, wenn kein Link mehr da ist. Das passiert aber nur wenn die Strecke zwischen Node und Switch unterbrochen ist.

Hallo, Leute ich danke euch für die Antworten.
Das hat mir schon weitergeholfen.

Hallo,
so ein Problem habe ich auch .
4 Node Cluster mit Oracle Fail Safe.
Alles läuft sauber.
Aber wenn der Core Switch ausfällt sind die IP- Adressen weg ist gleich Failover
die Ressourcen werden solange hin und her gemoved bis die Schwellwerte erreicht sind.
Dann ist nicht einmal ein Zugriff über den Cluster Manager möglich.
Es hilft nur noch booten.

Hat jemand eine Idee wie das zu vermeiden ist.
Ich denke ein kleiner Switch mit eigenem Uplink ist schon eine gute Idee aber versau ich mir damit nicht die Performance übers Netz.
Ich hab 4 Gigabit Karten die direkt zum Core Switch gehen mit einem kleinen Switch vorgeschaltete aber nurn noch eine.

little

Hallo,
ich kenn Oracle Fail Safe zwar nicht.
Aber eventuell kannst du das Problem auch anders lösen.

Du kannst versuchen pro Server noch eine zusätzliche Karte unterzubringen und über verschiedene Switche zu gehen. Weis aber nicht ob das bei dir möglich ist.

Hallo zusammen,
wir haben folgendes Problem
Alle Gruppen wurden offline geschaltet auch die Clustergruppe um am System Wartungsarbeiten vorzunehemen.

Nach einem Neustart des System startet zwar der Clusterdienst und so wie es aussieht auch ohne Probleme
aber eine Anmeldung mit dem Clusteradmin am Cluster selbst ist nicht möglich.

Am Montag muß das System wieder laufen .
Unsere Wartungsfirma hat einen Call bei Microsoft aufgemacht.
Wer hatte den schon mal so einen Fall. und kann weiterhelfen.

Die Server starten alle ohne Problem aber eine zugriff auf die Ressourccen ist nicht oder nur begrenzt von außen möglich

little

so einen Fall hatte ich zwar noch nicht..aber mal schaun..

Was für eine Fehlermeldung kommt denn wenn du dich mit dem Clusteradmin anmeldest?
Steht was im Eventlog, oder Clusterlog?
funktioniert DNS sauber?