kerberos_
Goto Top

Probleme eines Win 2003 Clusters bei Netzausfall abfangen

Hallo, wir haben hier in der Firma einen Windows 2003 Cluster auf 2 identischen Servern aufgesetzt.
Nun besteht bei uns öfters das Problem, daß das komplette Netz ausfällt, weil die Netzwerktruppe andauernd irgendwas vermurkst.
Das Netz war neulich 10 Minuten ausgefallen, mit der Folge daß der Node der die IP- und die Namensresource hält den Fehler erkennt und versucht die Resourcen auf den anderen Node zu schieben.
Die Sache hat allerdings den Haken, daß beide Nodes vom Netzausfall auf dem Public-Link betroffen sind und auch der Übertrag auf den 2. Node fehlschlägt, da auch dort ein Fehler aufgetreten ist.
Dadurch werden die Resourcen solange versucht zwischen den beiden Nodes hin- und herzuschieben bis die Threshold überschritten ist und der Cluster mit einem Fehlerzustand stoppt.

Weiß irgendjemand eine Möglichkeit wie man diese Problem umgehen kann?

Danke im Voraus.


Viel Grüße
_Kerberos_

Content-ID: 6625

Url: https://administrator.de/contentid/6625

Ausgedruckt am: 13.11.2024 um 22:11 Uhr

meinereiner
meinereiner 08.02.2005 um 10:58:41 Uhr
Goto Top
In der Clusterkonfiguration tauchen doch deine beiden Netzwerke auf.

Wie sind die denn konfiguriert? Getrennt für internen und externen Verkehr, oder im gemischten Modus?
HedgeHog
HedgeHog 08.02.2005 um 11:06:39 Uhr
Goto Top
Einfach nen Switch davor der die beiden Server beherbergt und von dort der Uplink (am besten per VLAN) in das eigentliche Netz? Dann haben die Kisten immer Link und sollten nicht durchdrehen wenn einer im Laufenden Betrieb am Netz rumsaut! Was ich übrigends unmöglich finde! -> http://pcsv.de
Kerberos_
Kerberos_ 08.02.2005 um 11:29:11 Uhr
Goto Top
Die Nodes hängen an zwei unterschiedlichen Subnets.
Eine NIC pro Node hängt als Public-Link an dem einen Netz und die andere Karte hängt als Heartbeat an dem anderen Netz (Private Netz).
Bei dem Ausfall war zwar der Heartbeat noch da, aber beide Nodes wiesen eben den Fehler auf der Public-Karte auf.
Der Publick Link ist auf Mixed gestellt und der Private Link ist auf nur auf Internal (Private).
meinereiner
meinereiner 08.02.2005 um 11:49:19 Uhr
Goto Top
Ich würde mal versuchen den Public Link nur für den Clientzugriff zu konfigurieren, so dass die ClusterKommunikation wirklich nur noch über die Heartbeatleitung läuft.
Kerberos_
Kerberos_ 08.02.2005 um 11:50:38 Uhr
Goto Top
Hallo, danke erstmal.
Das hört sich schon mal nach einer guten Lösung an.
Der Switch sollte in diesem Fall aber nach Möglichkeit nicht ausfallen.
meinereiner
meinereiner 08.02.2005 um 11:53:59 Uhr
Goto Top
Nur das du dann einen Single Point of failure hast, der dem Gedanken eines Clusters eher entgegensteht.
HedgeHog
HedgeHog 08.02.2005 um 12:05:53 Uhr
Goto Top
Kannst ja anstelle des VLANs auch zwei einzelne Switches benutzen die dann jeweils Ihren eigenen Uplink an unterschiedlichen Zugangspunkten verwenden.
Kerberos_
Kerberos_ 08.02.2005 um 12:22:08 Uhr
Goto Top
Dann würde der Cluster aber doch trotzdem ein Problem an der Karte registrieren bzw. der Resource IP-Adresse, oder irre ich mich da?
meinereiner
meinereiner 08.02.2005 um 12:33:25 Uhr
Goto Top
ich denke das hängt davon ab wo dein Netz wegbricht.
Die Recource IP sollte nur offline gehen, wenn kein Link mehr da ist. Das passiert aber nur wenn die Strecke zwischen Node und Switch unterbrochen ist.
Kerberos_
Kerberos_ 08.02.2005 um 13:55:15 Uhr
Goto Top
Hallo, Leute ich danke euch für die Antworten.
Das hat mir schon weitergeholfen.
little
little 09.05.2005 um 14:46:54 Uhr
Goto Top
Hallo,
so ein Problem habe ich auch .
4 Node Cluster mit Oracle Fail Safe.
Alles läuft sauber.
Aber wenn der Core Switch ausfällt sind die IP- Adressen weg ist gleich Failover
die Ressourcen werden solange hin und her gemoved bis die Schwellwerte erreicht sind.
Dann ist nicht einmal ein Zugriff über den Cluster Manager möglich.
Es hilft nur noch booten.

Hat jemand eine Idee wie das zu vermeiden ist.
Ich denke ein kleiner Switch mit eigenem Uplink ist schon eine gute Idee aber versau ich mir damit nicht die Performance übers Netz.
Ich hab 4 Gigabit Karten die direkt zum Core Switch gehen mit einem kleinen Switch vorgeschaltete aber nurn noch eine.

little
Kerberos_
Kerberos_ 10.05.2005 um 14:25:25 Uhr
Goto Top
Hallo,
ich kenn Oracle Fail Safe zwar nicht.
Aber eventuell kannst du das Problem auch anders lösen.

Du kannst versuchen pro Server noch eine zusätzliche Karte unterzubringen und über verschiedene Switche zu gehen. Weis aber nicht ob das bei dir möglich ist.
little
little 11.06.2005 um 18:11:10 Uhr
Goto Top
Hallo zusammen,
wir haben folgendes Problem
Alle Gruppen wurden offline geschaltet auch die Clustergruppe um am System Wartungsarbeiten vorzunehemen.

Nach einem Neustart des System startet zwar der Clusterdienst und so wie es aussieht auch ohne Probleme
aber eine Anmeldung mit dem Clusteradmin am Cluster selbst ist nicht möglich.

Am Montag muß das System wieder laufen .
Unsere Wartungsfirma hat einen Call bei Microsoft aufgemacht.
Wer hatte den schon mal so einen Fall. und kann weiterhelfen.

Die Server starten alle ohne Problem aber eine zugriff auf die Ressourccen ist nicht oder nur begrenzt von außen möglich

little
meinereiner
meinereiner 11.06.2005 um 19:18:55 Uhr
Goto Top
so einen Fall hatte ich zwar noch nicht..aber mal schaun..

Was für eine Fehlermeldung kommt denn wenn du dich mit dem Clusteradmin anmeldest?
Steht was im Eventlog, oder Clusterlog?
funktioniert DNS sauber?
little
little 13.06.2005 um 08:12:55 Uhr
Goto Top
Hallo, Problem ist gelöst
anmelden mit '.' dann wird die Namesauflösung umgangen
und das anmelden ist OK.
little