gelöst Probleme eines Win 2003 Clusters bei Netzausfall abfangen
Kerberos_ (Level 1) - Jetzt verbinden
08.02.2005, aktualisiert 13.06.2005, 5236 Aufrufe, 15 Kommentare
Hallo, wir haben hier in der Firma einen Windows 2003 Cluster auf 2 identischen Servern aufgesetzt.
Nun besteht bei uns öfters das Problem, daß das komplette Netz ausfällt, weil die Netzwerktruppe andauernd irgendwas vermurkst.
Das Netz war neulich 10 Minuten ausgefallen, mit der Folge daß der Node der die IP- und die Namensresource hält den Fehler erkennt und versucht die Resourcen auf den anderen Node zu schieben.
Die Sache hat allerdings den Haken, daß beide Nodes vom Netzausfall auf dem Public-Link betroffen sind und auch der Übertrag auf den 2. Node fehlschlägt, da auch dort ein Fehler aufgetreten ist.
Dadurch werden die Resourcen solange versucht zwischen den beiden Nodes hin- und herzuschieben bis die Threshold überschritten ist und der Cluster mit einem Fehlerzustand stoppt.
Weiß irgendjemand eine Möglichkeit wie man diese Problem umgehen kann?
Danke im Voraus.
Viel Grüße
_Kerberos_
Nun besteht bei uns öfters das Problem, daß das komplette Netz ausfällt, weil die Netzwerktruppe andauernd irgendwas vermurkst.
Das Netz war neulich 10 Minuten ausgefallen, mit der Folge daß der Node der die IP- und die Namensresource hält den Fehler erkennt und versucht die Resourcen auf den anderen Node zu schieben.
Die Sache hat allerdings den Haken, daß beide Nodes vom Netzausfall auf dem Public-Link betroffen sind und auch der Übertrag auf den 2. Node fehlschlägt, da auch dort ein Fehler aufgetreten ist.
Dadurch werden die Resourcen solange versucht zwischen den beiden Nodes hin- und herzuschieben bis die Threshold überschritten ist und der Cluster mit einem Fehlerzustand stoppt.
Weiß irgendjemand eine Möglichkeit wie man diese Problem umgehen kann?
Danke im Voraus.
Viel Grüße
_Kerberos_
15 Antworten
- LÖSUNG meinereiner schreibt am 08.02.2005 um 10:58:41 Uhr
- LÖSUNG Kerberos_ schreibt am 08.02.2005 um 11:29:11 Uhr
- LÖSUNG meinereiner schreibt am 08.02.2005 um 11:49:19 Uhr
- LÖSUNG Kerberos_ schreibt am 08.02.2005 um 12:22:08 Uhr
- LÖSUNG meinereiner schreibt am 08.02.2005 um 12:33:25 Uhr
- LÖSUNG Kerberos_ schreibt am 08.02.2005 um 12:22:08 Uhr
- LÖSUNG meinereiner schreibt am 08.02.2005 um 11:49:19 Uhr
- LÖSUNG Kerberos_ schreibt am 08.02.2005 um 11:29:11 Uhr
- LÖSUNG HedgeHog schreibt am 08.02.2005 um 11:06:39 Uhr
- LÖSUNG Kerberos_ schreibt am 08.02.2005 um 11:50:38 Uhr
- LÖSUNG meinereiner schreibt am 08.02.2005 um 11:53:59 Uhr
- LÖSUNG HedgeHog schreibt am 08.02.2005 um 12:05:53 Uhr
- LÖSUNG Kerberos_ schreibt am 08.02.2005 um 11:50:38 Uhr
- LÖSUNG Kerberos_ schreibt am 08.02.2005 um 13:55:15 Uhr
- LÖSUNG little schreibt am 09.05.2005 um 14:46:54 Uhr
- LÖSUNG Kerberos_ schreibt am 10.05.2005 um 14:25:25 Uhr
- LÖSUNG little schreibt am 11.06.2005 um 18:11:10 Uhr
- LÖSUNG meinereiner schreibt am 11.06.2005 um 19:18:55 Uhr
- LÖSUNG little schreibt am 13.06.2005 um 08:12:55 Uhr
- LÖSUNG meinereiner schreibt am 11.06.2005 um 19:18:55 Uhr
LÖSUNG 08.02.2005 um 10:58 Uhr
In der Clusterkonfiguration tauchen doch deine beiden Netzwerke auf.
Wie sind die denn konfiguriert? Getrennt für internen und externen Verkehr, oder im gemischten Modus?
Wie sind die denn konfiguriert? Getrennt für internen und externen Verkehr, oder im gemischten Modus?
LÖSUNG 08.02.2005 um 11:06 Uhr
Einfach nen Switch davor der die beiden Server beherbergt und von dort der Uplink (am besten per VLAN) in das eigentliche Netz? Dann haben die Kisten immer Link und sollten nicht durchdrehen wenn einer im Laufenden Betrieb am Netz rumsaut! Was ich übrigends unmöglich finde! -> http://pcsv.de
LÖSUNG 08.02.2005 um 11:29 Uhr
Die Nodes hängen an zwei unterschiedlichen Subnets.
Eine NIC pro Node hängt als Public-Link an dem einen Netz und die andere Karte hängt als Heartbeat an dem anderen Netz (Private Netz).
Bei dem Ausfall war zwar der Heartbeat noch da, aber beide Nodes wiesen eben den Fehler auf der Public-Karte auf.
Der Publick Link ist auf Mixed gestellt und der Private Link ist auf nur auf Internal (Private).
Eine NIC pro Node hängt als Public-Link an dem einen Netz und die andere Karte hängt als Heartbeat an dem anderen Netz (Private Netz).
Bei dem Ausfall war zwar der Heartbeat noch da, aber beide Nodes wiesen eben den Fehler auf der Public-Karte auf.
Der Publick Link ist auf Mixed gestellt und der Private Link ist auf nur auf Internal (Private).
LÖSUNG 08.02.2005 um 11:49 Uhr
Ich würde mal versuchen den Public Link nur für den Clientzugriff zu konfigurieren, so dass die ClusterKommunikation wirklich nur noch über die Heartbeatleitung läuft.
LÖSUNG 08.02.2005 um 11:50 Uhr
Hallo, danke erstmal.
Das hört sich schon mal nach einer guten Lösung an.
Der Switch sollte in diesem Fall aber nach Möglichkeit nicht ausfallen.
Das hört sich schon mal nach einer guten Lösung an.
Der Switch sollte in diesem Fall aber nach Möglichkeit nicht ausfallen.
LÖSUNG 08.02.2005 um 11:53 Uhr
Nur das du dann einen Single Point of failure hast, der dem Gedanken eines Clusters eher entgegensteht.
LÖSUNG 08.02.2005 um 12:05 Uhr
Kannst ja anstelle des VLANs auch zwei einzelne Switches benutzen die dann jeweils Ihren eigenen Uplink an unterschiedlichen Zugangspunkten verwenden.
LÖSUNG 08.02.2005 um 12:22 Uhr
Dann würde der Cluster aber doch trotzdem ein Problem an der Karte registrieren bzw. der Resource IP-Adresse, oder irre ich mich da?
LÖSUNG 08.02.2005 um 12:33 Uhr
ich denke das hängt davon ab wo dein Netz wegbricht.
Die Recource IP sollte nur offline gehen, wenn kein Link mehr da ist. Das passiert aber nur wenn die Strecke zwischen Node und Switch unterbrochen ist.
Die Recource IP sollte nur offline gehen, wenn kein Link mehr da ist. Das passiert aber nur wenn die Strecke zwischen Node und Switch unterbrochen ist.
LÖSUNG 08.02.2005 um 13:55 Uhr
Hallo, Leute ich danke euch für die Antworten.
Das hat mir schon weitergeholfen.
Das hat mir schon weitergeholfen.
LÖSUNG 09.05.2005 um 14:46 Uhr
Hallo,
so ein Problem habe ich auch .
4 Node Cluster mit Oracle Fail Safe.
Alles läuft sauber.
Aber wenn der Core Switch ausfällt sind die IP- Adressen weg ist gleich Failover
die Ressourcen werden solange hin und her gemoved bis die Schwellwerte erreicht sind.
Dann ist nicht einmal ein Zugriff über den Cluster Manager möglich.
Es hilft nur noch booten.
Hat jemand eine Idee wie das zu vermeiden ist.
Ich denke ein kleiner Switch mit eigenem Uplink ist schon eine gute Idee aber versau ich mir damit nicht die Performance übers Netz.
Ich hab 4 Gigabit Karten die direkt zum Core Switch gehen mit einem kleinen Switch vorgeschaltete aber nurn noch eine.
little
so ein Problem habe ich auch .
4 Node Cluster mit Oracle Fail Safe.
Alles läuft sauber.
Aber wenn der Core Switch ausfällt sind die IP- Adressen weg ist gleich Failover
die Ressourcen werden solange hin und her gemoved bis die Schwellwerte erreicht sind.
Dann ist nicht einmal ein Zugriff über den Cluster Manager möglich.
Es hilft nur noch booten.
Hat jemand eine Idee wie das zu vermeiden ist.
Ich denke ein kleiner Switch mit eigenem Uplink ist schon eine gute Idee aber versau ich mir damit nicht die Performance übers Netz.
Ich hab 4 Gigabit Karten die direkt zum Core Switch gehen mit einem kleinen Switch vorgeschaltete aber nurn noch eine.
little
LÖSUNG 10.05.2005 um 14:25 Uhr
Hallo,
ich kenn Oracle Fail Safe zwar nicht.
Aber eventuell kannst du das Problem auch anders lösen.
Du kannst versuchen pro Server noch eine zusätzliche Karte unterzubringen und über verschiedene Switche zu gehen. Weis aber nicht ob das bei dir möglich ist.
ich kenn Oracle Fail Safe zwar nicht.
Aber eventuell kannst du das Problem auch anders lösen.
Du kannst versuchen pro Server noch eine zusätzliche Karte unterzubringen und über verschiedene Switche zu gehen. Weis aber nicht ob das bei dir möglich ist.
LÖSUNG 11.06.2005 um 18:11 Uhr
Hallo zusammen,
wir haben folgendes Problem
Alle Gruppen wurden offline geschaltet auch die Clustergruppe um am System Wartungsarbeiten vorzunehemen.
Nach einem Neustart des System startet zwar der Clusterdienst und so wie es aussieht auch ohne Probleme
aber eine Anmeldung mit dem Clusteradmin am Cluster selbst ist nicht möglich.
Am Montag muß das System wieder laufen .
Unsere Wartungsfirma hat einen Call bei Microsoft aufgemacht.
Wer hatte den schon mal so einen Fall. und kann weiterhelfen.
Die Server starten alle ohne Problem aber eine zugriff auf die Ressourccen ist nicht oder nur begrenzt von außen möglich
little
wir haben folgendes Problem
Alle Gruppen wurden offline geschaltet auch die Clustergruppe um am System Wartungsarbeiten vorzunehemen.
Nach einem Neustart des System startet zwar der Clusterdienst und so wie es aussieht auch ohne Probleme
aber eine Anmeldung mit dem Clusteradmin am Cluster selbst ist nicht möglich.
Am Montag muß das System wieder laufen .
Unsere Wartungsfirma hat einen Call bei Microsoft aufgemacht.
Wer hatte den schon mal so einen Fall. und kann weiterhelfen.
Die Server starten alle ohne Problem aber eine zugriff auf die Ressourccen ist nicht oder nur begrenzt von außen möglich
little
LÖSUNG 11.06.2005 um 19:18 Uhr
so einen Fall hatte ich zwar noch nicht..aber mal schaun..
Was für eine Fehlermeldung kommt denn wenn du dich mit dem Clusteradmin anmeldest?
Steht was im Eventlog, oder Clusterlog?
funktioniert DNS sauber?
Was für eine Fehlermeldung kommt denn wenn du dich mit dem Clusteradmin anmeldest?
Steht was im Eventlog, oder Clusterlog?
funktioniert DNS sauber?
LÖSUNG 13.06.2005 um 08:12 Uhr
Hallo, Problem ist gelöst
anmelden mit '.' dann wird die Namesauflösung umgangen
und das anmelden ist OK.
little
anmelden mit '.' dann wird die Namesauflösung umgangen
und das anmelden ist OK.
little
Ähnliche Inhalte
Neue Wissensbeiträge
Heiß diskutierte Inhalte