kerberos_
Goto Top

Zugriffsproblem auf ein Laufwerk eines 2003 Clusters beheben

Hallo,

wir haben öfters das Problem dass auf ein gemeinsames Laufwerk unseres 2003 Clusters, welches auf einer SAN liegt, weder von dem einen noch von dem anderen Node zugegriffen werden kann.
Wenn man versucht von einem der Nodes mit dem Explorer auf das Laufwerk zuzugreifen kommt die Meldung, dass das Laufwerk nicht bereit ist.

Auf diesem Laufwerk liegt die Quorum drauf und deswegen läßt sich auch vermutlich der Cluster nicht mehr starten.
Ich habe schon versucht den Clusterservice auf einem der Nodes mit dem Parameter -noquorumlog zu starten.
Leider ließ sich der Service dadurch auch nicht starten.

Kennt jemand dieses Phänomen und weiß wie man sowas beheben kann?
Wenn der Cluster komplett deinstalliert ist und neu aufgesetzt wird kann man wieder auf dieses Laufwerk zugreifen.
Das kann aber wohl kaum Sinn der Sache sein.
Es scheint als ob das Laufwerk irgendwie durch eine fehlerhafte Kommunikation zwischen den beiden Clustern gelockt wurde.

Bin für jeden Tip dankbar.

Gruß
_Kerberos_

Content-ID: 6686

Url: https://administrator.de/contentid/6686

Ausgedruckt am: 13.11.2024 um 22:11 Uhr

HedgeHog
HedgeHog 09.02.2005 um 16:30:40 Uhr
Goto Top
Hi,

1. Stelle Sicher das es sich um Microsoft Zertifizierte Clusterhardware handelt. Falls nicht, schmeiss es weg! Du wirst immer neue Probleme bekommen.

2. Versuche den Dienst über die Kommandozeile mit der Option -debug zu starten, dann bekommst du detailierte auskünfte darüber warum der Cluster nicht starten will. IO-Fehler oder irgendwas in der Richtung.

3. Teile mal mit, Aktiv/Aktiv Aktiv/Passiv Cluster? Nur Windows oder auch Exchange,SQL?

4. Cluster ohne Qurum muss von vornherein als solcher eingerichtet werden.

5. Im Dienst unter Befehlszeile mal -fixqourum hinzufügen. Den Dienst dann über den Button starten.

6. Eventlogs anschauen und EventID hier posten....
Kerberos_
Kerberos_ 10.02.2005 um 09:35:24 Uhr
Goto Top
Hi,

1. Stelle Sicher das es sich um Microsoft
Zertifizierte Clusterhardware handelt. Falls
nicht, schmeiss es weg! Du wirst immer neue
Probleme bekommen.

Hi, ich habe auch schon sowas in Verdacht.
Leider sind uns wegen der Firmenpolitik zwecks Hardwarebestellung die Hände gebunden.
Die komplette Hardware ist nur zum Teil zertifiziert.
Auf jeden Fall würde ich persönlich nie wieder einen Cluster mit einem MTI-SAN aufziehen.
Der Support und die Hardware läßt schwer zu wünschen übrig!
Die 2 Nodes sind zertifizierte Fujitsu-Siemens Primergy RX600-Server.


2. Versuche den Dienst über die
Kommandozeile mit der Option -debug zu
starten, dann bekommst du detailierte
auskünfte darüber warum der
Cluster nicht starten will. IO-Fehler oder
irgendwas in der Richtung.
Wo werden die detailierten Infos reingeschrieben?
Eventlog, Logdatei im lokalen Clusterverzeichnis, Quorum?
Beim Versuch mit dem Parameter zu starten kam auf jeden Fall der Fehler 5028.

Hier ist mal ein Ausschnitt aus dem cluster.log:
00000ba0.00000bd0::2005/02/10-08:28:22.086 ERR Physical Disk <Disk W:>: Online, volumes not ready. Error: 258.
00000ba0.00000bd0::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: Online, setting ResourceState 4 .
00000ba0.00000bd0::2005/02/10-08:28:22.086 INFO [RM] RmpSetResourceStatus, Posting state 4 notification for resource <Disk W:>
00000b20.00000bb8::2005/02/10-08:28:22.086 INFO [FM] NotifyCallBackRoutine: enqueuing event
00000b20.00000b60::2005/02/10-08:28:22.086 INFO [FM] FmpCreateResStateChangeHandler: Entry
00000b20.00000b60::2005/02/10-08:28:22.086 INFO [FM] FmpCreateResStateChangeHandler: Exit, status 0
00000ba0.00000bd0::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: Online, returning final error 258 ResourceState 4 Valid 0
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [FM] FmpHandleResStateChangeProc: Entry...
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [CP] CppResourceNotify for resource Disk W:
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [DM] DmpQuoObjNotifyCb: Quorum resource offline/offlinepending/preoffline
00000b20.00000bd8::2005/02/10-08:28:22.086 WARN [FM] FmpHandleResourceTransition: Resource Name = 4c89d3a9-a38c-4209-8634-68bcb471977f [Disk W:] old state=129 new state=4
00000b20.00000bd8::2005/02/10-08:28:22.086 WARN [FM] FmpHandleResourceTransition: Resource failed, post a work item
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [FM] FmpPropagateResourceState: signalling the ghQuoOnlineEvent
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [GUM] GumSendUpdate: Locker waiting type 0 context 8
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [GUM] Thread 0xbd8 UpdateLock wait on Type 0
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [GUM] GumpDoLockingUpdate: lock was free, granted to 2
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [GUM] GumpDoLockingUpdate successful, Sequence=4191 Generation=0
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [GUM] GumSendUpdate: Locker dispatching seq 4191 type 0 context 8
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [GUM] GumpDoUnlockingUpdate releasing lock ownership
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [GUM] GumSendUpdate: completed update seq 4191 type 0 context 8
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [FM] FmpPropagateResourceState: resource 4c89d3a9-a38c-4209-8634-68bcb471977f failed event.
00000b20.00000b30::2005/02/10-08:28:22.086 INFO [DM] DmpChkQuoTombStone - Entry
00000b20.00000b30::2005/02/10-08:28:22.086 INFO [Qfs] QfsOpenFile W:\MSCS\\quotomb.stn => 3, ffffffff status 0
00000b20.00000b30::2005/02/10-08:28:22.086 INFO [DM] DmpChkQuoTombStone: Exit, returning 0x00000000
00000b20.00000b30::2005/02/10-08:28:22.086 WARN [DM] DmRollChanges: DmpApplyChanges() failed 0x000013a4
00000b20.00000b30::2005/02/10-08:28:22.086 ERR [CS] Error calling DmRollChanges, Status = 5028
00000b20.00000b30::2005/02/10-08:28:22.086 INFO [INIT] Cleaning up failed form attempt.
00000b20.00000b30::2005/02/10-08:28:22.086 ERR [INIT] Failed to form cluster, status 5028.
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [FM] FmpHandleResourceFailure: taking resource 4c89d3a9-a38c-4209-8634-68bcb471977f and dependents offline
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [DM] DmpQuoObjNotifyCb: Quorum resource offline/offlinepending/preoffline
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [MM] MmSetQuorumOwner(0,0), old owner 2.
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: Terminate, ResourceEntry @ 000A0C38 Valid 0
00000ba0.00000bcc::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [PnP] Stop watching PnP events for disk b8b40fc9
00000ba0.00000bcc::2005/02/10-08:28:22.086 WARN Physical Disk <Disk W:>: [PnP] RemoveDisk: WatchedList is empty
00000ba0.00000bcc::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [PnP] Stop watching disk b8b40fc9 - processed
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: DiskCleanup started.
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [DiskArb] StopPersistentReservations is called.
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [DiskArb] Stopping reservation thread.
00000ba0.00000bc8::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [DiskArb] CompletionRoutine, status 0.
00000b20.00000b30::2005/02/10-08:28:22.086 ERR [CS] ClusterInitialize failed 5028
00000b20.00000b30::2005/02/10-08:28:22.086 WARN [INIT] The cluster service is shutting down.
00000b20.00000b30::2005/02/10-08:28:22.086 INFO [EVT] EvShutdown
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [ArbCleanup] Verifying sector size.
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [ArbCleanup] Reading arbitration block.
00000b20.00000b30::2005/02/10-08:28:22.086 WARN [FM] Shutdown: Failover Manager requested to shutdown groups.
00000b20.00000b30::2005/02/10-08:28:22.086 INFO [FM] FmpCleanupGroups: Entry
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [DiskArb] Successful read (sector 12) [MCHG603A:42] (0,ab891366:01c50f49).
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [ArbCleanup] Writing arbitration block.
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [DiskArb] Successful write (sector 12) [:0] (0,00000000:00000000).
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [ArbCleanup] Returning status 0.
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: [DiskArb] StopPersistentReservations is complete.
00000ba0.00000bb4::2005/02/10-08:28:22.086 INFO Physical Disk <Disk W:>: DiskCleanup returning final error 0
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [CP] CppResourceNotify for resource Disk W:
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [DM] DmpQuoObjNotifyCb: Quorum resource offline/offlinepending/preoffline
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [FM] RmTerminateResource: 4c89d3a9-a38c-4209-8634-68bcb471977f is now offline
00000b20.00000bd8::2005/02/10-08:28:22.086 WARN [FM] FmpHandleResourceFailure: No restart tree on resource 4c89d3a9-a38c-4209-8634-68bcb471977f...
00000b20.00000bd8::2005/02/10-08:28:22.086 INFO [FM] FmpHandleResStateChangeProc: Exit...
00000b20.00000b30::2005/02/10-08:28:22.086 INFO [FM] FmpCleanupGroups: dwTimeOut=3600000 dwTimoutCount=180 waithint =20000
00000b20.00000bdc::2005/02/10-08:28:22.086 INFO [FM] FmpCleanupGroupsWorker: Entry
00000b20.00000bdc::2005/02/10-08:28:22.086 INFO [FM] FmpCleanupGroupsPhase1: Entry, Group = a4f19145-2136-4899-b0d4-19703acfc524
00000b20.00000bdc::2005/02/10-08:28:22.086 INFO [FM] FmpNotifyGroupStateChangeReason: Notifying group Cluster Group [a4f19145-2136-4899-b0d4-19703acfc524] of state change reason 4...
00000b20.00000bdc::2005/02/10-08:28:22.086 INFO [FM] Initializing resource 5c1db6a7-4c5f-4a94-868b-0c907d0d9557 from the registry.
00000b20.00000bdc::2005/02/10-08:28:22.086 INFO [FM] Name for Resource 5c1db6a7-4c5f-4a94-868b-0c907d0d9557 is 'Cluster IP Address'.
00000b20.00000bdc::2005/02/10-08:28:22.086 INFO [FM] FmpRmCreateResource: creating resource 5c1db6a7-4c5f-4a94-868b-0c907d0d9557 in shared resource monitor
00000ba0.00000bbc::2005/02/10-08:28:22.100 ERR IP Address <Cluster IP Address>: Unable to get local node ID, status 70.
00000ba0.00000bbc::2005/02/10-08:28:22.100 INFO IP Address <Cluster IP Address>: Resource closed.
00000ba0.00000bbc::2005/02/10-08:28:22.100 WARN [RM] RmpInsertResourceList failed, returned 70
00000ba0.00000bbc::2005/02/10-08:28:22.100 ERR [RM] Failed creating resource 5c1db6a7-4c5f-4a94-868b-0c907d0d9557, error 70.
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] FmpRmCreateResource: unable to create resource 5c1db6a7-4c5f-4a94-868b-0c907d0d9557
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] Initializing resource 69da7aaa-c97e-40bf-800c-c9f99563c284 from the registry.
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] Name for Resource 69da7aaa-c97e-40bf-800c-c9f99563c284 is 'Cluster Name'.
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] FmpRmCreateResource: creating resource 69da7aaa-c97e-40bf-800c-c9f99563c284 in shared resource monitor
00000ba0.00000bb4::2005/02/10-08:28:22.100 ERR Network Name <Cluster Name>: Unable to get local node name, status 70.
00000ba0.00000bb4::2005/02/10-08:28:22.100 INFO Network Name <Cluster Name>: Open failed, status 70
00000ba0.00000bb4::2005/02/10-08:28:22.100 WARN [RM] RmpInsertResourceList failed, returned 70
00000ba0.00000bb4::2005/02/10-08:28:22.100 ERR [RM] Failed creating resource 69da7aaa-c97e-40bf-800c-c9f99563c284, error 70.
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] FmpRmCreateResource: unable to create resource 69da7aaa-c97e-40bf-800c-c9f99563c284
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] FmpOfflineGroup, Group=a4f19145-2136-4899-b0d4-19703acfc524
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] FmpCleanupGroupsPhase1: Exit, status=5020
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] FmpCleanupGroupsWorker: Quorum group belongs to this node, process phase 2 later
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] FmpCleanupGroupsPhase2: Entry, Group = a4f19145-2136-4899-b0d4-19703acfc524
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] FmpOfflineGroup, Group=a4f19145-2136-4899-b0d4-19703acfc524
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] FmpOfflineGroup: Bring quorum resource offline
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [DM] DmpQuoObjNotifyCb: Quorum resource offline/offlinepending/preoffline
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [MM] MmSetQuorumOwner(0,1), old owner 0.
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [FM] FmpRmOfflineResource: RmOffline() for 4c89d3a9-a38c-4209-8634-68bcb471977f returned error 997
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [DM] DmpQuoObjNotifyCb: Quorum resource offline/offlinepending/preoffline
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [GUM] GumSendUpdate: Locker waiting type 0 context 8
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [GUM] Thread 0xbdc UpdateLock wait on Type 0
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [GUM] GumpDoLockingUpdate: lock was free, granted to 2
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [GUM] GumpDoLockingUpdate successful, Sequence=4192 Generation=0
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [GUM] GumSendUpdate: Locker dispatching seq 4192 type 0 context 8
00000b20.00000bdc::2005/02/10-08:28:22.100 INFO [GUM] GumpDoUnlockingUpdate releasing lock ownership


3. Teile mal mit, Aktiv/Aktiv Aktiv/Passiv
Cluster? Nur Windows oder auch
Exchange,SQL?
Es ist ein nur ein Testcluster, auf dem der Cluster mit 2 SAN-Laufwerken eingerichtet wurde.
Es wurde noch keine zusätzlich Gruppe oder Resource angelegt.
Wir haben einfach mal ein paar Tests durchgeführt, z. B. das Netzkabel am Public Link abgezogen usw. und dann ist dieses Phänomen aufgetreten.
Ich will vermeiden, daß wir die gleichen Probleme irgendwann bei unserem Produktivcluster haben und deshalb herausfinden woran das liegt und wie man das beheben kann.

4. Cluster ohne Qurum muss von vornherein
als solcher eingerichtet werden.
Also bringt der Parameter -noquorumlog bei einem typischen Cluster mit geshartem Quorum nichts?


5. Im Dienst unter Befehlszeile mal
-fixqourum hinzufügen. Den Dienst dann
über den Button starten.

6. Eventlogs anschauen und EventID hier
posten....
Die folgenden Fehler-EventID´s tauchen auf:
1069, 1009, 7031,7032
Kerberos_
Kerberos_ 10.02.2005 um 12:07:44 Uhr
Goto Top
Ich hatte es jetzt zumindest schon mal geschafft mit dem -fixquorum - Parameter den Service auf einem der beiden Nodes zu starten.
Im Cluster-Administrator wurden die beiden SAN-Disks als gestoppt angezeigt.
Nachdem ich versucht habe erstmal die Quorum-Disk wieder online zu bringen ist wurde der Clusterservice wieder gestoppt.
HedgeHog
HedgeHog 10.02.2005 um 12:33:50 Uhr
Goto Top
SAN-Disks von welchen Hersteller? URL? Treiberversion?

Haben die evtl nen Support mit nem Artikel zum Clustern? Haben die selbst auf ihre Seite infos darüber ob das geht? Ich befürchte das Problem ist eher in der Hardware zu suchen.

Der MSC-Service ist waas die Hardware angeht, relativ stumpf.
1ter Knoten sucht sich beim Start seine QUORUM-DISK.
Verbiegt das NTFS-Flag damit die Platte wieder vom System als NTFS und nicht als RAW erkannt wird. (In der Computerverwaltung einssehbar).

Schreibt ein paar prüf und log bytes. Geht das nicht. MÄÄP Dienst stop.
Fehler Clusterdisk ist blöd oder ähnlich.

Geht das beginnt er mit dem Mounten aller Datenträger und der zugehörigen Dienste.
Geht das->SUPI.
Geht nicht. MÄÄP MÄÄP MÄÄP- Er versucht das beim ersten Start 3 mal.
Dann suche 2ter Knoten. Online? Alles weg von mir ich hab Probleme.
Kein 2ter Knoten? Dienst stop. Fehler Cluster ist kaputt.

Sollte der 1te Knoten es online schaffen, kommt der 2te.
Dieser versucht sich ans Quorum log anzuklinken. Und da vergeigen es die Meisten nicht Zertifizierten Clusterstapel. In diesem Moment gibt es einmalig kurz ein Simulaten Zugriff von beiden Clusterknoten auf den Plattenstapel.
Wenn der Stapel das nicht sauber abfängt dann ist essig mit dem Cluster. Und dann ist zu 99% das Quorum defekt und muss mit Fixquorum repariert werden. Dafür ist es oft erforderlich die Hardware einmal Stromlos zu machen damit die sich wieder einkriegt.
Man beachte wahrscheinlich steht die Hardware jetzt auf Fehler da ja simultaner Zugriff erfolgte.

Wenn du sicherstellen kannst (GARANTIEREN!) das die Hardware(SAN) Clustertauglich ist ob nun Zertifiziert oder nicht dann mach einen Call bei Microsoft auf (150Euro Pauschal) oder versuch mal bei denen http://pcsv.de/service

der Paramter -debug auf der Kommandozeile gibt eigentlich auch direkt auf der Kommandozeile seine Fehler aus.

Befehl: start clussvc -debug
Kerberos_
Kerberos_ 10.02.2005 um 14:35:32 Uhr
Goto Top
Hallo ich danke dir für die ausführliche Antwort.