mz1022
Goto Top

Windows 2003 Server, 10min. Freeze - Raid5 eine Platte defekt?

In der Hoffnung das ich dank administrator.de das Problem schnell in den Griffe bekomme hier mein Anliegen:

Wir haben einen Windows 2003 Server mit RAID 5 (DHCP, DNS, AD, Exchange, Fileserver), seit einiger Zeit haben wir vereinzelt 10-15Min. Freezes wenn Installationen anstehen oder man direkt am Server z.B. von gößere Datenmengen die Eigenschaften anzeigen lassen möchte. Während dem Freeze lässt sich der Server im Netzwerk nicht pingen, die HDD Led rattert durchgehend und Taskmanager funktioniert nur solange er geöffnet ist und man nichts anklickt (CPU und Speicherauslastung sind da OK). Memtest hab ich schon laufen lassen, keine Fehler gefunden. Im Power Console Plus MegaRAID Utility zeigt er an das alle Platte OK sind und keine Fehler vorliegen. Was komisch ist: die RAID Platten haben ein Hot-Swap System und wenn ich die Abdeckung vorne öffne sehe ich das bei einer der 3 Array-Platten von zwei Lämpchen nur eines (das für zugriff) leuchtet, das zweite leuchtet bei den anderen 2 platten durchgehend (dürfte für "online" stehen).

Meine Frage jetzt: Irgendwelche Ideen wo der Hund begraben liegen könnte? Ich tippe auf eine Raid Platte (vorzugsweise die wo nur ein LED leuchtet) bin mir aber nicht sicher und befürchte das wenn ich die falsche Platte tausche ich eventuell das ganze System abschieße.

im Voraus schon mal Danke für eure Hilfe!

Content-ID: 114950

Url: https://administrator.de/contentid/114950

Ausgedruckt am: 22.11.2024 um 19:11 Uhr

Tonio6666
Tonio6666 30.04.2009 um 13:16:29 Uhr
Goto Top
Hallo 1022!

Also erst mal Finger von den Platten weg!!!

Wichtig wäre erst mal was denn auf dem Server gemacht wurde, irgend welche Installationen, updates???
Wenn ja, war das Problem seit dem da?

Was sagt denn das Ereignisprotokoll???

Wie ist denn der Aufbau des RAID? Also "nur" drei Platten, oder 5 oder wieviel???

Hab ja schon einen Verdacht, um den zu bestätigen brauch ich eben mehr info!

Gruß,

Tonio
mz1022
mz1022 30.04.2009 um 14:27:33 Uhr
Goto Top
hallo tonio,

"Also erst mal Finger von den Platten weg!!!" - ok

"Wichtig wäre erst mal was denn auf dem Server gemacht wurde, irgend welche Installationen, updates???
Wenn ja, war das Problem seit dem da?" - nein wurde nichts gemacht, das problem war von einem auf den anderen tag da. es passiert aber nur wenn am server direkt was größeres gemacht wird, von daher kann ich nicht sagen seit wann das problem besteht.

"Was sagt denn das Ereignisprotokoll???" - Wenn der Freeze kommt logged er mir 1 Warnung und 3 Fehlermeldungen:

Ereignistyp: Warnung
Ereignisquelle: REG_SERVER
Ereigniskategorie: Geräte
Ereigniskennung: 151
Beschreibung: Registration Server Alert
Message: Connection timeout: RAIDServer: CORE (Windows NT 5.2) has been unregistered.

Ereignistyp:Fehler
Ereignisquelle: MSExchangeSA
Ereigniskategorie: Allgemein
Ereigniskennung: 1031
Beschreibung: Eine der Aufgaben der Systemaufsicht ist blockiert.
Funktion: CMonitoringTask::Work

Ereignistyp: Fehler
Ereignisquelle: MSExchangeIS Mailbox Store
Ereigniskategorie: Allgemein
Ereigniskennung: 7200
Beschreibung: Der Hintergrundthread 'FDoUpdateCatalog' wurde für Datenbank "Erste Speichergruppe\Postfachspeicher" aufgrund des Fehlercodes 0x80004005 beendet.

Ereignistyp: Fehler
Ereignisquelle: MSExchangeIS Public Store
Ereigniskategorie: Allgemein
Ereigniskennung: 7200
Beschreibung: Der Hintergrundthread 'FDoUpdateCatalog' wurde für Datenbank "Erste Speichergruppe\Informationsspeicher für Öffentliche Ordner" aufgrund des Fehlercodes 0x80004005 beendet.

"Wie ist denn der Aufbau des RAID? Also "nur" drei Platten, oder 5 oder wieviel???" - Ja, RAID5 mit 3 Platten

Danke für die Hilfe ;)
mz1022
mz1022 04.05.2009 um 14:01:37 Uhr
Goto Top
Hatten heute Vormittag wieder einen Freeze, hab gleich danach das Fehlerprotokoll durchgeschaut. Folgender Fehler stimmt mit dem Zeitpunkt des Einfrierens überein:

Ereignistyp: Fehler
Ereignisquelle: Service Control Manager
Ereigniskategorie: Keine
Ereigniskennung: 7011
Beschreibung: Zeitüberschreitung (30000 ms) beim Warten auf eine Transaktionsrückmeldung von Dienst NtFrs.

Im Netz findet man nicht sehr viel, aber ich bin auf eine Seite gestoßen wo genau dieser Fehler in Zusammenhang mit wiederholten Freezes steht:


alle anderthalb Wochen muckt der Exchangeserver nachts rum und friert
einfach ein und zwar bekomme ich als einzige
System-Fehler-Ereignisanzeige:
-----------
Zeitüberschreitung (30000 ms) beim Warten auf eine
Transaktionsrückmeldung von Dienst NtFrs.

Weitere Informationen über die Hilfe- und Supportdienste erhalten Sie
unter http://go.microsoft.com/fwlink/events.asp.
Danach friert das System ein und ohne POPO-Methode (PowerOff-PowerOn)
ist der Server nicht mehr anprechbar.

Es ist ein SBS 2003 Prem. Server mit Exchange 2003 SP1 und 1 GB RAM

das gleiche Problem hatte ich auch. Der Server fror für einige Minuten ein,
dann konnte man kurz wieder arbeiten, dann wieder einfrieren. Bei mir lag es
an Problemen mit einer der Platten. Es hat schon gereicht, die Freigaben
aufzuheben. Danach tauchte die Meldung nicht mehr auf und der Server lief
auch wieder normal. Freigabe wieder eingerichtet und das ganze Spielchen
ging wieder von vorne los. Ich denke, es liegt am Sysvol-Verzeichnis auf
dieser Platte.


Irgendwelche Ideen? Liegt es wirklich an einer der 3 Platten aus dem Raid 5 System?
Tonio6666
Tonio6666 04.05.2009 um 14:13:58 Uhr
Goto Top
Hallo 1022!

Also wie ich Dir schon geschildert habe musses nicht unbedingt eine defekte Platte sein!
Versuche mal einen gaaanz simplen Trick der bei Exchange wunder wirken kann!

Deaktiviere sämtliche Antiviren Software!

Wenn es dann geht, weißt schon mal in welche Richtung das ganze geht.....

Das mit dem Problem der Festplatten, besorg Dir die Software zu Deinem RAID Controller, nur die kann Dir den genauen Status Deiner Platten geben!
So wie es aussieht kann der Exchange nicht seine Transaktionsprotokolle lesen oder schreiben!
Prüfe Deine Datensicherung, wird die regelmäßig gemacht, auch vom Postfachspeicher? Wie groß sind die Exchange Datenbanken???

Gruß,

Tonio
mz1022
mz1022 04.05.2009 um 14:28:14 Uhr
Goto Top
Deaktiviere sämtliche Antiviren Software!

am av liegt es nicht kann ich ausschließen, habe letzte Woche von Norton auf Kaspersky umgestellt und den Server offline ohne Schutz gehabt - der Server ist mir genau da wieder hängen geblieben.

Deinem RAID Controller, nur die kann Dir den genauen Status Deiner
Platten geben!

Hab ich installiert, laut Programm alle Platten OK

So wie es aussieht kann der Exchange nicht seine
Transaktionsprotokolle lesen oder schreiben!

Denke das kommt weil der Server in der Zeit hängt

Prüfe Deine Datensicherung, wird die regelmäßig
gemacht, auch vom Postfachspeicher? Wie groß sind die Exchange
Datenbanken???

Exchange Datenbank-Sicherung steht bei 10GB, sieht alles normal aus

Hab im Netz im Zusammenhang mit dem Fehler immer wieder "LAN-Autodisconnect-Parameter" gelesen, werde den mal umstellen und hoffen das es was bringt.
Tonio6666
Tonio6666 04.05.2009 um 14:41:48 Uhr
Goto Top
So,

nach ner kleine Zigarrettenpause ist mir noch Sachen eingefallen:

Die Fehlermeldungen zeigen auf ein Treiberproblem hin, das er nicht ordentlich auf das RAID zugreifen kann.
Kann aber durchaus auch (nun doch) auf die Zugriffszeit einer Platte hin deuten.
Da Du nur drei Platten in diesem RAID hast, kann es nur eine sein weil sonst wäre ja gar nix mehr da!

Desweitern, hat Dir jemand auf dem Server Outlook installiert? -- NIE machen!

Oder einen Firewallclienten??? (Der vom ISA ist da sehr verdächtig, verursacht genau Dein beschriebenes Problem!) oder Firewall eines Dritthersteller???


Gruß,

Tonio
mz1022
mz1022 04.05.2009 um 15:37:39 Uhr
Goto Top
Die Fehlermeldungen zeigen auf ein Treiberproblem hin, das er nicht
ordentlich auf das RAID zugreifen kann.
Kann aber durchaus auch (nun doch) auf die Zugriffszeit einer Platte
hin deuten.
Da Du nur drei Platten in diesem RAID hast, kann es nur eine sein
weil sonst wäre ja gar nix mehr da!

Die Frage ist dann nur welche, wenn im Raid Utility alle als OK angeführt sind. Nehm ich die falsche raus - also eine die funktioniert kann es sein das ich mir das System ausser Betrieb setzte. (werde diese Option noch rauszögren)

Desweitern, hat Dir jemand auf dem Server Outlook installiert? -- NIE
machen!

Oh mein Gott, das hab ich nicht gewusst. Hab nachgesehen es wurde mal ein Office Paket installiert inkl.Outlook. Hab ich gleich deinstalliert...

Oder einen Firewallclienten??? (Der vom ISA ist da sehr
verdächtig, verursacht genau Dein beschriebenes Problem!) oder
Firewall eines Dritthersteller???

Nein Kein FW Client drauf.


Danke für deine schnellen Antworten, ich hab jetzt ein paar Lösungsansätze. Werde die jetzt Schrittweise durchgehen und sehen ob sich was bessert.
mz1022
mz1022 11.05.2009 um 10:14:03 Uhr
Goto Top
Habe letzten Montag den LAN-Autodisconnect-Parameter geändert, lief dann bis Freitag alles ohne Probleme - aber dann wieder "7011 Service Control Manager" (NtFrs) Fehler. Im DateiReplikationsDienst-Log keine einzige Fehlermeldung/Warnung. Die 3 Platte im RAID5 haben nur 300GB HDSpace für C: davon sind aktuell nur mehr 45GB frei. Kann es sein das die Backupvorgänge (Tägliche Daten- & Exchangesicherungen) die Platten auslasten und dadurch der "NtFrs" Fehler kommt? Und wenn ja müsste das dann nicht im Log stehen?