Raid-5 Verbund immer wieder kurzzeitig nicht erreichbar
Hi,
wir haben seit einiger Zeit Probleme mit unserem Fileserver.
Das Problem ist, dass der RAID-Verbund fast täglich für 5-10minuten nicht erreichbar ist, sprich man kommt weder lokal auf die Partition drauf noch über die Freigaben.
Der Server selbst reagiert etwas verzögert teilweise aber c:\ z.B. ist erreichbar, weshalb ich von einem Problem am Raid Controller von ausgehe.
In der Windows Ereignisanzeige und den Log-files des Controllers lässt sich leider nichts finden.
Laufen haben wir ein Raid-5 Verbund mit einem LSI Controller ( neuste Firmware ) + Windows Server 2008R2, der Server selbst ist von Supermicro.
Hat einer eine Idee ?
wir haben seit einiger Zeit Probleme mit unserem Fileserver.
Das Problem ist, dass der RAID-Verbund fast täglich für 5-10minuten nicht erreichbar ist, sprich man kommt weder lokal auf die Partition drauf noch über die Freigaben.
Der Server selbst reagiert etwas verzögert teilweise aber c:\ z.B. ist erreichbar, weshalb ich von einem Problem am Raid Controller von ausgehe.
In der Windows Ereignisanzeige und den Log-files des Controllers lässt sich leider nichts finden.
Laufen haben wir ein Raid-5 Verbund mit einem LSI Controller ( neuste Firmware ) + Windows Server 2008R2, der Server selbst ist von Supermicro.
Hat einer eine Idee ?
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 245074
Url: https://administrator.de/forum/raid-5-verbund-immer-wieder-kurzzeitig-nicht-erreichbar-245074.html
Ausgedruckt am: 12.04.2025 um 16:04 Uhr
15 Kommentare
Neuester Kommentar
Was mit mit Media Patrols?
Sind die Ausfälle zeitlich vorhersehbar?
Was sagt das Windows Eventlog zu den Ausfallzeiten?
Liegt auf dem Controller auch das OS? Wenn nein, mal den Controller des OS Volumes überprüft? Wenn das System einfriert, etwa weil im OS Raid ne Platte vom RAID1 springt dann friert das aus User-Sicht auch deinen großen RAID samt Freigaben ein.
Auch hier: Windows Event Log sollte Aufschluss geben können.
Hatte das mal mit nem Dell R300 und angeschlossenem MD1000. Selbes Verhalten. Am Ende war es nicht - wie initial auch von mir vermutet - der PERC6/E der die RAIDs auf dem MD1000 verwaltet hat, sondern der "kleine" PERC6/ir mit seinen 2 Festplatten (R1) auf dem das OS lag. Alle 3-4 Tage ist immer dieselbe der beiden Festplatten aus dem RAID gesprungen. Platte getauscht und gut war es wieder. Aber bis der Controller sich wieder gefangen hatte dass er da die Verbindung zu einer Platte über die Wupper ging liefen gut und gern mal 3-5 Minuten ins Land, 10-15 bis alles wieder flüssig wie gewohnt lief.
Sind die Ausfälle zeitlich vorhersehbar?
Was sagt das Windows Eventlog zu den Ausfallzeiten?
Liegt auf dem Controller auch das OS? Wenn nein, mal den Controller des OS Volumes überprüft? Wenn das System einfriert, etwa weil im OS Raid ne Platte vom RAID1 springt dann friert das aus User-Sicht auch deinen großen RAID samt Freigaben ein.
Auch hier: Windows Event Log sollte Aufschluss geben können.
Hatte das mal mit nem Dell R300 und angeschlossenem MD1000. Selbes Verhalten. Am Ende war es nicht - wie initial auch von mir vermutet - der PERC6/E der die RAIDs auf dem MD1000 verwaltet hat, sondern der "kleine" PERC6/ir mit seinen 2 Festplatten (R1) auf dem das OS lag. Alle 3-4 Tage ist immer dieselbe der beiden Festplatten aus dem RAID gesprungen. Platte getauscht und gut war es wieder. Aber bis der Controller sich wieder gefangen hatte dass er da die Verbindung zu einer Platte über die Wupper ging liefen gut und gern mal 3-5 Minuten ins Land, 10-15 bis alles wieder flüssig wie gewohnt lief.
Hallo,
kannst Du zum Zeitpunk des Ausfalls per RDP auf den Server und dort auf die Partition der Freigabe ist zugreifen?
Was sagt das Monitoring über die Performance?
Geht die Leerlaufzeit vor den Ausfall schlagartig auf 0% ?
Wurde der Server vor einiger Zeit neu gestartet und der Controller hat seinen Schreibcache vergessen?
Gruß
Chonta
kannst Du zum Zeitpunk des Ausfalls per RDP auf den Server und dort auf die Partition der Freigabe ist zugreifen?
Was sagt das Monitoring über die Performance?
Geht die Leerlaufzeit vor den Ausfall schlagartig auf 0% ?
Wurde der Server vor einiger Zeit neu gestartet und der Controller hat seinen Schreibcache vergessen?
Gruß
Chonta
Hallo,
wenn Du per RDP noch auf den Server rauf kommst, dann ist das System auch nicht eingefrohren.
Wenn Du veruchst in der RDP Sitzung auf die Platte zuzugreifen, kommt dann eine Fehlermeldung oder dauert es nur ewig bis man rauf kommt?
Da ne Hostpare drins ist, sollte die wenn eine eine Platte das Problem verursacht, diese durch die Spare getauscht werden. Deswegen würde ich sagen di ePlatten sind ok.
Zu prüfen ob das Dateisystem einen Fehler hat, kann nicht schaden. Wenn Dateien nicht gelesen werden können, und mehere Versuchen auf die Datei zuzugreifen, kann sich das ähnlich deinem Problem auswirken.
Der Controller selber oder das Kabel kann auch was weg haben.
Vor allem prüfen was perfmon zur Physikalischen Datenträger Warteschlange (rw), Lerlaufzeit und Disktime sagt.
Was für Dienste ausser Fileserver stellt der Server noch bereit?
Gruß
Chonta
wenn Du per RDP noch auf den Server rauf kommst, dann ist das System auch nicht eingefrohren.
Wenn Du veruchst in der RDP Sitzung auf die Platte zuzugreifen, kommt dann eine Fehlermeldung oder dauert es nur ewig bis man rauf kommt?
Da ne Hostpare drins ist, sollte die wenn eine eine Platte das Problem verursacht, diese durch die Spare getauscht werden. Deswegen würde ich sagen di ePlatten sind ok.
Zu prüfen ob das Dateisystem einen Fehler hat, kann nicht schaden. Wenn Dateien nicht gelesen werden können, und mehere Versuchen auf die Datei zuzugreifen, kann sich das ähnlich deinem Problem auswirken.
Der Controller selber oder das Kabel kann auch was weg haben.
Vor allem prüfen was perfmon zur Physikalischen Datenträger Warteschlange (rw), Lerlaufzeit und Disktime sagt.
Was für Dienste ausser Fileserver stellt der Server noch bereit?
Gruß
Chonta
Hallo,
es wird im Forum nicht gerne gesehen, wenn die Bilder extern liegen, also bitte hier reinstellen.
Die Zeitspanne ist komisch:du fängst bei 09:53:10 an dann um 09:54:30 gehts los und dann wechselt der von 09:54:40 auf 09:53:xx ??
Macht der Server Zeitsprünge?
Du hast leider den Logischen Datenträger genommen und nicht den physikalischen. Aber auch der logische zeigt immer wieder vollauslastung für Lese und Schreibzugriffe.
War die Aufnahme von nem Zustand wo nix ging oder wo noch alles normal war?
Ein Langzeitmonitoring wäre für dich von Interesse (MuninNode und Munin z.B.)
Läuft auf dem Server auch ein Virenscanner der jeden Zugriff scannt?
Wieviele Benutzer hast Du?
Gibt es Verzeichnisse in der Freigabe mit vielen klienne und großen Bildchen und die Benutzer gehen immer mit Filmansichtexplorer da rein?
Oder wird auch mit Servergespeicherten Profilen gearbeitet und Ordnerumleitungen die auch auf dem Fileserver liegen?
Es gibt viele die Komopieren Daten aus einer Freigabe auf den Desktop und bearbeiten die Da und speichern die danach wieder hoch, weil Desktop ist ja nicht auf dem Server...
Gruß
Chonta
es wird im Forum nicht gerne gesehen, wenn die Bilder extern liegen, also bitte hier reinstellen.
Die Zeitspanne ist komisch:du fängst bei 09:53:10 an dann um 09:54:30 gehts los und dann wechselt der von 09:54:40 auf 09:53:xx ??
Macht der Server Zeitsprünge?
Du hast leider den Logischen Datenträger genommen und nicht den physikalischen. Aber auch der logische zeigt immer wieder vollauslastung für Lese und Schreibzugriffe.
War die Aufnahme von nem Zustand wo nix ging oder wo noch alles normal war?
Ein Langzeitmonitoring wäre für dich von Interesse (MuninNode und Munin z.B.)
Läuft auf dem Server auch ein Virenscanner der jeden Zugriff scannt?
Wieviele Benutzer hast Du?
Gibt es Verzeichnisse in der Freigabe mit vielen klienne und großen Bildchen und die Benutzer gehen immer mit Filmansichtexplorer da rein?
Oder wird auch mit Servergespeicherten Profilen gearbeitet und Ordnerumleitungen die auch auf dem Fileserver liegen?
Es gibt viele die Komopieren Daten aus einer Freigabe auf den Desktop und bearbeiten die Da und speichern die danach wieder hoch, weil Desktop ist ja nicht auf dem Server...
Gruß
Chonta
Hallo,
nagios ist aber nicht zur Performancedatenüberwachung geeignet, bzw nicht so gut.
Hast Du schon Checks für Lehrlaufzeit Schreib und Lesewarteschlange?
Wenn nein einrichten.
Und auch einen Check der prüft wie ausgelastet die Nic ist.
Da kein Virenscanner da ist, Controller, Kabel oder ein Benutzerverursachtes Problem. (300 Benutzer sind viel und wenn da auf einmal 50 auf unterschidliche Freigaben zugreifen und dann 500 kleine und große Dateien runterladen wollen und und und.
Die Anzahl der Verbindungen zum Fileserver checken.
Gruß
Chonta
nagios ist aber nicht zur Performancedatenüberwachung geeignet, bzw nicht so gut.
Hast Du schon Checks für Lehrlaufzeit Schreib und Lesewarteschlange?
Wenn nein einrichten.
Und auch einen Check der prüft wie ausgelastet die Nic ist.
Da kein Virenscanner da ist, Controller, Kabel oder ein Benutzerverursachtes Problem. (300 Benutzer sind viel und wenn da auf einmal 50 auf unterschidliche Freigaben zugreifen und dann 500 kleine und große Dateien runterladen wollen und und und.
Die Anzahl der Verbindungen zum Fileserver checken.
Gruß
Chonta
Hallo,
also, wenn die Leerlaufzeit auf 0% ist und Warteschlangen für lesen und schreiben dann ist die Platte dicht. Und alle Anfragen laufen dann auf Timeout.
Z.B. wenn da jemand der Meinung ist ich suche Datei xyz aber ich hab keine Peilung wo die ist, ach ich durchuche mal die Freigabe bzw das Laufwerk X dann werd ich die finden.
Das der dann mal eben den Server lam legen kann ist dem nicht bewusst.
IO wird die Platte auch on mass haben, aber jeder der auch mal was will, kommt in die Warteschlange und dan irgendwann timeout.
Du kannst ja mal beim nächsten Problem das Netzwerkkabel ziehen und dann den Benutzern die als erstes jammern über die Schulter schauen , oder dem der garnicht jammert.
Gruß
Chonta
also, wenn die Leerlaufzeit auf 0% ist und Warteschlangen für lesen und schreiben dann ist die Platte dicht. Und alle Anfragen laufen dann auf Timeout.
Z.B. wenn da jemand der Meinung ist ich suche Datei xyz aber ich hab keine Peilung wo die ist, ach ich durchuche mal die Freigabe bzw das Laufwerk X dann werd ich die finden.
Das der dann mal eben den Server lam legen kann ist dem nicht bewusst.
IO wird die Platte auch on mass haben, aber jeder der auch mal was will, kommt in die Warteschlange und dan irgendwann timeout.
Du kannst ja mal beim nächsten Problem das Netzwerkkabel ziehen und dann den Benutzern die als erstes jammern über die Schulter schauen , oder dem der garnicht jammert.
Gruß
Chonta