59561
Goto Top

reproduzierbarer Server-Crash

beim Kopieren W2k-Server lahmgelegt

Hallo Forum,

ich hoffe, die Sparte Prozessoren, RAM und Mainboard hier im Forum ist die richtige für mein Anliegen, aber lest selbst:

Nachdem unser Firmenserver wegen Altersschwäche ausgefallen ist, habe ich bis zur Lieferung des neuen eine Übergangslösung geschaffen:
einen normalen, durchschnittlichen Arbeitsplatz-Rechner (gekauft November 2007) mit W2k Server installiert und eine weitere ebenfalls neue HD mit der Rücksicherung unserer Daten versehen, Freigaben gesetzt usw.
Dieses System sollte mir als "Ersatz-Server" dienen und funktioniert im normalen Betrieb (40 Mitarbeiter im Netz) auch wunderbar.
Gestern wollte ich von einem PC im LAN eine größere Datenmenge (ca. 30 GB) auf den "Server" kopieren und später mit auf Band sichern. Ca. 10 Minuten nach dem Start des Kopiervorganges poppt am "Server" ein Fenster auf: Verzeichnis D:/??? ist beschädigt. Führen Sie CHKDSK aus
Folgendes war passiert: Ein Mitarbeiter wollte eine x-beliebige Datei (keine aus den gerade kopierten!) öffnen und erhielt auch an seinem Platz die Meldung, dass nichts gefunden werden konnte. Jeder weitere Zugriffsversuch von irgendwoher im Netz endete ebenfalls mit diesen PopUp-Fenstern am "Server" und der jeweiligen Workstation. Ich habe dann den Rechner vom Netz genommen, immer mehr Ordner auf der Platte wurden als "nicht vohanden" oder "leer" angezeigt; es lief wohl irgendwo im Hintergrund die Fragmentierung meiner Daten weiter.
Dann habe ich einen Neustart am Server durchgeführt, am Ende fand sich auf der Datenplatte nach ca. 30-minütigem CHKDSK nur noch ein großer found.000 - Ordner, der Teile meiner früheren Ordnerstruktur enthielt.
Im Endeffekt habe ich die Platte neu formatiert, die Datensicherung neu eingespielt und heute meinen "Server" auf die gleiche Art und Weise (diesmal absichtlich) zerstören können: große Datenmenge kopiert und gleichzeitig mehrere Dateien auf dem "Server" geöffnet, gespeichert, geschlossen, ... - es dauerte 5 Minuten bis zum ersten PopUp....

Jetzt meine Frage: Was ist das? Ich habe keine Ahnung, an welcher Ecke ich anfangen soll. Das Mainboard im Ersatz-Server ist ein FoxConn P35A. Ist etwa der Controller (S-ATA) des Boards überfordert? Oder die NIC? Und warum wird nach und nach die ganze Partition zerhackstückt?
Ich kann im Prinzip nur Viren als Ursache ausschließen.

Und vor allem: Kann mir das mit dem neuen Server eventuell dann auch passieren (falls die Fehlerquelle nicht im Ersatz-Rechner liegen sollte)?

Für Hilfe/Vermutungen und/oder Vorschläge zum Vorgehen bin ich euch schon jetzt sehr dankbar!!

Karsten

Content-Key: 77286

Url: https://administrator.de/contentid/77286

Printed on: April 19, 2024 at 08:04 o'clock

Member: Supaman
Supaman Jan 05, 2008 at 14:19:31 (UTC)
Goto Top
ich würde zu allererst mal einen belastungstest machen, sprich den rechner mit irgendeinem stress test tool so richtig "durchglühen". da würde sich prime95 anbieten -> system torture test. wenn das 1 std ohne fehlermeldung läuft wäre das ein zeichen, das dein reichner nicht an überlastung oder aufgrund tempearturprobleme zusammenbricht.

auch mit den onboard netzwerkkarten gibts ab und zu probleme. kleine datein kein problem, beim kopieren großer datenmengen übers netz myteriöse fehlermeldungen. andere netzwerkkarte einbauen ist ja schnell gemacht.

wenns dann immer noch nicht läuft bleibt nur noch über: betriebsysteminstallation, mainboard oder mainboard treiber.
Member: Rafiki
Rafiki Jan 05, 2008 at 14:35:06 (UTC)
Goto Top
Wenn CheckDisk - chkdsk Fehler findet dann wurden entweder Dateien auf die Festplatte geschrieben ohne das das Inhaltsverzeichnis entsprechend aktualisiert wurde oder die Festplatte ist beschädigt.

Ich habe mal ähnliches bei einem sehr guten (und teuren) Dell Server PowerEdge 2650 erlebt. Hier war die Ursache, dass der RAID Controller, ein Prec 4/DC (Hersteller LSI), gelegentlich es nicht geschafft hat alle Daten die er angenommen hat auf die Festplatten zu schreiben. Dell sprach später von "Timing Problemen" und hat den Kunden empfohlen ein Firmware und Treiber Update durchzuführen.

An einem anderen Server wurde das Problem durch ein schlechtes Kabel zwischen dem Controller und der Festplatte verursacht.

Gibt es im Eventlog Einträge die sinngemäß sagen das Daten nicht geschrieben werden konnten? Dann würde ich sofort Controller, Festplatten und die Kabel austauschen.

Mit geringer Wahrscheinlichkeit würde ich noch das Netzteil prüfen ob es evtl. überlastet ist und die Spannung nicht stabil halten kann. Um das zu prüfen würde ich z.B. 3 weitere Festplatten an dem gleichen Strang der Stromversorgung mit anschließen und dann erneut einen Belastungstest durchführen. Lausche dann an den Festplatten ob eine ausgeht und wieder anläuft. Du kannst z.B. ein AntiVirus Scan aktiv starten und zeitgleich Daten von einer Festplatte auf eine andere kopieren. Wenn der Fehler auftritt ohne das über das Netzwerk gearbeitet wird kannst du dieses mit Sicherheit ausschließen.

Gruß Rafiki
Mitglied: 59561
59561 Jan 05, 2008 at 18:07:44 (UTC)
Goto Top
Gut, und vielen Dank erstmal!

Inzwischen teste ich mal den Rechner mit dem enpfohlenen Stress-Tool. Und der Einbau einer NIC ist auch eine gute Idee - DANKE! - die Möglichkeiten mit relativ geringem Aufwand übersieht man doch schnell einmal...

Wenn alles nichts hilft - ich hab' mir auf meinem eigenen PC eine HD mit W2k installiert. Da hinein kommt noch die Datenplatte, und dann sehe ich ja, wie sich diese Konfiguration im Netzwerk unter Last so verhält. Wenn dort alles gutgeht, kann ich das Problem wohl auf den bisherigen Ersatz-Rechner eingrenzen und den neuen Server auch ins Netzwerk bringen.

Nochmals Danke, ich berichte mal Anfang nächster Woche, wie es weiterging.


Karsten
Mitglied: 59561
59561 Jan 13, 2008 at 13:00:28 (UTC)
Goto Top
Hallo nnochmal!

Bin meiner Fehlersuche schon etwas weitergekommen. Einen Test mit Prime95 hat die Kiste unbeschadet überstanden.
Dann hab ich's mit einer anderen NIC probiert - der Fehler ließ sich auch damit wieder reproduzieren.
Mittlerweile läuft der richtige Server auch seit Mittwoch im Netzwerk - ohne Beanstandungen. Die Datenübernahmen haben reibungslos geklappt, inzwischen habe ich mir auch mal getraut, bei laufendem Betrieb eine größere Menge Daten in eine ansonsten leere Partition erst auf den Server drauf und auch noch mal runter zu kopieren. Alles ohne Probleme. Also scheint sich das Problem wirklich nur auf die Hardware des "Ersatz-Server" beschränkt zu haben. Diesen habe ich mit der "Fehlerbeschreibung" zurück an unseren EDV-Händler gegeben, er will das jetzt mal versuchen nachzustellen.

Danke nochmal für die Unterstützung!!

Karsten