kami-katze
Goto Top

Server 2003 hängt sich beim kopieren vieler Dateien auf

Hallo Admins,

ich habe folgendes Problem bei einem Server:
Beim kopieren vieler Dateien wir das System instabil bis es sich schlussendlich aufhängt.

Hallo Admins,

ich habe folgendes Problem bei einem Server:

Beim kopieren vieler Dateien wir das System instabil bis es sich schlussendlich aufhängt.

Das System ist wie folgt aufgebaut:

  • Intel Pentium D 3,4 GHz
  • 4 GB DDR 2 Speicher (4x1GB)
  • Promise SuperTrack ex12350 SATA RaidController (12Ports)
  • 2x 80GB Festplatten im Raid 1 fürs System
  • 6x 750GB Festplatten im Raid 6 für Daten
  • Server 2003 R2 SP2 (alle aktuellen Updates)

Wie äußert sich der Fehler:

Wenn ich viele Dateien 200.000 Stk. von oder auf das System kopiere wird es immer langsamer und friert irgendwann ein.
Wenn ich dann über RDP darauf zugreifen oder Remote shudown.exe das System neu starten möchte bekomme ich die Fehlermeldung das das System nicht mehr über genügend Arbeitsspeicher verfügt.
Wenn ich allerdings beim Kopiervorgang über RDP verbunden bleibe lässt sich beobachten das der Speicher bei Fehlereintritt nur mit 600MB belegt ist.
Mehrere Speichertests und Benchmarks waren alle OK.
Das Problem tritt sowohl beim Kopieren von und auf USB Festplatte sowie von und auf ein NAS Storage auf.
Ich habe bereits versucht beim Kopieren den Indexdienst sowie das Antivirenprogramm abzuschalten -> Gleiches Problem.
Aus Verzweifelung habe ich auch schon das System neu installiert.

Die größe der Dateien spielt hier keine Rolle:
- Wenn ich 2000 Dateien mit 80GB kopiere macht er dies ohne murren.
- Wenn ich 200.000 Dateien mit 4GB kopiere kommt es zum Fehler.

Wenn ich die Dateien mit TotalCommander kopiere hängt sich das System zwar nicht auf kann aber ab einem bestimmten Zeitpunkt keine Dateien mehr auf den Zielpfad schreiben...

Ich bin echt am Ende meiner Ideen. Wäre super wenn jemand nen frischen Ansatz in das Thema bringen könnte face-smile

Grüße kami

Content-ID: 180715

Url: https://administrator.de/contentid/180715

Ausgedruckt am: 26.11.2024 um 03:11 Uhr

SamvanRatt
SamvanRatt 18.02.2012 um 13:57:14 Uhr
Goto Top
Hi
das klingt vom Symptom her das dein Win Cache die Daten nicht mehr aus seinem Speicher bekommt und immer mehr volläuft bis schließlich kein IO mehr geht. Der Speicher für Cache ist sehr begrenzt unter X86 (weniger hundert MB je nach Konfig), daher ist Speicher voll nicht auf das Gesamtsystem zutreffend. Solche Fehler kommen auch oft wenn Apps zu viele Objekte anziehen und dann andere nichts mehr lassen.
Hast du schon mal mit Robocopy gearbeitet?
Benchmarks sind schlecht aussagekräftig; Was passiert bei wenigen aber großen Dateien? Ich kenne das Verhalten meist bei Softraidcontrollern unter 32Bit, da diese eben den (knappen) Hostspeicher brauchen. Mit einem (HP) P410 hatte ich das auch mal da eine HD immer mehr aussetzte und er seinen internen Cache immer mehr aufbrauchte bis er fast keine IOPS mehr machte; der Runterfahrprozess dauerte dann Stunden.
Ich würde folgendes machen:
a) robocopy und nebenher IOmeter laufen lassen mit moderaten Anforderungen (die Win Performanceanalyse finde ich nicht besonders hilfreich), gerne auch den (für Fileoperationen ungeeigneten) Explorer oder Totalcmd.
b) kleine viele Dateien (200k) und dann mal große wenige (je 20GB+) im vielen GB Bereich.

Meist waren es die RAID Controller, die Schuld an schlechter Cachepolitik waren (Strikt bedeutet langsam, Lazy bedeutet leider oft schnell und ungenau); wenn du C kennst, kennst auch sicher das Thema Memory Leaks das da oft zum tragen kommt (gerade bei den Hostraid und Co Geräten); Promise habe ich seit vielen Jahren nicht mehr im Einsatz
Meine Erfahrungmit (hardware) RAIDx Controllern ist recht breitbandig, da vieles bei mir ankommt; es gibt sehr performante R6 Kontroller (Areca der ARC18/12&6 Serie, LSIL, Infortrend, ICP), habe aber auch schon welche gehabt, welche bei hohen IOPS mit naheliegenden Bereichen in das typ RAID5/6 write penalty gefallen sind und sich nicht wieder daraus erholt haben. Wenn dein Controller kein NCC ordentlich beherrscht fällt er auch bei sequentiellen Schreiben ordentlich hin.
Thema IOmeter: mein Infortrend G1840 (4GB Cache) macht mit R6 und 16 15k HDs etwa 24k IOPS 50/50 random mit 4k Blöcken. Mein kleiner 3ware 9690SA (=512MB Cache) macht nur 900IOPS bei 4HDs mit den selben HDs (was eher der Physik nahe kommt). Ein Software RAID wie Marvell oder Broadcom 54xy macht mit den selben 4HDs und R5 nur etwa 200IOPS; bei verstreutem random IO bricht er auf bis 10 zusammen;
Oft haben einige Hersteller auch spezielle Firmwares um diese Probleme anzugehen; leider habe ich mit Promise und Support keine gute Erfahrung gehabt.
Gruß
Sam
kami-kaTze
kami-kaTze 18.02.2012 um 15:22:22 Uhr
Goto Top
Ah ok du meinst es hat mit dem Raid Controller zu tun...

Ich werd am Monat mal sehen wie es mit den BIOS und Firmwareständen ausschaut und gegebenenenfalls ein Update durchführen.
Wünscht mir Glück :D
SamvanRatt
SamvanRatt 18.02.2012 um 16:58:44 Uhr
Goto Top
Hi
durchaus möglich; R1/0 kennen die Performance Probleme der anderen RAIDx nicht, sind daher schlecht zu vergleichen. Für so einen Fall rentiert sich entweder gezielter Einsatz (sprich der selbe Kontroller in vielen Situationen) oder ein anderer Kontroller mit anderem Chipsatz (die meisten aktuellen der Einsteigerklasse haben meist ROMB/SOC im Einsatz von Broadcom, Marvell und Co; die besseren zumeist Intel IOP's im Einsatz, oft mit der Defaultsoftware) zum Quervergleich.
Je nachdem wie viel dein Kontroller selbst macht liegt auch im Treiber eine Fehlermöglichkeit. Wie gesagt die Messungen helfen den Fall einzugrenzen:
entweder er verschluckt sich an den kleinen IO's (R5/6 Write penalty) oder im läuft der Cache zu wegen Mem Leaks. Auf beides Reagiert Windows mit immer schlechterer Performance bis zum Einfrieren (auch Linuxe sind davon betroffen, daher wird da auch mehr Wert auf Qualitative Hardware gelegt). Einen Freeze hatte ich aber nie; normal wird es nur immer träger und dann sind Stunden für Reaktionen schnell vergangen. Alternativ kannst du ja mal eine passend große HD als Vergleich ranhängen und mit IO's dicht machen; wenn er durchhält ist dein (OS) System selbst nicht schuld sondern das IO Subsystem,. sprich Kontroller. Wie gesagt kenne ich Promise, Highpoint, Dawi und auch die Konsumer Adaptecs nicht als "Wartbar" an da ein Service nahezu komplett ab Kauf fehlt (Treiber+Firmware stop meist ab RTM Zeitpunkt); Mit IBM auf der anderen Seite ist man da sehr verwöhnt das selbst 8 Jahre alte RAID Controller noch für 2008R2 mit Firmware/Treibern versorgt werden
Viel Glück bei der Jagd.
Gruß
Sam