liquidbase
Goto Top

Permanente Freezes unter Windows 10 1909

Hallo alle miteinander!

Aktuell habe ich hier eine Dell Precision T5600 (leider keine Garantie mehr) der in unregelmäßigen Abständen vollständig einfriert. Vollständig ist hier zu verstehen das weder Windows, eine laufende Anwendung, Tastatur oder Maus auf Eingaben reagiert.

Mittlerweile habe ich soweit auch alle möglichen Fehlerquellen kontrolliert.

- Die Ereignisanzeige ergibt keine wirklich sinnvollen Ergebnisse.
- Zuverlässigkeitsverlauf zeigt nur an das Windows nicht korrekt beendet wurde.
- Eine Festplatte mit fehlerhaften S.M.A.R.T-Werten entfernt
- SSD geprüft und liegt laut CrystalDiskInfo im guten Bereich
- Windows 10 neu aufgesetzt
- Treiber neu installiert

Das Problem hierbei ist auch das keine Anwendung ausgemacht werden konnte, wodurch der Fehler Reproduziert werden kann. Hier tritt er an unterschiedlichen Stellen auf. Es kann dabei eine Dateikopie sein, arbeiten in der RIS-Anwendung, bei Suchen im Netz usw. Erstmalig ist der Fehler auch aufgetaucht als ich die defekte Grafikkarte gegen die aktuelle 1050Ti ausgetauscht habe. Zuerst hatte ich Treiberreste der Quadro-Karte in Verdacht gehabt, aber hier hatte ich darauf geachtet das ich die alten Treiber soweit möglich vollständig deinstalliere (Tool von 3D Guru benutzt und abgesicherter Modus).
Nachdem es auch nicht die fast defekte mechanische Festplatte war, bin ich kurz davor den Rechner vollständig zu demontieren und die einzelnen Komponenten soweit wie möglich zu testen. Bevor ich allerdings damit loslege wollte ich hier noch nach Ideen fragen, nicht das mir etwas durch die Finger rutscht was ich vor dem Komponenten-Test hätte erledigen können.

Verbaut sind in dem Rechner die folgenden Komponenten:
- Intel Xeon E5-2667
- 32GB RAM
- 120GB-SSD von LiteON (siehe angehängten Screenshot)
- Geforce GTX 1050Ti

cdi
CrystalDiskMark der SSD

zvv
Zuverlässigkeitsverlauf aus Windows 10

Ich bedanke mich bereits für das lesen und jeden Input den ich erhalte face-smile
Chris | liquid

Content-ID: 554102

Url: https://administrator.de/contentid/554102

Ausgedruckt am: 26.11.2024 um 06:11 Uhr

143127
Lösung 143127 04.03.2020 aktualisiert um 12:16:12 Uhr
Goto Top
Das naheliegendste was ich als erstes prüfen würde wäre eigentlich der RAM (memtest), davon lese ich in deinen bereits getätigten Maßnahmen leider nichts.
Nach aufgeblähten/geplatzten/ Kondensatoren Ausschau halten, Kabel alle neu stecken und Staub von Steckverbindungen entfernen. Alle evt. Übertaktungen rausnehmen, C-States deaktivieren, Temperaturen kontrollieren usw.
broecker
Lösung broecker 04.03.2020 aktualisiert um 12:15:37 Uhr
Goto Top
von außen könnte man den Rechner laufend anpingen bzw. mittels nmap oder einzelne Dienste überprüfen,
Temperatur und Ventilatoren könnten visuell stetig angezeigt werden, sodaß man vielleicht das im Blick hat - post mortem läßt es sich evt. auch im BIOS sehen? ("CPU auf über 80 Grad Celsius, nun wieder sinkend")
die Spannungen lassen sich auch wiederum mit anzeigen, sodaß man evt. feststellt, daß das Netzteil zu schwach ist.

HG
Mark
liquidbase
liquidbase 04.03.2020 aktualisiert um 12:38:17 Uhr
Goto Top
@143127
Memtest habe ich vergessen zu erwähnen, der lief mit als erstes durch und das Fehlerfrei. Gab auch keinen Freeze währenddessen. Übertaktet ist der Rechner nicht. C-States zu deaktivieren ist eine Idee, daran habe ich noch nicht gedacht und die Temperaturen bei einem Freeze müsste ich dann auch mal kontrollieren. Innenraum des Rechners wurden beim Wechsel der Grafikkarte vollständig gereinigt und hier sind mir auch keine geplatzten Elkos aufgefallen, was aber nicht bedeuten soll das mittlerweile eventuell welche geplatzt sind.

@broecker
Das habe ich bereits in Form von Icinga2. Hier laufen alle Checks soweit durch (CPU, RAM, hostalive, Datenträger, Dienste). Einzig die Temperaturen könnte ich bei einem Freeze noch überprüfen. Das eventuell das Netzteil zu schwach ist kann ich mir nicht vorstellen, da hier nach wie vor noch das originale von Dell eingebaut ist und die dimensionieren es bei einer Precision Workstation mit Quadro immer gut nach oben um eventuelle Lastspitzen aufzufangen. Aber werde ich noch bei einem Freeze überprüfen was die Temperaturen sagen.

@edit
Ein Check der Temperaturen aktuell im Betrieb über HWM gibt für die CPU im Durchschnitt 41° an und für die Grafikkarte 26°. Zusätzlich kommt noch dazu das die Grafikkarte selbst keinen separaten Stromanschluß mehr nutzt wie die Quadro sondern direkt über den PCIe-Anschluß versorgt wird, so dass die Last auf dem Netzteil eh abgesunken ist.
monstermania
Lösung monstermania 04.03.2020 um 13:09:22 Uhr
Goto Top
Das mit dem Deaktivieren der C-States solltest Du unbedingt mal testen.
Bei uns hatten wir nach dem Upgrade auf W10 Build 1809 bei rund 30% aller unserer Optiplex 5060 plötzliche Freezes. Nach dem deaktivieren der C-States laufen fast alle der betroffenen Rechner problemlos.
Wirkliche Abhilfe brachte aber nur ein Austausch des Mainboards gegen eine neue Revision!
Wir stehen bereits seit geraumer Zeit mit Dell in Kontakt, da bei über 600 PC in ganz Deutschland das MB getauscht werden muss und Dell sich bezüglich der Abwicklung der Garantie ähm etwas "zickig" verhält.
Ich bin vom Dell Support jedenfalls restlos bedient!
liquidbase
liquidbase 04.03.2020 um 13:18:13 Uhr
Goto Top
Ein Austausch kann ich bei der Workstation nicht mehr auslösen, da der Rechner seit 2016 aus dem Support gefallen ist und verlängern ging hier nicht mehr weil der maximal Zeitraum bereits erreicht war für einzelne Workstations.
Aber da werde ich hier die C-States direkt deaktivieren und das ganze weiter kontrollieren ob die Freezes weiterhin auftauchen.

Zitat von @monstermania:

Abwicklung der Garantie ähm etwas "zickig" verhält.
Muss ich ehrlich zugeben habe ich andere Erfahrungen gemacht bisher, aber das ist an sich bei jedem anders.
143127
143127 04.03.2020 aktualisiert um 13:35:40 Uhr
Goto Top
Zum Thema C-States hatte ich auch schon diverse Probleme im Zusammenhang mit einigen SSDs. Unter anderem die SanDisk SSDs mögen das heruntertakten überhaupt nicht auch wenn diese vollkommen fehlerfrei sind, und führen häufiger auch zu Bluescreens oder eben kompletten freezes.
liquidbase
liquidbase 04.03.2020 um 13:38:49 Uhr
Goto Top
C-States sind jetzt auch direkt deaktiviert.
Normal habe ich die immer aktiv um den Energiebedarf ein wenig zu reduzieren, da Rechner selten permanent am arbeiten sind und dabei die CPU voll auslasten. Aber schauen wir mal inwieweit das ganze hilft.
Archeon
Archeon 04.03.2020 um 13:49:16 Uhr
Goto Top
Mahlzeit,

hast du das System mal eine Weile von einer Live CD (außer MemTest) laufen lasen und mit der, so gut es geht, versucht zu arbeiten?

Gruß
143127
143127 04.03.2020 um 13:49:25 Uhr
Goto Top
Zitat von @liquidbase:
Normal habe ich die immer aktiv um den Energiebedarf ein wenig zu reduzieren,
Das ist auch gut so, wenn dann sollte man dann lieber die Komponenten ersetzen die nicht damit klarkommen.
liquidbase
liquidbase 04.03.2020 aktualisiert um 13:57:27 Uhr
Goto Top
War auch zuerst eine Idee, da aber die Freezes auftauchen wann sie wollen, kann ich das auch nicht so einfach machen. Der Rechner wird ja aktiv zum arbeiten benötigt und da rennt man mir schon die Bude ein weil der Rechner aktuell nicht richtig läuft. Könnte ich wenn dann über das Wochenende machen, dass ich den von einer LiveCD / LiveUSB starten lassen um zu schauen ob sich da was ändert. Müsste ich dann auch mit einem entsprechenden Linux machen, da der Rechner bereits eine Neuinstallation von Windows 10 nach auftauchen der Freezes hinter sich hat.

Zitat von @143127:

Zitat von @liquidbase:
Normal habe ich die immer aktiv um den Energiebedarf ein wenig zu reduzieren,
Das ist auch gut so, wenn dann sollte man dann lieber die Komponenten ersetzen die nicht damit klarkommen.
Sehe ich nicht anders. Vor allem da Komponenten die mit den C-States nicht klarkommen meist ein Garant dafür sind das sie eher früher als später ausfallen. Da hätte ich an sich auch direkt einen Verdacht welches Gerät das sein könnten. Hier würde mir direkt die SSD einfallen, da ich mit LiteON eher schlechte Erfahrungen gemacht habe. Müsste ich dann mal gegen eine andere tauschen, auch wenn ich die dann erst kaufen müsste.
Archeon
Archeon 04.03.2020 um 13:59:41 Uhr
Goto Top
Zitat von @liquidbase:
da der Rechner bereits eine Neuinstallation von Windows 10 nach auftauchen der Freezes hinter sich hat.
Genau, deshalb ja ein anderes System testen, am Besten dann mal einen Benchmark oder irgendwas im Hintergrund durchlaufen lassen oder irgendwie Last erzeugen.
liquidbase
liquidbase 04.03.2020 um 14:07:39 Uhr
Goto Top
Zitat von @Archeon:

Zitat von @liquidbase:
da der Rechner bereits eine Neuinstallation von Windows 10 nach auftauchen der Freezes hinter sich hat.
Genau, deshalb ja ein anderes System testen, am Besten dann mal einen Benchmark oder irgendwas im Hintergrund durchlaufen lassen oder irgendwie Last erzeugen.
Unter einem Linux ist das ja kein Thema. Den Test kann ich dann heute nach Feierabend starten (vorher geht hier nicht). Dann auf alle Fälle vorher nochmals alle Anschlüsse testen und im danach den Lasttest unter einem anderen System durchschicken.
liquidbase
liquidbase 05.03.2020 aktualisiert um 09:54:35 Uhr
Goto Top
So dann hier mal ein Ergebnis der gestrigen Arbeit und was genau gemacht wurde.

Alle Komponenten ausgebaut und gereinigt => Check
Elkos auf Schäden geprüft (geplatzt usw.) => nichts vorhanden
Netzteil auf Schäden geprüft => nichts vorhanden
Steckerverbindung gesäubert und geprüft => keine Probleme, einen Y-Stecker für SATA-Power entfernt
Wärmeleitpaste auf CPU => erneuert

Stresstests unter Windows (CinebenchR15, 3DMark, IOmeter, H2bench) => keine Probleme festgestellt
Stresstests unter Linux (IOmeter, cpuburn, Berechnung von Pi bis auf 5000 Stellen nach dem Komma, Phoronix) => keine Probleme festgestellt

Nach den Ergebnissen und etwa 5.5h Arbeit habe ich nochmals Windows vollkommen frisch auf die Maschine gezogen mit den entsprechenden Branchenanwendungen die benötigt werden. Nach der Neuinstallation mit einem frisch heruntergeladenen Image lief der Rechner auch erstmal soweit durch. Monitoring hat keine Meldung eines Fehlers ausgegeben als nach Hause gegangen. Heute morgen wieder auf Arbeit angekommen und das erste was ich höre ist das der Rechner wieder eingefroren ist, diesmal beim öffnen des Startmenüs ....

Ehrlich gesagt habe ich jetzt keine Ahnung mehr was ich noch machen soll, abgesehen davon das ich die Hardware tausche. Leistung des Netzteil kann ich übrigens ausschließen, da Dell hier ein 825W-Netzteil verbaut hat. C-States sind nach wie vor deaktiviert.
143127
143127 05.03.2020 aktualisiert um 10:42:42 Uhr
Goto Top
Netzteil auf Schäden geprüft => nichts vorhanden
Wie und was wurde dafür unternommen? Spannungsschwankungen unter verschiedenen Lastzuständen aufgezeichnet?

Würde ich testweise ein neues / anderes einbauen.
liquidbase
liquidbase 05.03.2020 um 10:51:49 Uhr
Goto Top
Sehr wahrscheinlich falsch ausgedrückt.
An dem Netzteil waren weder defekte Spulen noch geplatzte Elkos zu finden. Leistung wurde im Durchschnitt etwa 260 Watt gezogen, was aber das ganze System betrifft (gemessen mit Leistungsmessgerät an der Steckdose, war zu dem Zeitpunkt nichts anderes da).
Ein anderes Netzteil werde ich nur schwer nutzen können, da Dell zwar zum größt teil die genormten Anschlüsse benutzt aber der Versorgung des Boards einen proprietären Anschluss hat, jedenfalls hatte ich da gestern keine Möglichkeit gehabt ein alternatives was ich noch da hatte anzuschließen.

Aktuell versieht der Rechner auch wieder ganz normal seinen Dienst, nachdem er heute morgen einfach gefreezt ist. So als wäre nichts gewesen.
143127
Lösung 143127 05.03.2020 aktualisiert um 11:06:40 Uhr
Goto Top
Zitat von @liquidbase:

Sehr wahrscheinlich falsch ausgedrückt.
An dem Netzteil waren weder defekte Spulen noch geplatzte Elkos zu finden.
Das hat erst mal nichts zu bedeuten. Der Fehler kann auch unsichtbarer Natur sein. Es reicht ein problembehafteter Spannungsregler der erst mal seine Betriebstemperatur erreichen muss damit er zuverlässiger läuft. Oder ausgetrocknete Elkos die nicht eben geplatzt sind. Da hilft dann nur Nachmessen weiter.
Probleme sind dann meistens morgens nach dem Start zu erwarten. (Cold Boot)

Ausschlussverfahren strikt anwenden, dann findest du den Übeltäter auch schneller.

benutzt aber der Versorgung des Boards einen proprietären Anschluss hat
Auch ein Grund warum ich nicht zu Stangenware der Großen greife. Proprietärer Scheixxdreck der nur dem Hersteller Kohle einbringen soll.
Wenn dann nur über Support-Vertrag das man an den Mühlen nicht selbst rum schrauben muss.
liquidbase
liquidbase 05.03.2020 um 11:37:33 Uhr
Goto Top
Zitat von @143127:

Probleme sind dann meistens morgens nach dem Start zu erwarten. (Cold Boot)
Entfällt hier, da die Rechner 24/7 durchlaufen und maximal zu Sicherheits- / Treiberupdates neu gestartet werden. Oder wenn sie einfrieren, was allerdings nur dieser eine Rechner ist. Alle anderen funktionieren ja einwandfrei.

Zitat von @143127:

Auch ein Grund warum ich nicht zu Stangenware der Großen greife. Proprietärer Scheixxdreck der nur dem Hersteller Kohle einbringen soll.
Wenn dann nur über Support-Vertrag das man an den Mühlen nicht selbst rum schrauben muss.
Läßt sich aber nicht verhindern wenn man einen entsprechenden Support benötigt der dann auch schnell reagiert. Davon abgesehen hat das Dell mittlerweile auch geändert und man hat auf den Boards die Standardanschlüsse wie man sie aus der Norm kennt.
Nachteil in Sachen Support ist hier aber auch das der Rechner seit einem Jahr rausgefallen ist und nicht mehr verlängert werden kann aber die Meinung vorherrscht "Was noch funktioniert wird nicht ausgetauscht, auch wenn kein Support mehr drauf ist.". An sich nicht verkehrt aber das mündet dann halt in sowas wie jetzt.
Kartoffelpelle
Kartoffelpelle 05.03.2020 um 19:45:48 Uhr
Goto Top
Wenn ich es richtig überflogen habe, ist das Problem erst nach dem Tausch der Grafikkarte aufgetreten. Mal die Grafikkarte raus nehmen (wenn Onboard Grafikkarte vorhanden ist) oder diese ersetzen. Warum wurde die Karte getauscht? Eventuell BIOS-Einstellungen dies bezüglich prüfen.
liquidbase
liquidbase 06.03.2020 um 17:42:43 Uhr
Goto Top
Die Grafikkarte wurde getauscht weil die alte Quadro plötzlich nach einem Absturz weiße Streifen gezeigt hat. Die weißen Streifen waren hierbei nicht nur auf Windows bezogen sondern auf alles wo eine Bildausgabe beteiligt ist, sprich auch wenn man in das BIOS wollte oder einfach nur den Rechner gestartet hat. Aber selbst nach dem Tausch der Grafikkarte sind die Freezes erst 2 Tage später das erste Mal aufgetreten. Der Tausch war laut Rechnung Grafikkarte am 17.01 gewesen.

Dabei muss ich aber zugeben das ich den genauen Grund nicht kenne was den Absturz ausgelöst hat. Ich habe erst etwas davon erfahren als der Anruf mit dem Inhalt "Wir haben weiße Streifen auf dem Bild die hin und her springen. Ist das normal?" kam.
Kartoffelpelle
Kartoffelpelle 09.03.2020 um 11:46:33 Uhr
Goto Top
Hallo liquidbase,

wie schaut es mit einem BIOS-Update aus? Altes BIOS und neue Grafikkarte, dass könnte ggf. ein Problem sein. Ich nehme an, die Grafikkarte ist in dem blauen PCIe Port verbaut, wenn nicht, ggf. mal tauschen. Wenn das alles nicht hilft, hilft vielleicht noch eine komplette Neuinstallation?

VG
liquidbase
liquidbase 10.03.2020 aktualisiert um 11:12:54 Uhr
Goto Top
Der Rechner besitzt bereits das aktuellste BIOS was Dell rausgebracht hat, da die Updates hier regelmäßig eingespielt werden. Neuinstallation von Windows wurde bereits zweimal durchgeführt, aber auch hier keine Verbesserung.

Mittlerweile habe ich auch das Netzteil von einem befreundeten Elektrotechniker durchchecken lassen und auch hier keine Fehler, dass Netzteil arbeitet wie es soll ohne das es einen Schaden hat. Der RAM hat jetzt auch mehrere Testläufe durch (komplett, jeder Riegel einzelnen in allen verfügbaren Slots) und dieser funktioniert ebenfalls einwandfrei. Auch habe ich den Sockel für die CPU und RAM gewechselt (Board ist Dual-Socket) und da ist das gleiche Problem.

Momentan schiebe ich es auf ein Problem mit dem Mainboard, weil es die einzige Komponente ist die ich nicht einfach austauschen kann. Wo allerdings der Fehler auf dem Board ist, läßt sich so nicht sagen. An den Elkos ist wie bereits nichts zu sehen, eine gebrochene Lötstelle auch nicht und ansonsten sieht eigentlich alles in Ordnung aus.

Und da ich den Rechner jetzt gut eine Woche auf Herz und Nieren geprüft habe und keinen offensichtlichen oder versteckten Fehler finden kann werde ich die Hardware entsprechend abschreiben und gegen eine neue austauschen. Wurmt mich jedenfalls das ich den Fehler nicht finden kann, vor allem weil bis auf wenige Momente das ganze mehr oder weniger noch funktioniert (bis auf die Freezes)... :-S
Kartoffelpelle
Kartoffelpelle 12.03.2020 um 10:11:51 Uhr
Goto Top
Hallo liquidbase,

dann bin ich mit meinem Latein auch am Ende. Denke, so langsam sind wirklich alle anderen möglichen Fehlerverursacher ausgeschlossen. Irgendwann muss auch mal schluss sein, mit der Fehlersuche. Wirtschaftlich denken!

VG
liquidbase
liquidbase 12.03.2020 um 16:03:33 Uhr
Goto Top
Eben.
Deswegen habe ich CPU und RAM, sowie die Platten ausgebaut und werde die als Ersatzteile verwerten. Ähnliches werde ich wohl mit dem Gehäuse machen.
Alles andere macht keinen Sinn mehr und würde mehr Kosten als gut ist.