hansdampf06
Goto Top

RAM-Riegel besteht beim Booten den CPU-Memory-Test nicht

Hallochen, Gemeinde!

Vier bisherige 8GB-DDR3-Riegel sollen gegen vier 16GB-DDR3-Riegel ausgetauscht werden. Beim Booten mit den neuen Riegeln kommt folgende Fehlermeldung:

The following DIMM module(s) did not pass CPU memory test.
Please remove the module(s) then plug agein.
DIMM_C1 Disabled

Dieser Riegel wird im BIOS bei den Systeminformationen ordnungsgemäß angezeigt und hat dieselben Betriebsparameter wie die anderen drei Riegel. Im BIOS (American Megatrends; Board: ASUS KCMA-D8) gibt es keine Einstellmöglichkeiten für RAS, CAS etc.

Selbst mit Powershell lassen sich alle vier Riegel ordnungsgemäß auslesen. Hier einmal die tabellarische Anzeige, wobei die Bank 4 der problematische Riegel ist:

Manufacturer Banklabel Configuredclockspeed Devicelocator Capacity PartNumber Serialnumber

Samsung BANK0 DIMM_A1 17179869184 M393B2G70DB0-YK0 371D5347
Samsung BANK1 DIMM_A2 17179869184 M393B2G70DB0-YK0 371D52BD
Samsung BANK3 DIMM_B2 17179869184 M393B2G70DB0-YK0 371D4686
Samsung BANK4 DIMM_C1 17179869184 M393B2G70DB0-YK0 371D52B9

Als Lösungsansatz ist natürlich der Wechsel des Riegels in einen anderen Steckplatz / Bank probiert worden. Es spielt aber keine Rolle - immer dasselbe Ergebnis. Die Error-LEDs für den RAM auf dem Motherboard sind aus. Die Spannungseinstellungen für die BANKs (1,35V) sind korrekt. Weil alle vier Riegel ordnungsgemäß erkannt werden, schließe ich eine generelle Inkompatibilität zwischen Riegel und Motherboard aus. Die Modellreihe ist auch grundsätzlich in der Kompatibilitätsliste des Boards aufgeführt. Zudem laufen bereits zwei 16GB-Riegel dieser Baureihe seit zwei Jahren beanstandungslos (vorstehend nicht mit aufgelistet).

Erwähnenswert ist vielleicht noch, dass die Riegel beim Händler mit "QH0-YK0" am Ende angepriesen wurden, aber "DBO-YK0" sowohl auf dem Aufkleber als auch vorstehend ausweisen. Der Blick in die Datenblätter von Samsung für beide Varianten lässt keine technischen Unterschiede erkennen bis auf die Angabe bei "RCD Vendor and Revision". Das erscheint mir aber kein Hinweis auf eine generelle Problematik zu sein. Zudem habe ich beim optischen Vergleich keine Unterschiede ausmachen können.

Besondere (physische) RAM-Tests wurden noch nicht ausgeführt.

Wie ist dieses Problem, dass der CPU-Memory-Test nicht erfolgreich durchläuft, einzuschätzen? Ist der Riegel defekt? Natürliche Streuung der Bauelemente?

Im Voraus vielen Dank für Eure Antworten und einen schönen Sonntagnachmittag
HansDampf06

Content-Key: 666083

Url: https://administrator.de/contentid/666083

Printed on: April 19, 2024 at 12:04 o'clock

Member: Abramelin
Abramelin Apr 25, 2021 at 13:31:13 (UTC)
Goto Top
Hi,
Ist immer der Dimm-Slot c1 das Problem egal wie die Module gesteckt sind?
Falls das nur ein bestimmtes Modul ärger macht , dann austauschen .
Falls wiederum der Slot c1 Probleme macht , dann mal schauen ob die kontakte sauber (Staub) oder verborgen sind!
Ansonsten kannst du ja noch mal Testweise eines deiner alten 8gb Module einstecken und schauen ob dieses funktioniert ohne Fehlermeldung.
Dann müsste ja der Fehler eindeutig einzugrenzen sein !
Gruß
Abramelin
Member: Xerebus
Xerebus Apr 25, 2021 updated at 13:54:45 (UTC)
Goto Top
In der Kompatibilitätsliste steht nur ein 16GB Samsung modul...
Samsung M393B2K70BM1-CF8 16GB DDR3-1066 4 ECC REG CL7

https://dlcdnets.asus.com/pub/ASUS/mb/SocketC(1027)/KCMA-D8/Manual&Q ...
Member: em-pie
em-pie Apr 25, 2021 updated at 14:28:01 (UTC)
Goto Top
Moin,

fährst du das Setup mit einer oder zwei CPUs?
hast du die Bestückung gemäß ASUS beachtet:
CPU1 Configuration
2 DIMMs: A2, B2
4 DIMMs: A2, A1, B2, B1

CPU2 Configuration
2 DIMMs: C2, D2
4 DIMMs: C2, C1, D2, D1
Quelle: Handbuch Seite 2-19 https://dlcdnets.asus.com/pub/ASUS/mb/SocketC(1027)/KCMA-D8/Manual&Q ...

Du hast nämlich oben scheinbar "wild gemischt". C1/ C2 dürfte für dich u.U. tabu sein.

Ansonsten noch die Anmerkung von @Xerebus berücksichtigen, wobei seine Liste einen Stand 2015 hat - gut möglich, dass die nicht aktuell genug ist


Edit: ggf. auch einmal die BIOS-Version prüfen - gerade im Hinblick auf die RAM-Kompatibilität:
https://www.asus.com/de/supportonly/KCMA-D8/HelpDesk_BIOS/

Gruß
em-pie
Member: HansDampf06
HansDampf06 Apr 25, 2021 updated at 16:49:49 (UTC)
Goto Top
Es ist immer nur dieser eine Riegel, egal in welche Bank (A1/2, B1/2, C1/2, D1/2). Zugleich ist hier natürlich vor dem Verfassen meiner Frage bereits getestet worden:

- 8GB-Riegel funktionieren weiterhin, wenn sie erneut eingesteckt werden
- die Pins des problematischen Riegels sind in Ordnung - sogar mit der Lupe ganz genau untersucht, um "mechanische" Fehler auszuschließen. Es sind gleichmäßige Kontaktspuren auf allen Pins zu sehen. Andernfalls wäre es wohl auch nicht möglich, dass der Riegel in Powershell vollständig erkannt wird.
- der optische Vergleich des problematischen Riegels mit den anderen drei identischen, aber funktionierenden Riegeln. Selbst die Aufkleber auf den Riegeln mit der Produktbezeichnung sind haargenau an derselben Stelle.

Das Motherboard ist schon immer mit zwei CPU's bestückt.

Selbstverständlich wird hier berücksichtigt, dass die Bänke immer im Duo bestückt werden sollen/müssen. Die obige Liste ist in Powershell nur entstanden, als der Riegel bei einem der Banktests solo in C1 (ohne D1) eingesteckt wurde, um zu sehen ob er vielleicht nur kein Tandem mag. Zuvor waren alle Steckvarianten der vier Riegel auf den Bänken A/B durchgespielt worden; immerhin sollen die Bänke in einem Channel (A oder B) bzw. in einer Node (A und B) mit denselben Riegeln bestückt werden. Der geplante Bestimmungsort würde in der obigen Powershell-Tabelle eigentlich Bank 2 / B1 sein. Nur dann geht auch die Post mit 1600 (aka 800 MHz) anstatt mit 1067 (aka 533 MHz) ab - BIOS schaltet nämlich automatisch hoch, wenn es passt. Sind nur drei Riegel verbaut, geht das BIOS automatisch auf 1067.

Das BIOS hat natürlich die aktuellste Firmware. Daher können auch Riegel mit 1600 eingebaut werden; ursprünglich nur 1066 oder 1333. Im BIOS kann für die Riegel manuell ein Takt von 400, 533, 667, 800 MHz (aka 800, 1066, 1333, 1600) vorgegeben werden. Ich lasse es bei "Auto", weil das BIOS im Zweifelsfall ohnehin von selbst herabsetzt. Es wird nichts übertaktet; alles läuft in der "normalen" Spezifikation.

Bei Samsung enden die Riegel mit 1600@CL=11 auf "K0". "F8" steht für 1066@CL=7. Das "C" davor steht für 1,5V und das "Y" für 1,35V. "B2K70" steht in der Produktbezeichnung für 4 Ranks und "B2G70" für 2 Ranks. Die Anzahl der Ranks ist aber letztlich keine Kompatibilitätsfrage, weil das Motherboard sowohl mit 2 als auch mit 4 Ranks umgehen kann, wie die Kompatibilitätsliste zeigt. Ich meine mich dunkel erinnern zu können, dass ich damals bei der Suche nach verfügbaren passenden 16GB-Riegeln zu der sicheren Erkenntnis gelangt war, dass der in der Kompatibilitätsliste angegebene Riegel M393B2K70BM1-CF8 mit dem M393B2G70QH0-YK0 austauschbar ist, weil es im Kern dasselbe Modul ist. Entscheidend ist dabei, dass die Typbezeichnung für den verbauten Memory durchgehend mit K4B4G0446 beginnt. Der Modulfinder von Samsung wirft aktuell für 16GB-DDR3-Riegel nur M393B2G70EB0-CK0 und M393B2G70EB0-YK0 aus. Riegel mit höherer Frequenz können laut Samsung mit niedrigerer Frequenz betrieben werden, weshalb ein 1600er Riegel anstelle eines 1067er Riegels verwendbar ist. Der prompte und bisherige problemfreie Betrieb der vor zwei Jahren eingebauten Module (stecken in D1 und D2) scheint das alles zu bestätigen.

Leider ist die Kompatibilitätsliste in der Tat schon sehr betagt. Der dort benannte M393B2K70BM1-CF8 hatte laut Datenblatt seine letzte Revision 2009, weshalb einiges dafür spricht, dass die Liste insoweit einen älteren Stand hat, als das Datum aus 2015 suggeriert. Deswegen schrieb ich ja auch eingangs, dass die Modellreihe "grundsätzlich" in der Liste aufgeführt ist.

Wenn also diese ganzen Fehlerquellen ausschließbar sind, was kann dann der Grund für den problematischen Riegel sein? Im BIOS habe ich ja so gut wie keine näheren Einflussmöglichkeiten.

Viele Grüße
HansDampf06
Member: em-pie
em-pie Apr 25, 2021 at 18:34:54 (UTC)
Goto Top
Mal "von vorn"

Du hast zwei CPUs verbaut? Welche?
Im WWW findet man mit dem Fehler nicht selten den Hinweis, dass an einer der CPUs etwas defekt sein könnte.

Ferner empfiehlt sich beim Einsatz von zwei CPUs sowie nur vier Riegeln folgende Belegung:
A2,B2 + C2,D2

Hast du diese Konstellation schon getestet?
Member: HansDampf06
HansDampf06 Apr 25, 2021 at 20:20:00 (UTC)
Goto Top
2 x Opteron 4386

Die Kiste rennt anstandslos - Bluescreens kenne ich weder aus der Vergangenheit noch gibt es jetzt irgendetwas an Auffälligkeiten. Es gibt keine erkennbaren Anzeichen, dass eine der CPU's defekt sein könnte. Zudem befinden sich Bank B1 und Bank C1 in unterschiedlichen Nodes, so dass wenn dann beide CPU's defekt sein müssten. Und bei einem Defekt einer CPU müsste sich das doch auch bei den anderen 16GB-Riegeln der zugehörigen Node bemerkbar machen und nicht nur bei dem einen problematischen Riegel?

Die möglichst gleichmäßige Verteilung auf die Kombi A2/B2 (Node/CPU 1) und C2/D2 (Node/CPU 2) ist selbsredend. Historisch war das Motherboard zunächst mit den vier 8GB-Riegeln (Aufteilung 2 / 2) ausgestattet. Dann kamen vor zwei Jahren zwei 16GB-Riegel dazu, wobei diese in dem einen Node und die vier 8GB-Riegel in dem anderen Node disloziert waren, um die Konformität innerhalb eines Nodes zu wahren. Von daher wurde die Best Practice jederzeit berücksichtigt. Probleme mit den Speicherriegeln hat es bisher nie gegeben - einklippen und loslegen. Auch jetzt ist der Betrieb störungsfrei. Selbst bei im Teststatus 2 (3) / 3 zuckt nichts.

Die Kühlung ist ebenfalls sehr gut. Die CPU-Kühlerkörper haben je zwei Lüfter. Neben den Gehäuselüftern vorn/hinten gibt es einen Radiallüfter, der von außen über die gesamte Breite des Motherboards in Boardhöhe einen Luftstrom drückt; hierdurch gibt es quasi keinerlei Hitzenester. Die Speicherriegel werden dadurch in Längsrichtung überstrichen. Reguläre Betriebstemperatur der Riegel liegt zwischen 33°C und 37°C (CPU's zwischen 21°C und 26°C).

Der jetzige Austausch der 8GB-Riegel soll nochmals der Erhöhung von 64GB auf 96GB dienen; maximal ist eine Vollausstattung mit 128GB möglich (mit RDIMM). Eine gleichmäßige Verteilung der sechs 16GB-Riegel (3 / 3) ist wegen der Nodebestückungsregel 2 oder 4 natürlich nicht möglich. Aber das Motherboard unterstützt alle Techniken, dass beide CPU's auf den gesamten Speicher zugreifen können.

Viele Grüße
HansDampf06
Member: Abramelin
Abramelin Apr 25, 2021 at 21:55:20 (UTC)
Goto Top
Hi,
Ich würde das scheinbar defekte Modul austauschen !
Hatte bei meinem Server auch das Problem das ein Modul immer sich disabled hat!
Habe dann ein neues Modul eingesteckt und dann gabs keine Fehler mehr!
Gruß
Alex
Member: HansDampf06
HansDampf06 Apr 26, 2021 at 05:56:15 (UTC)
Goto Top
Ja, an dem Punkt bin ich auch. Denn wie die bisherigen Antworten zeigen, sind/werden hier alle Vorgaben eingehalten und besondere Einflussmöglichkeiten gibt es nicht. Ich wollte aber sicherstellen, dass ich nichts übersehen habe.

Danke allen!

Einen schönen Start in die Woche
HansDampf06
Member: jschneppe
jschneppe Apr 26, 2021 at 10:00:18 (UTC)
Goto Top
Hallo,

wie em-pie schon mal angemerkt hatte, schau dir deine Belegung mal an und teile uns dochmal mit wo die anderen 4 8GB Riegel stecken.

Prinzipiell sollte RAM immer Symetrisch verteilt / ausgetauscht werden, sprich bei einer CPU immer gleich 2 und bei 2 CPUs 4, und am besten auch drauf achten das in zusammengehörige Slots auch gleiche Riegel stecken, z.B. A2 - 16GB und B2 16GB.

Nach deiner Beschreibung hast du 3x 16GB an CPU 1 und einen 16er an CPU 2 und ich würd fast drauf wetten das hier der hund begraben ist.

Beste Grüße
Member: GrueneSosseMitSpeck
GrueneSosseMitSpeck Apr 26, 2021 at 11:46:38 (UTC)
Goto Top
also da ja der Speichercontroller in der CPU ist gibts noch eine andere Erklärungsmöglichkeit...
- CPU defekt (hab ich schon zweimal gehabt)
- Pins im CPU-Sockel verbogen (bei einem Bastlerservermainboard "Pins sind verbogen vieleicht kriegt das ja einer wieder hin")
- CPU auf der Kontaktseite nicht sauber, Wärmeleitpaste oder Fingerabdrücke oder eine Kombination aus beidem
- Board mag keine Quadranked Module in bestimmten Steckplätzen (ältere Chipsätze für AMD Server-CPUs)
- im Bios ist "interleave" eingestellt, es sind aber ungerade Anzahlen von Dimms gesteckt. Interleave heißt 128-bittige Speicherzugriffe über 2 Module.