blaub33r3
Goto Top

Server auf RAM Fehler hin spezifizieren

Guten Tag und herzlich Willkommen!
Ich habe folgenden Fehler auf einem Server entdeckt:
Behobener Hardwarefehler

Komponente: Arbeitsspeicher
Fehlerquelle: Generisch
Fehlertyp: Einzelbit-ECC

<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
- <System>
<Provider Name="Microsoft-Windows-WHEA-Logger" Guid="{C26C4F3C-3F66-4E99-8F8A-39405CFED220}" />
<EventID>23</EventID>
<Version>0</Version>
<Level>3</Level>
<Task>0</Task>
<Opcode>0</Opcode>
<Keywords>0x8000000000000000</Keywords>
<TimeCreated SystemTime="2022-04-28T13:28:50.365936500Z" />
<EventRecordID>2392910</EventRecordID>
<Correlation ActivityID="{5C2A9B0A-E407-4147-A918-AC24D068A8E2}" />
<Execution ProcessID="2064" ThreadID="14620" />
<Channel>System</Channel>
<Computer>zw-host01.zadw.local</Computer>
<Security UserID="S-1-5-19" />
</System>
- <EventData>
<Data Name="ErrorSource">8</Data>
<Data Name="FRUId">{00000000-0000-0000-0000-000000000000}</Data>
<Data Name="FRUText">CorrectedErr</Data>
<Data Name="ValidBits">0x4088</Data>
<Data Name="ErrorStatus">0x0</Data>
<Data Name="PhysicalAddress">0x0</Data>
<Data Name="PhysicalAddressMask">0x0</Data>
<Data Name="Node">0x0</Data>
<Data Name="Card">0x0</Data>
<Data Name="Module">0x0</Data>
<Data Name="Bank">0x0</Data>
<Data Name="Device">0x1</Data>
<Data Name="Row">0x0</Data>
<Data Name="Column">0x0</Data>
<Data Name="BitPosition">0x0</Data>
<Data Name="RequesterId">0x0</Data>
<Data Name="ResponderId">0x0</Data>
<Data Name="TargetId">0x0</Data>
<Data Name="ErrorType">2</Data>
<Data Name="Length">273</Data>
<Data Name="RawData">435045521002FFFFFFFF0100020000000200000011010000311C0D001C0416140000000000000000000000000000000000000000000000000000000000000000BDC407CF89B7184EB3C41F732CB5713167A4623E40AB9A40A698F362D464B38F30CAF768B756D801000000004552000000000000000000000000000000000000C80000004900000001020200010000001411BCA5646FDE4EB8633E83ED7C83B10000000000000000000000000000000002000000436F72726563746564457272000000000000000088400000000000000000000000000000000000000000000000000000000000000000000000000000010000000000000000000000000000000000000000000000000000000000000002</Data>
</EventData>
</Event>

Der Fehler tritt rythmisch alle paar Minuten auf, daher möchte ich einen abnippelnden Ram ausschließen oder bestätigen, und eine Reparatur ggfs. veranlassen.

Gibt es RAM Prüfungsprogramme die im laufenden Betrieb hierfür genutzt werden können?
Gibt es Vorteile dieses Windowsintegrierte Prüfungstools, welches scheinbar - laut Recherche - auch RAM Probleme entdecken kann?
Hat wer vielleicht ne andere Idee? Ich kenne nur klassische HW-Tests wo das System komplett down ist und dann eben ein HW-Test angebootet wird, aber das wäre viel zu aufwendig in meinem Fall.

Welche der Möglichkeiten würdet ihr am ehesten ausloten face-smile

Viele Grüße, B33r3

Content-ID: 2730250018

Url: https://administrator.de/contentid/2730250018

Ausgedruckt am: 22.11.2024 um 13:11 Uhr

StefanKittel
StefanKittel 09.05.2022 um 13:49:25 Uhr
Goto Top
Hallo,

schau mal im IPMI des Servers.
(Das heist je nach Hersteller mal so und mal so)

Dort sollte es ein Protokoll mit Störungen geben.
Mit Glück steht hier sogar welches RAM Modul defekt ist oder zumindest eine Adresse um das mit dem Support ausrechnen zu können.

Stefan
rheinstahl
rheinstahl 09.05.2022 um 19:24:07 Uhr
Goto Top
Moin,
IDRAC,iRMC usw. sind Dein Freund wenn es richtige Server sind. Habt ihr kein Monitoring zur Alarmierung?

Gruss Rheinstahl
blaub33r3
blaub33r3 10.05.2022 um 14:36:09 Uhr
Goto Top
Es handelt sich um einen LenovoServer auf den wir aktuell wegen SSL Problematiken nicht drauf kommen =(

Gute Ergebnisse, aufgrund der Basis-Lizenzierung, wurden hier bzgl. der RAM - Prüfungsergebnisse auch nicht in Aussicht gestellt. So dass ich an klassischen RAM-Tests im laufenden Betrieb gedacht habe, um PerformanceProbleme z.B. aufzudecken, die den Schluß zum RAM-Tausch aufkommen lassen würden - im Falle des Falles.

Monitoring haben natürlich, aber auf klassischer Windowsebene im Endeffekt - HardwareRAMSpeicher Prüfungen bei dem LenovoServer sind nicht präsent. Bzw. müsste ich diesen SSL-Zertifizierungsfehler lösen, jedoch bisher ohne Erfolg.

Drum dachte ich an klassischer RAM - HW Analyse, so wie ich es mal beim PC Spezialist gelernt hatte.

Grüßle
NordicMike
NordicMike 10.05.2022 um 18:36:20 Uhr
Goto Top
SSL Zertifikat beim Zugriff auf IPMI per Browser einfach ignorieren.
blaub33r3
blaub33r3 11.05.2022 um 09:09:10 Uhr
Goto Top
Haha :D

Danke und entschuldige, habe mich zu unpräzise ausgedrückt bzw vergessen zu erwähnen, dass - wenn man es ignoriert die Seite weiterhin einen Standardwebseiten anzeigt, dass die Seite einfach nicht geöffnet werden kann.
NordicMike
NordicMike 11.05.2022 um 09:13:21 Uhr
Goto Top
Probiere es mal mit http statt mit https. Irgendwas muss noch antworten.
StefanKittel
StefanKittel 11.05.2022 um 09:21:03 Uhr
Goto Top
Zu Deiner Frage.
Ohne IPMI oder Neustart wirst Du ja nicht wirklich was werden.

Es gibt 1-2 Mem-Test-Programm die unter Windows laufen.
Aber deren RAM-Zugriffe laufen immer durch Windows und die MMU.
ECC-Fehler werden also an mehreren Stellen schon ausgebügelt.

Stefan
blaub33r3
blaub33r3 11.05.2022 aktualisiert um 16:19:52 Uhr
Goto Top
Probiere es mit dem Chrome/IE über die IP mit HTTP und HTTPS

192.168.1.10 verwendet ein nicht unterstütztes Protokoll
ERR_SSL_VERSION_OR_CIPHER_MISMATCH

Nicht unterstütztes Protokoll
Client und Server unterstützen keine gemeinsame SSL-Protokollversion oder Verschlüsselungssammlung.

--- Ich kann diesen Fehler nicht überspringen....Hat jemand einen Tipp, wie man damit professionell umgeht :D ?

=> Ich komme auf den Server mit dem Netscape....aber beim Login scheiert es am JavaScript leider :D...
...aber ich schätze es geht vorwärts!^^

Beim Testen mittels MemTest auf einem laufenden Hosts sollte beachtet werden, dass fehlerhafte ausgelesene Speicherzellen zum Absturz des Gesamtsystems führen können, wie man mir erklärt hat.

VG B33r3
StefanKittel
StefanKittel 11.05.2022 um 18:01:48 Uhr
Goto Top
Hallo,

schau mal hier.
https://packetlife.net/blog/2016/oct/12/legacy-tls-cipher-support-firefo ...

Ist zwar schon von 2016, aber vieleicht gibt es diese Einstellunge noch.

Stefan
blaub33r3
Lösung blaub33r3 12.05.2022 um 13:09:07 Uhr
Goto Top
Eine ältere Firefox Variante konnte den Fehler umgehen, danke schön! face-smile

Der Lenovo gab keine Auskunft über den Zustand des RAMs, werde es also am WE separat mittels MEMTest durchtesten - danke schön face-smile