wesser-h
Goto Top

Fehlerhaften RAM identifizieren?

Hallo,

ein Server von mir stieg vor kurzem mit einer Kernel Panic aus. Ich konnte grad noch so erkennen, daß er ein virtuelles Adressierungsproblem hat. Meine Vermutung ist, daß es sich entweder um einen Fehler in der Speicherverwaltung des Kernels handelt oder schlicht und ergreifend der RAM defekt ist. Um letzteres auszuschließen, suche ich ein Tool, welches mitprotokolliert, ob es beim Schreiben in einzelne physische Speicherbereiche Probleme hat. Das Tool sollte im Live-Betrieb laufen.

Hat da jemand einen Tipp?

Content-Key: 24786

Url: https://administrator.de/contentid/24786

Printed on: April 24, 2024 at 12:04 o'clock

Member: BartSimpson
BartSimpson Jan 30, 2006 at 09:11:33 (UTC)
Goto Top
Is es bisher einmmal passiert? Es gibt ein tool um was im falle der Kernelpanic alles aufzeichnet.
http://lkcd.sourceforge.net/
Wenn es ein Fehler im RAM ist, sollte der Server häufiger abstürzen. Es könnte jedoch ein der Speichercontroller oder die CPU selbst sein. Falls dein Server ECC oder Chip-Kill RAM hat, sollte der Kernel eigenlich den Fehler erkennen können. Desweiteren sollte im Log ein Eintrag zu finden sein.(vom BIOS)
Member: wesser-h
wesser-h Jan 30, 2006 at 09:23:25 (UTC)
Goto Top
Danke für die flotte Antwort.

Der Server ist leider eine Altlast, die keinen ECC-Speicher hat face-sad Meine erste Vermutung lief auch in Richtung CPU, jedoch sind die Probleme, die ich in der Vergangenheit mit Prozessoren hatte, eher thermischer Natur. Das kann ich hier aber ausschliessen.

Ich geb zu, das LKCD-Projekt hört sich interessant an, aber erst den Kernel zu patchen bzw. neu zu bauen ist IMHO bei einem Server im Produktivbetrieb etwas heikel.

Kann man den Kernel nicht dahingehend bringen, daß er beim Schreibzugriff auf den RAM die Speicherseiten verifiziert? Auch wenn dies enorme Leistungseinbußen mit sich bringt...
Member: Phisch
Phisch Jan 30, 2006 at 09:38:33 (UTC)
Goto Top
Tag,

vielleicht kann hier Memtest (http://www.memtest86.com) helfen, ist eine Bootdiskette oder
CD, die den Speicher mit Mustern vollschreibt und anschliessend diese überprüft. Das Funktioniert einigermassen zufriedenstellend, dauert aber etliche Stunden.

Gruss Phisch.
Member: BartSimpson
BartSimpson Jan 30, 2006 at 10:06:33 (UTC)
Goto Top
Genau deswegen hatte ich das jetzte nicht abgeführt. Weil es halt Stunden dauertface-sad
Member: wesser-h
wesser-h Jan 30, 2006 at 10:12:09 (UTC)
Goto Top
Ja, leider dauert mir die Downtime des Servers dann zulange...
Member: netstorm
netstorm Jan 30, 2006 at 10:28:04 (UTC)
Goto Top
Ja, leider dauert mir die Downtime des
Servers dann zulange...

Habt ihr "Ersatzram"? Wenn ja würde ich hingehen und den Server kurzzeitig mit Ersatzram ausstatten und in einem Testsystem den zu testenden Ramriegel mit memtest86 konfrontieren. Ist der Riegel kaputt, ist er auch in einem anderen System kaputt...

CIAO Thorsten
Mitglied: 14078
14078 Jan 30, 2006 at 10:51:31 (UTC)
Goto Top
http://www.simmtester.com/PAGE/products/doc/docinfo.asp

damit kannst du deinen ram testen, gute ergebnisse!
Member: wesser-h
wesser-h Jan 30, 2006 at 11:07:57 (UTC)
Goto Top
Läuft nur unter DOS/W95/W98 face-sad
Mitglied: 14078
14078 Jan 30, 2006 at 11:58:10 (UTC)
Goto Top
ahrg,

hier der richtige link. da gibts sehr gute soft:

http://www.soft-ware.net/system/steuerung/benchmark/index.asp?licht=sis ...