masternrg
Goto Top

Suse Server hängt nach Update auf 11.1

Unser Suse 11.1 Server hängt sich 3-4 mal pro Woche auf.

Wir haben einen Samba-Server der unter Suse betrieben wird. Die Version war 10.0 und wurde auf 11.1 geupdated. Das Update verlief fast frei von Fehlern (paar kleinigkeiten sonst nix) und der Server läuft auch jedoch bleibt er 3-4 mal pro Woche stehn und ist dann nur noch über den Resettaster am Gerät neu zu starten.

Hier ein kleiner Auszug aus der warn zum Zeitpunkt des Abstürzes:

Jun 16 18:35:40 neo kernel:
Jun 16 18:35:43 neo sendmail-client[22411]: restart queue runner=0 due to signal 0x9
Jun 16 18:35:43 neo kernel: Call Trace:
Jun 16 18:35:44 neo kernel:  [<ffffffff8020e42e>] show_trace_log_lvl+0x41/0x58
Jun 16 18:35:44 neo kernel:  [<ffffffff804a1e97>] dump_stack+0x69/0x6f
Jun 16 18:35:44 neo kernel:  [<ffffffff8028abca>] oom_kill_process+0x5e/0x21e
Jun 16 18:35:44 neo kernel:  [<ffffffff8028b278>] out_of_memory+0x1cd/0x203
Jun 16 18:35:44 neo kernel:  [<ffffffff8028e8ed>] __alloc_pages_internal+0x33a/0x442
Jun 16 18:35:44 neo kernel:  [<ffffffff802b3c0c>] kmem_getpages+0x6f/0x12a
Jun 16 18:35:46 neo kernel:  [<ffffffff802b4578>] fallback_alloc+0x15a/0x20a
Jun 16 18:35:46 neo kernel:  [<ffffffff802b4a6f>] kmem_cache_alloc+0x12a/0x15f
Jun 16 18:35:46 neo kernel:  [<ffffffff8023e9dd>] dup_task_struct+0x21/0xcb
Jun 16 18:35:46 neo kernel:  [<ffffffff8023f850>] copy_process+0x84/0xe28
Jun 16 18:35:46 neo kernel:  [<ffffffff802406e5>] do_fork+0xf1/0x26a
Jun 16 18:35:46 neo kernel:  [<ffffffff8020d752>] kernel_thread+0x82/0xdf
Jun 16 18:35:46 neo kernel:  [<ffffffff8020d7af>] child_rip+0x0/0x11
Jun 16 18:35:46 neo kernel:
Jun 16 19:02:29 neo kernel: Node 0 DMA per-cpu:
Jun 16 19:02:30 neo kernel: CPU    0: hi:    0, btch:   1 usd:   0
Jun 16 19:02:30 neo kernel: CPU    1: hi:    0, btch:   1 usd:   0
Jun 16 19:02:30 neo kernel: Node 0 DMA32 per-cpu:
Jun 16 19:02:30 neo kernel: CPU    0: hi:  186, btch:  31 usd:   0
Jun 16 19:02:30 neo kernel: CPU    1: hi:  186, btch:  31 usd:   0
Jun 16 19:02:30 neo kernel: Active:3933 inactive:3542 dirty:0 writeback:116 unstable:0

Kann irgendjemand helfen?

Content-ID: 119001

Url: https://administrator.de/contentid/119001

Ausgedruckt am: 18.11.2024 um 23:11 Uhr

Alphavil
Alphavil 25.06.2009 um 09:12:23 Uhr
Goto Top
Hi,

Paar Fragen vor ab:

- Welcher Kernel ist im Einsatz ?
- Wurde sonst etwas geändert ?
- Sind die Aufhänger zeitlich festzumachen (also z.B. alle 2 tage) ?


Haben hier auch neben Ubuntu ein paar Suse Kisten. Mit der Version 11.0 gab es nie Probleme, aber seit wir auf 11.1 geupdated haben kommen auch öfters mal Kernel-Meldungen. Vor allem zickt es beim Grafikchip rum. Ich hab so das Gefühl das 11.1 noch nicht so wirklich taufrisch ist, leider. Daher versuchen wir immer mehr auf Ubuntu um zurüsten. Und wenn Suse dann 11.0 wenns geht. Es sei den die Probleme werden in Zukunft noch gefixed


Greetz André
masternrg
masternrg 25.06.2009 um 10:31:43 Uhr
Goto Top
Hi André,

Hier die Antworten
-Kernel version 2.6.27.7-9-default
-geändert wurde nichts
-Hänger am:
- 05.06.09
- 09.06.09
- 16.06.09
- 17.06.09
- 23.06.09
- 24.06.09

Gruß Dennis
masternrg
masternrg 29.06.2009 um 08:03:48 Uhr
Goto Top
und wieder am 25.06. und am 29.06.

Hier die letzten Zuckungen aus der message

29 00:39:26 neo kernel: Node 0 DMA32 free:154756kB min:5700kB low:7124kB high:8548kB active:10164kB inactive:5588kB present:2039056kB pages_scanned:0 all
_unreclaimable? no
Jun 29 00:39:26 neo kernel: lowmem_reserve: 0 0 0 0
Jun 29 00:37:27 neo /usr/sbin/cron[11334]: (root) CMD (/root/scripts/server_check/server_status.sh 2> /dev/null)
Jun 29 00:41:20 neo /usr/sbin/cron[11343]: (root) CMD (/root/scripts/server_check/server_status.sh 2> /dev/null)
Jun 29 00:44:24 neo /usr/sbin/cron[11347]: (root) CMD (/root/scripts/server_check/server_status.sh 2> /dev/null)
Jun 29 00:44:24 neo /usr/sbin/cron[11346]: (root) CMD (/root/scripts/heat_prevent)
Jun 29 00:45:20 neo kernel: Node 0 DMA: 3*4kB 2*8kB 2*16kB 2*32kB 3*64kB 0*128kB 2*256kB 0*512kB 2*1024kB 0*2048kB 1*4096kB = 6972kB
Jun 29 00:45:45 neo kernel: Node 0 DMA32: 37990*4kB 22*8kB 1*16kB 1*32kB 0*64kB 1*128kB 0*256kB 1*512kB 0*1024kB 1*2048kB 0*4096kB = 154872kB
Jun 29 00:45:46 neo kernel: 4013 total pagecache pages
Jun 29 00:45:46 neo kernel: 197 pages in swap cache


Und hier aus der warn

reclaimable? no
Jun 29 00:39:26 neo kernel: lowmem_reserve: 0 0 0 0
Jun 29 00:45:20 neo kernel: Node 0 DMA: 3*4kB 2*8kB 2*16kB 2*32kB 3*64kB 0*128kB 2*256kB 0*512kB 2*1024kB 0*2048kB 1*4096kB = 6972kB
Jun 29 00:45:45 neo kernel: Node 0 DMA32: 37990*4kB 22*8kB 1*16kB 1*32kB 0*64kB 1*128kB 0*256kB 1*512kB 0*1024kB 1*2048kB 0*4096kB = 154872kB
Jun 29 00:45:46 neo kernel: 4013 total pagecache pages
Jun 29 00:45:46 neo kernel: 197 pages in swap cache


Hat jemand noch eine Idee?
Alphavil
Alphavil 29.06.2009 um 08:47:23 Uhr
Goto Top
Hi,

Hast du auch mal die Hardware durchgecheckt mit ner Test-CD und vorallem den Arbeitsspeicher?

Was da bei dir genau los ist, kann ich dir leider nicht sagen aber ich tippe entweder auf Hardware oder ein Problem mit dem Kernel (hatte ich auch in Verbindung mit der Grafikkarte)

Greetz André
masternrg
masternrg 29.06.2009 um 09:43:40 Uhr
Goto Top
Ich werd mal einen Memtest machen aber ich denke eher die Software ist das Problem da der Server ja bereits 2 Jahre mit der SUSE 10 gelaufen ist.

Ich berichte nachher mal was der Memtest ergeben hat.
Alphavil
Alphavil 29.06.2009 um 12:46:16 Uhr
Goto Top
aber ich denke eher die Software ist
das Problem da der Server ja bereits 2 Jahre mit der SUSE 10 gelaufen

Das glaub ich zwar auch, aber ein Test schadet nie und du kannst die Hardware dann schon mal eher ausschließen


P.S. Hast du direkt von 10.0 auf 11.1 upgedatet ? Oder wie bist du vorgegangen
masternrg
masternrg 01.07.2009 um 15:17:03 Uhr
Goto Top
Memtest86 durchgeführt -> keine Fehler gefunden

Also ich glaube es war SUSE 10.1 oder 10.2 drauf und wurde auf SUSE 11.1 geuppt. Ohne sonstige Zwischenschritte.
Alphavil
Alphavil 02.07.2009 um 09:00:00 Uhr
Goto Top
Ich hab bis jetzt nur von 11 auf 11.1 geuppt. Da es sich bei dir um ein spezielles Suse-Problem handelt (Vermutung) würde ich mal in ein Forum von dort posten. Und wenn alle Stricke reißen, Daten sichern und System neu aufsetzen, dann läuft es wieder sauber