netgear24
Goto Top

Debian 8.3 friert immer wieder ein.

Guten Tag

Ich habe seit 2 Wochen das Problem dass mein Observium immer wieder downgeht.

Erstmal ein paar Daten

Debian 8.3 alle Pakete und Disti Aktuell.

Supermicro 5015
Intel Atom Quadcore 1.6 GHz
4GB RAM
2x Gig. Ethernet
1x usb 2.0 100MB Ethernet
2x Samsung 256 GB SSD im Raid 1
1x San Disk Cruzer Nano Fit als Bootloader Volume
Kein Swap!
1x ISCSI für Backup via Rsync


Load Average

Nach dem Start
0.43 0.64 0.56

Im Betrieb

0.82 0.90 0.70

dmesg log (Auszug)

[ 1.197084] uhci_hcd 0000:00:1a.2: new USB bus registered, assigned bus number 3
[ 1.197097] uhci_hcd 0000:00:1a.2: detected 2 ports
[ 1.197158] uhci_hcd 0000:00:1a.2: irq 19, io base 0x0000c800
[ 1.197362] usb usb3: New USB device found, idVendor=1d6b, idProduct=0001
[ 1.197370] usb usb3: New USB device strings: Mfr=3, Product=2, SerialNumber=1
[ 1.197375] usb usb3: Product: UHCI Host Controller
[ 1.197380] usb usb3: Manufacturer: Linux 3.16.0-4-amd64 uhci_hcd
[ 1.197385] usb usb3: SerialNumber: 0000:00:1a.2
[ 1.197861] hub 3-0:1.0: USB hub found
[ 1.197885] hub 3-0:1.0: 2 ports detected
[ 1.198377] uhci_hcd 0000:00:1d.0: UHCI Host Controller
[ 1.198396] uhci_hcd 0000:00:1d.0: new USB bus registered, assigned bus number 4
[ 1.198410] uhci_hcd 0000:00:1d.0: detected 2 ports
[ 1.198463] uhci_hcd 0000:00:1d.0: irq 23, io base 0x0000c480
[ 1.198630] usb usb4: New USB device found, idVendor=1d6b, idProduct=0001
[ 1.198637] usb usb4: New USB device strings: Mfr=3, Product=2, SerialNumber=1
[ 1.198642] usb usb4: Product: UHCI Host Controller
[ 1.198647] usb usb4: Manufacturers
[ 11.429065] e1000e: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[ 11.429412] IPv6: ADDRCONF(NETDEV_CHANGE): eth1: link becomes ready
[ 11.705037] md: md0: resync done.
[ 11.721574] RAID1 conf printout:
[ 11.721586] --- wd:2 rd:2
[ 11.721593] disk 0, wo:0, o:1, dev:sda1
[ 11.721599] disk 1, wo:0, o:1, dev:sdb1
[ 11.993047] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[ 11.993368] IPv6: ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[ 15.472395] scsi7 : iSCSI Initiator over TCP/IP
[ 15.770817] scsi 7:0:0:0: Direct-Access FreeBSD iSCSI Disk 0123 PQ: 0 ANSI: 6
[ 15.772410] sd 7:0:0:0: Attached scsi generic sg3 type 0
[ 15.773319] sd 7:0:0:0: [sdd] 524288000 512-byte logical blocks: (268 GB/250 GiB)
[ 15.773327] sd 7:0:0:0: [sdd] 131072-byte physical blocks
[ 15.775267] sd 7:0:0:0: [sdd] Write Protect is off
[ 15.775284] sd 7:0:0:0: [sdd] Mode Sense: 73 00 10 08
[ 15.776188] sd 7:0:0:0: [sdd] Write cache: enabled, read cache: enabled, supports DPO and FUA
[ 15.808203] systemd-journald[207]: Received request to flush runtime journal from PID 1
[ 15.817045] sdd: unknown partition table
[ 15.822316] sd 7:0:0:0: [sdd] Attached SCSI disk
[ 19.757659] EXT4-fs (sdd): recovery complete
[ 19.767645] EXT4-fs (sdd): mounted filesystem with ordered data mode. Opts: (null)
[ 660.350033] perf interrupt took too long (2546 > 2500), lowering kernel.perf_event_max_sample_rate to 50000
[ 1272.992323] perf interrupt took too long (5014 > 5000), lowering kernel.perf_event_max_sample_rate to 25000

Crontab

  1. m h dom mon dow user command
17 * * * * root cd / && run-parts --report /etc/cron.hourly
#
30 * * * * root rsync -a -v --exclude-from /home/observium/backup.txt / /mnt/

33 */6 * * * root /opt/observium/discovery.php -h all >> /dev/null 2>&1
*/5 * * * * root /opt/observium/discovery.php -h new >> /dev/null 2>&1
*/5 * * * * root /opt/observium/poller-wrapper.py 5 >> /dev/null 2>&1

Das Observium lief bereits bei mir mit derselben Anzahl an Hosts auf einem Raspberry Pi 2 ohne Probleme. Hat von euch jemand ein Ähnliches Problem oder gar dasselbe Setup ?

Um den Server wieder in Gang zu kriegen hilft dann nur noch ein Hard Reset

Content-ID: 296123

Url: https://administrator.de/contentid/296123

Ausgedruckt am: 19.11.2024 um 07:11 Uhr

coltseavers
coltseavers 22.02.2016 um 12:18:33 Uhr
Goto Top
Hallo Netgear24,

schon ausgeschlossen, dass RAM defekt? Teste mal mit memtest86+

Gruß,
Colt
Netgear24
Netgear24 22.02.2016 um 23:06:20 Uhr
Goto Top
Hallo coltseavers

jup. konnte ich ausschliessen. memtest mit jedem riegel gemacht und am schluss noch mit beiden gleichzeitig. nicht ein fehler.
In den Logs ist auch nichts erkennbares drin was den Fehler verursachen würde. Mittlerweile habe ich noch 2 andere Informatiker das ganze anschauen lassen. Das einzige was ich noch nicht testen konnte war die CPU.

Danke für deinen Input

Vielleicht kommen ja noch weitere ideen.

Grüsse
coltseavers
Lösung coltseavers 22.02.2016, aktualisiert am 03.03.2016 um 17:59:45 Uhr
Goto Top
Dann wärs noch interessant zu wissen, wie die Kiste läuft, wenn Du z.B. mal ein junges Live-Linux oder sowas mit neuesten Treibern von USB startest, und die Mühle unter Last setzt. Wenns dann einwandfrei läuft, weisst Du zumindest schonmal, dass es kein Hardwareproblem (z.B. Stromversorgung) sein kann.

Gruß,
Colt
Netgear24
Netgear24 03.03.2016 um 17:59:43 Uhr
Goto Top
Hallo Colt

Habe den Server nun neu Installiert. Momentan funktioniert er seit einer Woche. Die einzige änderung, einen neuen USB Stick als Swap Speicher. Das CD Image und die CD waren dieselbe. Scheint wieder zu Funktionieren.

Einen Memory Fehler konnte ich mittels memtest86 ausschliessen. Einen Netzteilfehler indem ich einfach das Netzteil getauscht habe. Sowie den Prozessor mit einem Belastungstest. Die SSDs habe ich gewipt und in einem anderen Rechner nochmals getestet.

Soweit so gut. Danke dir für die Hilfe.

Liebe Grüsse

Netgear24