the-buccaneer
Goto Top

PfSense 2.2.6 merkwürdiger Crash Fehlerursache?

Hi!

Ich hatte heute (gestern) nachmittag eine ziemlich seltsame Situation auf meiner PfSense.

VPN aus dem Home-Office funktionierte noch, im Büro angekommen hatte ich keinerlei Zugriff aufs Internet oder nur die Web-Konfig der PfSense.
Putty konnte sich ebenfalls nicht connecten.
Per Monitor und Tastatur konnte ich die Konsole erreichen, es gab ein paar Fehler auf dem rum0 Interface (USB-WLAN)
Leider ist das seit der 2.2.x Standard, ich habe keinen wirklich stabil laufenden Stick mehr, auch wenn der aktuelle immerhin lange läuft.
Normalerweise geht dann aber das WLAN nicht und gut.

Keine weiteren Meldungen auf der Konsole, also Neustart angeleiert.

Dieser scheitert allerdings mehrfach. 1x Kernel Panic, 1x weiss nicht mehr.

Jedesmal hängt der Reboot ewig beim Neuschreiben der RRD-Daten. (Leider nicht fotografiert, kommt aber auch ähnlich im Log.)

Rücksetzen auf selben Tag vormittags (definitiv laufend) bringt nix. Selber Fehler.

Rücksetzen auf 14 Tage altes Backup führt zum Start, leider hat die PfSense alle Zuordnungen der Netzwerk-Interfaces vergessen.

Nach neuzuordnen LAN/WAN etc. komme ich auf die Weboberfläche und muss das WAN auch neu konfigurieren. Der Rest ist da und o.k.

Danach wieder alles gut. (Seit mittlerweile 13h)

Das war in der gegebenen Situation nicht unlösbar und nach 30 min. erledigt, ich würde nur gerne irgendeinen Anhaltspunkt haben, woran das lag, denn ohne physische Präsenz war das ein Totalausfall.

Dieser RRD Fehler trat wohl gerne mal in der 2.1.x auf (hatte ich nie), besonders bei Upgrades. Aktuell keine Bugreports.

In den Logs ist zu sehen:

May 13 13:23:06 php: rc.prunecaptiveportal: cp_test is not a valid zone in the configuration! (Test Captive Portal, AP ausgeschaltet)
May 13 13:47:52 kernel: rum0: device timeout
(FreeBSD und USB-WLAN)

May 13 15:19:05 php: rc.initial.reboot: Stopping all packages.
May 13 15:18:29 php: rc.prunecaptiveportal: cp_test is not a valid zone in the configuration!
May 13 15:17:34 login: login on ttyv0 as root
May 13 15:17:28 php: rc.prunecaptiveportal: cp_test is not a valid zone in the configuration!
May 13 15:16:47 kernel: rum0: MAC/BBP RT2573 (rev 0x2573a), RF RT2528
May 13 15:16:47 kernel: rum0: <Belkin Belkin 54g USB Network Adapter, class 0/0, rev 2.00/0.01, addr 2> on usbus2
May 13 15:16:47 kernel: ugen2.2: <Belkin> at usbus2
May 13 15:16:32 check_reload_status: Linkup starting re0
May 13 15:16:32 kernel: bridge0: link state changed to UP
May 13 15:16:32 kernel: re0: link state changed to UP
May 13 15:16:30 kernel: rum0: could not multi write MAC register: USB_ERR_NOT_CONFIGURED
May 13 15:16:30 kernel: rum0: could not multi read MAC register: USB_ERR_NOT_CONFIGURED
May 13 15:16:30 check_reload_status: Linkup starting re0
May 13 15:16:30 kernel: bridge0: link state changed to DOWN
May 13 15:16:30 kernel: re0: link state changed to DOWN
May 13 15:16:30 kernel: rum0: at uhub0, port 1, addr 2 (disconnected)
May 13 15:16:30 kernel: ugen2.2: <Belkin> at usbus2 (disconnected)

Dann später (!) PfSense hat zeitliche Orientierung verloren und auf der Konsole auch gemotzt wg. fehlerhafter Zeitzonen-Konfiguration....

May 13 15:51:35 syslogd: exiting on signal 15
May 13 15:51:35 kernel: done.
May 13 13:51:35 php: rc.bootup: Creating rrd update script
May 13 13:51:34 php: rc.bootup: The command '/usr/bin/nice -n20 /usr/local/bin/rrdtool update /var/db/rrd/ovpns1-packets.rrd N:U:U:U:U:U:U:U:U' returned exit code '1', the output was 'ERROR: expected 16 data source readings (got 8) from N:U:U:U:U:U:U:U:U'
May 13 13:51:34 php: rc.bootup: The command '/usr/bin/nice -n20 /usr/local/bin/rrdtool update /var/db/rrd/ovpns1-traffic.rrd N:U:U:U:U:U:U:U:U' returned exit code '1', the output was 'ERROR: expected 16 data source readings (got 8) from N:U:U:U:U:U:U:U:U'
May 13 13:51:34 php: rc.bootup: The command '/usr/bin/nice -n20 /usr/local/bin/rrdtool update /var/db/rrd/ipsec-packets.rrd N:U:U:U:U:U:U:U:U' returned exit code '1', the output was 'ERROR: expected 16 data source readings (got 8) from N:U:U:U:U:U:U:U:U'
May 13 13:51:34 php: rc.bootup: The command '/usr/bin/nice -n20 /usr/local/bin/rrdtool update /var/db/rrd/ipsec-traffic.rrd N:U:U:U:U:U:U:U:U' returned exit code '1', the output was 'ERROR: expected 16 data source readings (got 8) from N:U:U:U:U:U:U:U:U'
May 13 13:51:34 php: rc.bootup: The command '/usr/bin/nice -n20 /usr/local/bin/rrdtool update /var/db/rrd/opt1-packets.rrd N:U:U:U:U:U:U:U:U' returned exit code '1', the output was 'ERROR: expected 16 data source readings (got 8) from N:U:U:U:U:U:U:U:U'
May 13 13:51:34 php: rc.bootup: The command '/usr/bin/nice -n20 /usr/local/bin/rrdtool update /var/db/rrd/opt1-traffic.rrd N:U:U:U:U:U:U:U:U' returned exit code '1', the output was 'ERROR: expected 16 data source readings (got 8) from N:U:U:U:U:U:U:U:U'
May 13 13:51:34 php: rc.bootup: The command '/usr/bin/nice -n20 /usr/local/bin/rrdtool update /var/db/rrd/lan-packets.rrd N:U:U:U:U:U:U:U:U' returned exit code '1', the output was 'ERROR: expected 16 data source readings (got 8) from N:U:U:U:U:U:U:U:U'
May 13 13:51:34 php: rc.bootup: The command '/usr/bin/nice -n20 /usr/local/bin/rrdtool update /var/db/rrd/lan-traffic.rrd N:U:U:U:U:U:U:U:U' returned exit code '1', the output was 'ERROR: expected 16 data source readings (got 8) from N:U:U:U:U:U:U:U:U'
May 13 13:51:34 php: rc.bootup: The command '/usr/bin/nice -n20 /usr/local/bin/rrdtool update /var/db/rrd/wan-packets.rrd N:U:U:U:U:U:U:U:U' returned exit code '1', the output was 'ERROR: expected 16 data source readings (got 8) from N:U:U:U:U:U:U:U:U'
May 13 13:51:34 php: rc.bootup: The command '/usr/bin/nice -n20 /usr/local/bin/rrdtool update /var/db/rrd/wan-traffic.rrd N:U:U:U:U:U:U:U:U' returned exit code '1', the output was 'ERROR: expected 16 data source readings (got 8) from N:U:U:U:U:U:U:U:U'
May 13 15:51:32 kernel: done
May 13 13:51:32 php: rc.bootup: WARNING: Setting i_dont_care_about_security_and_use_aggressive_mode_psk option because a phase 1 is configured using aggressive mode with pre-shared keys. This is not a secure configuration.
May 13 13:51:32 php: rc.bootup: IPsec ERROR: Could not find phase 1 source for connection VPN Mobil. Omitting from configuration file.
May 13 13:51:32 php: rc.bootup: IPsec ERROR: Could not find phase 1 source for connection VPN1. Omitting from configuration file.


Könnte das ALLES an der fehlerhaften Implementation des rum Treibers liegen und da seinen Ausgang nehmen?
Dann klopp ich den Stick in die Tonne und versuche nochmal einen atheros.(ABER WELCHEN???)
Aktuell bleibt er mal abgeklemmt, ich brauch das WLAN nicht.

Ich tät einfach nur gerne ne Idee haben...

Mit Glück hat ja wer anders hier das Pech schon gehabt. face-wink


Frohe Pfingsten! (Kann sein, dass ich erst am Dienstag wieder dran arbeiten kann)

Buc

Content-Key: 304525

Url: https://administrator.de/contentid/304525

Printed on: April 25, 2024 at 17:04 o'clock

Member: aqui
aqui May 14, 2016 updated at 09:07:13 (UTC)
Goto Top
Auf was für einer HW rennt deine FW ?
Wenn das etwas ältere ALIX 2D13 etc. sind dann empfiehlt es sich die RRD Tools zu deaktivieren, denn die fressen schon etwas Systemresourcen. Sie müssen auch nicht sein denn die FW hat auch ohne RRD eine Systemgrafik wer es denn unbedingt braucht.
Die freien Resourcen kommen dann dem Systemzugute was allemal sinnvoller ist.
RRD also besser disablen.
Ansonsten sieht das eher nach dem Treiber aus. Persönlich hab ich egal auf welcher HW, solche Fehler noch nicht beobachten können. Ich habe auch noch nie WLAN Sticks am USB Port eingesetzt.
Wenn WLAN, dann ausschliesslich Mini PCI Karten.
Member: the-buccaneer
the-buccaneer May 15, 2016 at 22:21:36 (UTC)
Goto Top
Dank dir, Aqui!

Heute früh war sie wieder wech.
Ohne den WLAN Stick.
Musste eh kurz ins Office um was zu holen, hatte aber keinerlei Zeit, ausser auf Verdacht nen Reboot von der Konsole zu starten.
Hat aber offenbar nicht gereicht, wahrscheinlich muss ich wieder einen alten Wiederherstellungspunkt nehmen.

Die PfSense rennt (steht aktuell) auf dem Futro S400 mit ner DUAL-Lan Intel PCI Karte. Die Kisten sind ungeheuer stabil und robust.

Schwächstes Glied ist die verbaute 4GB Mini Festplatte im CF-Format. Die wurde dafür nicht hergestellt und sollte schon längst ersetzt sein, aber solange es läuft... Werde diese morgen auf Verdacht gegen eine Industrial CF Karte tauschen und neuinstallieren. (Oder evtl. die jetzige Installation imagen, wenn das noch geht - dann habe ich nämlich die gleiche Ausgangsbasis. face-wink

Mal sehen.

Ich hatte allerdings vor Jahren mal einen defekten Datenträger und das liess sich ziemlich genau anhand der Fehler diagnostizieren. Mich wundert halt aktuell, dass ich keine Einträge zu Defekten im Dateisystem oder irgendwelche I/O Fehlermeldungen bekomme.

Das RRD verwende ich wirklich nie, es ist halt default aktiviert und die Büchse zwingt es nicht in die Knie. Mir scheint das auch eher Symptom als Ursache.

Werde berichten, wenn es gelöst ist.

Buc
Member: aqui
aqui May 16, 2016 at 09:09:25 (UTC)
Goto Top
Hast du das als nanobsd Image installiert auf der CF also mit reduziertem Schreib Zugriff oder als Full Install, so das die CF als RW Festplatte arbeitet ?
Member: the-buccaneer
the-buccaneer May 18, 2016 at 22:01:50 (UTC)
Goto Top
Natürlich als Full Install, da ich einige Pakete installiert habe und das mit dem temporären r/w auf der NanoBSD bei mir nie geklappt hat.
Daher ja auch die Idee, dafür eine Micro-Festplatte im CF Format zu verwenden.

Die Teile sind wohl aber kaum für 24/7 Betrieb getestet worden, sondern waren ja, als der Flash Speicher noch teuer war eine günstigere Alternative für Kameras.

Ich habe es gewagt und ein Image der "korrupten" Installation auf eine Industrial-CF gespielt. Die läuft seit 48h fehlerfrei. Also eher was im Controller der HD als auf der Oberfläche, das Dateisystem war ja auch immer o.k., das testet die PfSense ja nach Hard-Resets.

Leider swapt die Installation ab und an mal etwas, obwohl im Normalbetrieb der Speicher dicke ausreicht. Das Swap ausschalten mag ich aber auch nicht, da es ja eine Ursache für den zeitweise erhöhten Speicherbedarf gibt und dann wohl der Snort bei Updates oder was weiss ich in die Knie geht.

Lösung also bis hierhin: Austausch des Datenträgers. Allerdings habe ich das RRD auch deaktiviert, da ich gerade keine Zeit habe, mich um meine eigenen "Spielereien" zu kümmern. face-wink

BTW: Weisst du zufällig auswendig, welche (und wieviele) Partitionen die PfSense 2.x standardmässig anlegt? Ich hatte beim Imagen eine Partition, die Clonezilla nicht klonen konnte (sda5 ?)und die ich dann einfach ignoriert habe. Wo speichert die PfSense die Wiederherstellungsinformationen? Auf einer eigenen Partition?

So long
Buc
Member: the-buccaneer
the-buccaneer Jun 04, 2016 at 00:07:26 (UTC)
Goto Top
So. Vor 2 Tagen wieder Stillstand. Eine Fehlermeldung bzgl. einer nicht definierten Codezeile in in ingerndeiner .inc Datei.
PfSense funktional tot, auf der Shell ging aber ein Reboot.
Danach das selbe Spiel wie oben beschrieben, ein älteres Backup liess sich wiederherstellen.

Nun aber komplett neu aufgesetzt auf die 2.2.6 (Warum ist das sooo kompliziert, von einer USB CD zu booten?)

Danach wieder 2 Tage Ruhe jetzt. Hoffentlich wars das. Ich habe sonst Angst vor dem Sommerurlaub.

Buc
Member: aqui
aqui Jun 04, 2016 at 13:34:29 (UTC)
Goto Top
Mmmmhhh...warum CD booten.
Flashkarte mit Win32diskimager beschreiben...reinstecken...geht ! face-smile
Member: the-buccaneer
the-buccaneer Jun 04, 2016 at 23:42:19 (UTC)
Goto Top
Na, weil CD immer ordentlich beschriftet ist und nix anderes beinhalten kann.
Am Ende leichter, als immer wieder auf diese rumfliegenden USB-Sticks zu installieren...

Ausserdem: Das sind CD-Images. Bisher immer auch Live-Versionen.
Da sollte ein CD-Boot machbar sein.

Die Schafe sind verloren, wenn nur noch der Zaun beschützt wird.

Buc
Member: the-buccaneer
the-buccaneer Oct 11, 2016 at 23:31:08 (UTC)
Goto Top
Büchse ist seither stabil mit der neu aufgesetzten 2.2.6 auf derselben Hardware und der industrial-CF.

Auslösende Ursache unbekannt.

Buc