brainybeacon
Goto Top

Server wiederholt plötzlich nicht mehr erreichbar

Hallo,

ich habe das Problem mit einem Ubuntu (22.04) basierten Linux-Server, dass dieser nahezu täglich "einfriert". Will heißen: Der Server antwortet in diesem Moment nicht mehr auf Anfragen, eine SSH-Verbindung ist nicht mehr möglich und auch eine Verbindung via KVM-Konsole schlägt fehl.

Im SYSLOG erscheinen zum Zeitpunkt des Einfrierens ebenfalls keine direkt aussagekräftigen Informationen:

Beispiel 1 – System friert etwa Dec 21 5:58 Uhr ein:

Dec 21 05:57:20 apps active-protection.sh[674967]: error: cannot open Packages database in /nonexistent/.rpmdb
Dec 21 05:57:20 apps active-protection.sh[674975]: error: cannot open Packages database in /var/lib/Acronis/.rpmdb
Dec 21 05:57:25 apps active-protection.sh[675009]: error: cannot open Packages database in /nonexistent/.rpmdb
Dec 21 05:57:25 apps active-protection.sh[675017]: error: cannot open Packages database in /var/lib/Acronis/.rpmdb
Dec 21 05:57:30 apps active-protection.sh[675128]: error: cannot open Packages database in /nonexistent/.rpmdb
Dec 21 05:57:30 apps active-protection.sh[675136]: error: cannot open Packages database in /var/lib/Acronis/.rpmdb

Content-ID: 54016269159

Url: https://administrator.de/contentid/54016269159

Ausgedruckt am: 24.11.2024 um 01:11 Uhr

Crusher79
Crusher79 24.12.2023 um 11:28:47 Uhr
Goto Top
Hallo, bitte was ist nicht aussagekräftig?

Acronis. Was ist das dort? Backup Agent? Backup des Servers oder arbeitet es als Agent und sichert noch andere VMs?

CyberBackup oder Standalone?

Mal das Ding deinstalliert und re-deployed? Bzw. ohne Acronis mal ein paar Stunden getestet?

mfg Crusher
Crusher79
Crusher79 24.12.2023 um 11:29:57 Uhr
Goto Top
BrainyBeacon
BrainyBeacon 24.12.2023 aktualisiert um 11:54:23 Uhr
Goto Top
Danke für Deine Rückmeldung, @Crusher79.

Hatte Acronis auch als »Ursache« im Verdacht. Doch ein Support-Call dort hat (bislang) keine Idee gebracht. Denn Acronis wird auf dem Server als Backup Agent für Linux eingesetzt (Datei-/Ordner-Backup, kein Image-Backup).

Insofern: Danke für den KB-Artikel von Acronis … aber: Heißt das – auch wenn hier die Meldung lautet
cannot open Packages database in /var/lib/Acronis/.rpmdb
dass ich dennoch die folgenden Kommandos absetzen soll?

mkdir /tmp/bak
cp -r /var/lib/rpm/ /tmp/bak/
rm -f /var/lib/rpm/__db*
rpmdb --rebuilddb

Viele Grüße.
Crusher79
Crusher79 24.12.2023 um 11:52:57 Uhr
Goto Top
Das räumt nur die DB und Pakete woanders hin.

Was tut denn Acronis da überhaupt? Application aware Backup? Backup Agent nur so? Virtuelle Maschine? Welche Acronis Version?

Ansonsten das Ding mal komplett deaktivieren. Du kannst auch CPU Auslastung und Netzwerkauslastung beim Backup normal angeben. Ggf. hier auch mal Acronis etwas zurück nehmen.

Ansonsten komplett runterschmeißen und kurz beobachten.
BrainyBeacon
BrainyBeacon 24.12.2023 um 11:58:14 Uhr
Goto Top
Acronis führt stündlich ein Backup von Dateien und Ordnern auf dem Server durch. Das dauert immer ca. 3 Minuten und ist nicht zu dem Zeitpunkt aktiv, wo der Server "einfriert" – daher gehe ich davon aus, dass das Backup selbst keine Auswirkungen hat. Der installierte Agent for Linux ist aktuell und hat die Version 23.11.36791
Crusher79
Crusher79 24.12.2023 um 12:00:00 Uhr
Goto Top
Naja Metadaten sammeln, Katalog aktualisieren. Du weißt schon, dass Acronis auch eigene Task vor und nach dem Backups macht? Oft auch einige Zeit später.
10138557388
10138557388 24.12.2023 aktualisiert um 12:14:03 Uhr
Goto Top
Tja so wie sie selbst schreiben
https://www.acronis.com/de-de/technology/active-protection/

Acronis hat die Welt auf den Kopf gestellt
🤪🤪🚑

Wenn das Schlangenöl sich als Backup-Agent auf die Kisten schmuggelt...

So ein Schlangenöl-Murks hat auf einem Linux Server nichts verloren, selbst Winblows haben die ja nicht im Griff . Wenn ich das hier schon lese stellen sich mir die Haare, und das im laufenden Betrieb ...💩
Finished Remount Root and Kernel File Systems.

Da kann man nur Frohe Weihnachten wünschen 🍻
ITwissen
ITwissen 24.12.2023 um 12:58:21 Uhr
Goto Top
Kannst du mal was zur Hardware sagen?

Wenn as Remote Management (ich nehme an, das meinst du mit KVM), dann hat das OS damit wenig zu tun.
BrainyBeacon
BrainyBeacon 24.12.2023 um 13:26:23 Uhr
Goto Top
Kurz zu den Hinweisen in Bezug auf Acronis: Zwar gibt es die Hinweise a la "cannot open Packages database in /var/lib/Acronis/.rpmdb«, aber diese scheinen (ich sage nicht, dass es zwingend so ist, sondern nur "scheinen") keinen Zusammenhang mit dem geschilderten Problem zu haben. Zum einen habe ich auf einem anderen unserer Server geschaut, der ohne Probleme läuft und da stehen dieselben Hinweise im syslog, zum anderen habe ich nun deinstalliert, installiert, backup erstellt etc. ohne Probleme oder Einfrieren.

Die Hardware: Es ist ein Dedicated Server (12 Core x 3.1 GHz AMD Ryzen 9 Pro 3900, 128 GB RAM, 2 x 960 GB Software RAID 1). Er steht in einem RZ und ich komme entweder per SSH drauf oder – wenn das nicht möglich ist – via virtueller KVM-Konsole, die der Hoster anbietet. Sie sollte selbst dann erreichbar sein, wenn man per SSH nicht mehr auf den Server kommt. Aber: Ein Zugriff via KVM ist im Fehlerfall auch nicht möglich.
MirkoKR
MirkoKR 24.12.2023 aktualisiert um 13:41:03 Uhr
Goto Top
Hi.

Hardware-,Fehler hast du bereits ausgeschlossen?
..HDD/SSD getauscht?
- Treiber überprüft/aktualisiert?
- HDD/SSD- Anschluss gewechselt?

Was sagt das SMART zu HDD/SSD?

Wie sind die Temperaturen der ASD, speziell wenn M.2?

Bios/UEFI kontrolliert? (PCIE-Geschwindigkeit, etc.)

Gehen dem Einfrieren große Datentransfers voraus, also erhöhte Wärmeentwicklung - speziell M.2
BrainyBeacon
BrainyBeacon 24.12.2023 um 13:59:17 Uhr
Goto Top
Ja, Hardware Fehler wurden keine gefunden; System ist "up-to-date". Es gibt zu den Zeitpunkten des "Einfrierens" keine anormalen Datentransfers. Der Server wird als Webserver genutzt und hat keine spezifische Last.
MirkoKR
MirkoKR 24.12.2023 aktualisiert um 14:06:56 Uhr
Goto Top
OK.

Dennoch könnten Hardware-Fehler das Problem sein, neben HDD/SSD auch CPU und RAM ...

.. auch GPU, BIOS oder schwankende Stromversorgung (Netzteil) können sowas verursachen - neben vielen anderen ...
BrainyBeacon
BrainyBeacon 24.12.2023 um 14:18:02 Uhr
Goto Top
Natürlich kann man einen Hardware-Fehler nie ausschließen, aber: Eine erste Frage wäre dann, ob ich den Problemkreis zielsicher(er) durch Logs o.ä. die ich noch nicht geprüft habe, einschränken könnte. Denn physisch komme ich nicht an das Gerät (Hoster).
MirkoKR
MirkoKR 24.12.2023 um 14:20:24 Uhr
Goto Top
Wenn es ein Hardware-Problem ist, hat das OS ggf. gar keine Zeit etwas zu loggen ...
ITwissen
ITwissen 24.12.2023 um 17:57:26 Uhr
Goto Top
Steht irgendwas im Log von der Remote-Management Console?
Welches Mainboard hat der Server ?

Unter Linux:
sudo ipmitool sel list
BrainyBeacon
BrainyBeacon 25.12.2023 aktualisiert um 20:36:22 Uhr
Goto Top
Nein, von der Remote-Management Console gab es nix im Log. Hier die Info zum Mainboad:
Manufacturer: ASRockRack
Product Name:X470D4U2/1N1
mihi42
mihi42 31.12.2023 um 19:16:42 Uhr
Goto Top
Löst sich das Problem nach 10 Minuten von alleine, oder musst du die Maschine hart neustarten?

Ich würde prüfen, ob es über die KVM-Konsole möglich ist, Sysrq-Tastenkombinationen (also z.B. Alt+Druck+H) an das System zu senden (vorher ggf. über /proc/sys/kernel/sysrq aktivieren). Wenn das verifiziert ist und das System das nächste Mal hängt kannst du darüber zumindest Hardwaredefekte ausschließen (wenn das System darauf noch reagiert) und anhand der Ausgabe auch häufig Ursachen feststellen (z.B. sehr viele Prozesse gestartet, SWAP zu 100% voll, oder alle Prozessoren hängen gerade in einem Kerneltreiber der zu Schlangenöl aka Endpoint Protection gehört). Möglicherweise kannst du den bösen Prozess sogar abschießen oder zumindest die Syslogs auf die Platte flushen, um nachher die Fehlersuche zu erleichtern.

Alternativ bieten viele Remote-Managementkarten auch die Möglichkeit einen NMI (Non Maskable Interrupt) zu erzeugen, der dafür sorgt dass der Kernel (wenn korrekt konfiguriert) mit einer Panic stehen bleibt und im besten Fall Informationen über das was er gerade tut ausgibt. Ist im vergleich zu Sysrq (was das System grundsätzlich weiterlaufen lässt und wo man mit den Tasten die man drückt Einfluss nehmen kann welche Informationen man sehen will) die rabiatere Methode, wenn Sysrq aber nicht möglich ist oder nicht zum Erfolg führt, ist es sicher einen Versuch wert. Insbesondere wenn der Server sich sowieso nicht berappelt und neu gestartet werden muss.
ITwissen
ITwissen 01.01.2024 aktualisiert um 12:42:23 Uhr
Goto Top
Da der Server ziemlich sicher via 2 Stromkabeln redundant versorgt wird (von dem eins hoffentlich an der USV hängt) würde ich Stromprobleme ausschliessen.
Abgesehen davon würden die im Log vom KVM/IPMI/BMC/remote management stehen.

Mich macht immer noch die Aussage stutzig, dass während dieser Zeit die Remote-Management (KVM) nicht erreichbar ist. Diese sind (bis auf die Stromversorgung) komplett unabhängig vom System (Komplett eigener Computer auf ARM Basis, vergleichbar mit einem Raspberry).

In den Logs des Remote-Management müsste auch stehen, wann die Remote-Managementö-Console gebootet wurde.

Wie bringst du den Rechner überhaupt wieder zum Leben, wenn du weder per SSH noch per Remote-Management etwas machen kannst?
mihi42
mihi42 01.01.2024 um 14:39:48 Uhr
Goto Top
Ich hatte den OP so verstanden, dass das KVM als solches schon noch erreichbar ist, aber der Server auf Aktionen der KVM-Konsole nicht mehr reagiert (sich der vom KVM angezeigte Bildschirminhalt beim Tippen auf die virtuelle Tastatur nicht ändert). Wenn dem nicht so ist, und das Management selbst nicht mehr funktioniert, kannst du meinen Beitrag ignorieren.
n0fear
n0fear 20.01.2024 aktualisiert um 11:53:07 Uhr
Goto Top
Zitat von @BrainyBeacon:

Kurz zu den Hinweisen in Bezug auf Acronis: Zwar gibt es die Hinweise a la "cannot open Packages database in /var/lib/Acronis/.rpmdb«, aber diese scheinen (ich sage nicht, dass es zwingend so ist, sondern nur "scheinen") keinen Zusammenhang mit dem geschilderten Problem zu haben. Zum einen habe ich auf einem anderen unserer Server geschaut, der ohne Probleme läuft und da stehen dieselben Hinweise im syslog, zum anderen habe ich nun deinstalliert, installiert, backup erstellt etc. ohne Probleme oder Einfrieren.

Die Hardware: Es ist ein Dedicated Server (12 Core x 3.1 GHz AMD Ryzen 9 Pro 3900, 128 GB RAM, 2 x 960 GB Software RAID 1). Er steht in einem RZ und ich komme entweder per SSH drauf oder – wenn das nicht möglich ist – via virtueller KVM-Konsole, die der Hoster anbietet. Sie sollte selbst dann erreichbar sein, wenn man per SSH nicht mehr auf den Server kommt. Aber: Ein Zugriff via KVM ist im Fehlerfall auch nicht möglich...

Ich habe über google deinen Eintrag gefunden. Kann es sein das es ein Ionos AR12-128 Server mit Ubuntu 22.04 ist? Ich habe nun bereits den 4. - alle haben genau das Fehlerbild, alle paar Tage - meist so nach 7-14 Tagen "friert" der Server komplett ein. KVM Konsole ist schwarz, nur ein reboot über das Cloudpanel hilft. Ein anderer AR8-64 mit dem selben Image (bzw. eben auch Ubuntu 22.04) läuft seit der Neuinstallation ebenfalls Mitte Dezember ohne Probleme. Alle neuen AR12-128 die ich konfiguriert habe zwischen Mitte Dezember und jetzt spacken aber... In den Logs ist bei mir nichts zu finden, ich nutze aber auch kein Acronis mehr, alles schon versucht.... Reboot über die Cloudkonsole und der Server läuft SOFORT wieder einige Tage, wshalb ich Strom, Kabel, Switch usw. ausschließe.... alles probiert, cloud init (das wohl wegen der VServer auch bei den Dedicated in den Images ist..) deaktiviert, IPv6 deaktiviert, mit stress-ng getestet, ram test usw.... keine Fehler... total strange und Ionos hat auch keine Idee...
BrainyBeacon
BrainyBeacon 22.01.2024 um 18:20:55 Uhr
Goto Top
@n0fear Du hast den sprichwörtlichen Nagel auf den Kopf getroffen. Genau so ist es – leider.
n0fear
n0fear 22.01.2024 um 18:57:18 Uhr
Goto Top
Zitat von @BrainyBeacon:

@n0fear Du hast den sprichwörtlichen Nagel auf den Kopf getroffen. Genau so ist es – leider.

In dem Fall hast du auch noch keine Lösung?
n0fear
n0fear 24.01.2024 um 22:54:31 Uhr
Goto Top
Hat sonst jemand noch eine Idee woran das liegen könnte? heute wieder 17.50 Uhr eingefroren, der andere Server selbe Hardware vorgestern um 6.15 Uhr...
BrainyBeacon
BrainyBeacon 25.01.2024 um 00:03:28 Uhr
Goto Top
Nein, ich habe auch noch keine Lösung – leider.
n0fear
n0fear 26.01.2024 aktualisiert um 17:30:24 Uhr
Goto Top
Zitat von @BrainyBeacon:

Nein, ich habe auch noch keine Lösung – leider.

Ich hatte eben nochmal Kontakt mit Ionos, ein sehr kompetenter Mitarbeiter, er hat mal recherchiert und wohl mehrere aktuelle Tickets gefunden, die alle die selben Probleme haben, alle mit dem AR 12-128 Ubuntu 22.04 und ein weiteres Ticket ans Rechenzentrum gemacht. Ich habe einen solchen Testserver nun seit Tagen im "Eingefrohren" Status mal stehen lassen. Habe nun die Hoffnung, dass da mal einer mit Monitor hin geht und mal schaut was das Teil anzeigt, ob es überhaupt was anzeigt. Da das Mainboard das selbe ist wie beim AR 8-64 der läuft, nur das Bios unterschiedlich und der Prozessor (+ natürlich mehr ram) gehe ich mal von nem Problem mit dem speziellen Prozessor mit diesem Board aus, das wäre zumindest meine Vermutung. Irgendwo hatte ich auch gelesen, dass manche AMD Prozessoren ein Bios update brauchen. Dran bleiben...
n0fear
n0fear 02.02.2024 aktualisiert um 08:49:38 Uhr
Goto Top
Zitat von @BrainyBeacon:

Nein, ich habe auch noch keine Lösung – leider.

@BrainyBeacon Ist deiner wieder eingefroren oder hat sich was verbessert? Ein Testserver 12/128 hat gestern die komplette Hardware getauscht bekommen, nach wenigen Stunden war er wieder eingefroren....
n0fear
n0fear 16.02.2024 um 09:46:42 Uhr
Goto Top
@BrainyBeacon oder auch andere. Problem wurde wohl laut Ionos Support nun gefunden. Wie ich vermutet hatte liegt es am Bios, die anderen AR Server haben eine andere Biosversion. Es soll nun ein Biosupdate geben, welches das Problem behebt. Meine Server sind am Montag dran, schauen wir mal.
BrainyBeacon
BrainyBeacon 16.02.2024 um 16:14:17 Uhr
Goto Top
@n0fear, das klingt sehr interessant und ich bin gespannt, was es bringt. Bitte halte mich hier mal auf dem Laufenden, denn bei mir hat sich weder im IONOS-Ticket noch sonst wo etwas getan. Danke.
n0fear
n0fear 19.02.2024 um 20:08:16 Uhr
Goto Top
Ich kann dir nur empfehlen den Support anzurufen und dort Druck zu machen. Bios Update ist drauf, ein neues Bios von 2024 laut Console. Hatte nun die Hoffnung es hat das Problem gelöst. Leider ist der Server eben wieder eingefroren, selbes Bild wie seit 3 Monaten. Ich habe langsam die Nase voll...
n0fear
n0fear 15.03.2024 um 09:45:22 Uhr
Goto Top
Falls sonst noch jemand solche Probleme hat, es scheint weiterhin bei Ionos nicht gelöst zu sein.... Habe vor 4 Wochen auf den AR16-128 getauscht. Dieser läuft stabil. Wer bei dem AR16-128 (wäre ja schön wenn mal alles einfach so läuft) Probleme mit der eth0:0 also 2. IP Adresse hat, auch hierfür ein workaround:

nano /usr/lib/systemd/system/ifupdown-pre.service
Zeile mit udevadm auskommentiert
#ExecStart=/bin/sh -c 'if [ "$CONFIGURE_INTERFACES" != "no" ] && [ -n "$(ifquery --read-environment --list --exclude=lo)" ] && [ -x /bin/udevadm ]; then udevadm settle; fi'

schon hängt systemctl restart networking nicht mehr.