Proxmox stoppte alle VMs
Hallo Leute,
heute war ich etwas geschockt, als ich durch das Monitoring den Ausfall von 27 Server diagnostiziert bekam.
Bin dann sofort an den PC, und habe zuerst mal versuche einzelne Server zu pingen - vergebens.
Zunächst natürlich sofort in Proxmox eingeloggt, und sah, dass *alle* Server (VM) offline sind, und nur der Knoten lief.
Proxmox hat absolut nichts verraten, warum und weswegen es das getan hat, folgende Infos habe ich:
(Anhang: p1.png)
(Anhang: p2.png)
Was auffällig ist: Plötzlich wird ein ClusterLog geführt - Ich bin mir sehr sicher, das der sonst immer leer war (p2.png)
Proxmox auth.log:
VM´s starteten nach dem manuellen Befehl ohne Probleme.
Hat jemand eine Idee was da los sein könnte, bzw. wo ich anfangen könnte zu suchen?
Evtl. Autp-Updates?
Vielen Dank bereits jetzt für eure Hilfe.
Sebi
heute war ich etwas geschockt, als ich durch das Monitoring den Ausfall von 27 Server diagnostiziert bekam.
Bin dann sofort an den PC, und habe zuerst mal versuche einzelne Server zu pingen - vergebens.
Zunächst natürlich sofort in Proxmox eingeloggt, und sah, dass *alle* Server (VM) offline sind, und nur der Knoten lief.
Proxmox hat absolut nichts verraten, warum und weswegen es das getan hat, folgende Infos habe ich:
(Anhang: p1.png)
(Anhang: p2.png)
Was auffällig ist: Plötzlich wird ein ClusterLog geführt - Ich bin mir sehr sicher, das der sonst immer leer war (p2.png)
Proxmox auth.log:
Jun 4 19:57:11 xxxxxxxx sshd[3351]: Server listening on 0.0.0.0 port xxxx.
Jun 4 19:57:11 xxxxxxxx sshd[3351]: Server listening on :: port xxxx.
VM´s starteten nach dem manuellen Befehl ohne Probleme.
Hat jemand eine Idee was da los sein könnte, bzw. wo ich anfangen könnte zu suchen?
Evtl. Autp-Updates?
Vielen Dank bereits jetzt für eure Hilfe.
Sebi
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 339814
Url: https://administrator.de/contentid/339814
Ausgedruckt am: 22.11.2024 um 16:11 Uhr
14 Kommentare
Neuester Kommentar
Moin,
habe selbst zwar kaum bis keine Erfahrungen mit Proxmox, habe aber mal nach dem letzte Log-Eintrag und "reboot" im WWW gesucht (https://www.google.de/search?q=proxmox+removing+old+journal+reboot).
Offenbar gibt es noch andere, die ähnliche Probleme haben:
https://forum.proxmox.com/threads/random-restarting.30964/
Beim Überfliegen bin ich drüber gestolpert, dass das ZFS-FileSystem, auf dem auch die VMDKs (oder wie die bei Proxmox heißen) liegen, eine hohe Schreib/ Lese-Last hatten. Mit Anpassungen von 2-3 Parametern konnte man das Problem wohl eindämmen....
Vllt. hilft dir das ja weiter...
Gruß
em-pie
€dit: Typo
habe selbst zwar kaum bis keine Erfahrungen mit Proxmox, habe aber mal nach dem letzte Log-Eintrag und "reboot" im WWW gesucht (https://www.google.de/search?q=proxmox+removing+old+journal+reboot).
Offenbar gibt es noch andere, die ähnliche Probleme haben:
https://forum.proxmox.com/threads/random-restarting.30964/
Beim Überfliegen bin ich drüber gestolpert, dass das ZFS-FileSystem, auf dem auch die VMDKs (oder wie die bei Proxmox heißen) liegen, eine hohe Schreib/ Lese-Last hatten. Mit Anpassungen von 2-3 Parametern konnte man das Problem wohl eindämmen....
Vllt. hilft dir das ja weiter...
Gruß
em-pie
€dit: Typo
OK, da hast du recht, dort gab es in der Tat indizien auf HHD-Aspekte.. Hatte wie gesagt ja "nur Überflogen"...
Die Sache mit der Stromunterbrechung... hatte ich auch kurzweilen überlegt...
Ich meine im Kopf zu haben, dass bei unseren IBM-Servern soetwas im IPMI-Log erscheint, kurz bevor der Server die Biege macht.
Zumindest müsste man erkennen, dass erst das eine Netzteil Powerless ist, bevor es das andere erwischt. Habt ihr IPMI-Module o.Ä. verfügbar?
Wenn es die USV-erwischt hat... vllt. gibt die ja Auskunft
Aber warum sollte einer der "handvoll Leute" auf die Idee kommen, Strom zu ziehen? Außer, es waren Wartungsarbeiten an anderen Systemen angedacht und man hat versehentlich das falsche Kabel erwischt!? Wobei derjenige dann sicherlich ausreichend "Eier in der Hose" haben sollte, dies zu melden/ den Zustand zu begradigen....
Die Sache mit der Stromunterbrechung... hatte ich auch kurzweilen überlegt...
Ich meine im Kopf zu haben, dass bei unseren IBM-Servern soetwas im IPMI-Log erscheint, kurz bevor der Server die Biege macht.
Zumindest müsste man erkennen, dass erst das eine Netzteil Powerless ist, bevor es das andere erwischt. Habt ihr IPMI-Module o.Ä. verfügbar?
Wenn es die USV-erwischt hat... vllt. gibt die ja Auskunft
Aber warum sollte einer der "handvoll Leute" auf die Idee kommen, Strom zu ziehen? Außer, es waren Wartungsarbeiten an anderen Systemen angedacht und man hat versehentlich das falsche Kabel erwischt!? Wobei derjenige dann sicherlich ausreichend "Eier in der Hose" haben sollte, dies zu melden/ den Zustand zu begradigen....
Selbst ohne Log würde ich basierend auf der Spurenlage von einer Stromunterbrechung oder wenigstens einem Hardware-Reset per Reset-Taster ausgehen - du solltest also in jedem Fall mal in die Videos gucken.
Gerade bei zwei Kabeln (es sind doch zwei Kabel und nicht nur ein Y-Stecker?) kann man ein Versehen ja eigentlich schon ausschließen, sofern die vernünftig beschriftet sind...
Gerade bei zwei Kabeln (es sind doch zwei Kabel und nicht nur ein Y-Stecker?) kann man ein Versehen ja eigentlich schon ausschließen, sofern die vernünftig beschriftet sind...