dq28121989
Goto Top

ESXi startet nicht mehr nach reboot (Lösungsvorschläge oder Datensicherung?)

Hallo liebe Community,

ich wollte heute mein Homelab umbauen und nachdem ich meinen "Server" neugstartet habe um eine Netzwerkkarte für den Passthrough freizugeben, kam dieser nicht mehr hoch.
Das ist ziemlich ungünstig da ich darin so ziemlich alles virtualisiert habe wie z.B. Media-Server, VPN-Gateways, Teamspeak-Server, virtuelles NAS (Passthrough vom Raid zur VM mit freenas), Cisco-Routerlab und diverse Betriebssysteme zum spielen.

Es lief ein Jahr lang alles gut, nun wollte ich aber meinen ganzen Internettraffic über eine virtuelle Opensense-Firewall laufen lassen um DMZ und Heimnetz segmentieren zu können, nach dem Neustart kam die Kiste aber nicht mehr zurück und spuckt mir nach jedem Neustart andere Fehlermeldungen aus.

Da echt viel Zeit in dem ganzen Setup steckt würde ich es begrüßen das System wieder zum laufen zu beokmmen oder zumindest einige Daten zu sichern.

Daten zum "Server":
  • ESXi 5.5.0 mit angepassten Treibern
  • Gigabyte Mainboard mit Core i5-4460
  • 32GB Ram
  • 256 GB SSD (für Auslagerungsdateien)
  • 1TB Platte für Hypervisor, ISO-Images und VMs
  • Raidcontroller der Marke Adaptec mit 2x 4TB im Raid1

Die Fehlermeldungen sind komischerweise immer unterschiedlich aber häufig lädt er fast bis zum Ende und spuckt mir etwas aus wie:
  • "File System(vmfs) failed to load due to low main memory" + "vmfs Subsystem FS3Heap failed to load due to Out of memory"
  • "vmfs Subsystem FS3DM failed to load due to Out of memory"
  • Pinker Bilschirm mit haufen cryptischer Nachrichten (Debugger, Screenshot auf Anfrage)

Da ich kein VMware Experte bin bitte ich um Verständnis wenn ich nicht direkt alle Infos zur Verfügung gestellt habe.

Meine Vermutung liegt darin, dass die Auslagerungsdateien alles vollgestopft haben und das System nicht genug freigegebenen Speicher hat um sich selbst zu laden. Kann das jemand bestätigen bzw. mir eine Lösung nennen? Gibt es Boardmittel mit denen man das bereinigen kann?
(Da ich dort 30 Cisco CSR1000v Instanzen laufen hatte, und jede Instanz 2,5 GB RAM benötigt, vermute ich diese wurden auf die Festplatte ausgelagert)

Viele Grüße und schon mal Danke für alle Anregungen
dq2812

Content-ID: 312638

Url: https://administrator.de/contentid/312638

Ausgedruckt am: 22.11.2024 um 19:11 Uhr

StefanKittel
Lösung StefanKittel 15.08.2016 um 00:29:55 Uhr
Goto Top
Hallo,

neine, eine fertige Lösung habe ich nicht. Das wäre aber auch zu einfach oder?

Zuerst würde ich testen ob die Kiste irgendeine Macke hat.
RAM-Test von UBCD. Wenn Du der Kiste vertraust, lass es weg.

Von was startest Du vSphere?

Zuerst kannst Du versuchen ohne die Datenspeicher zu starten.
Vieleicht kommt er ja dann hoch.

Sonst würde ich vSphere auf einen USB Stick neu installieren.
Dazu alle Datenspeicher abklemmen.
Die Netzwerk-Config musst Du dann neu machen.

Wenn vSphere läuft die Datenspeicher dazu.
Dann die VMs einzelnd einbinden.

Stefan
Pjordorf
Pjordorf 15.08.2016 um 02:30:51 Uhr
Goto Top
Hallo,

Zitat von @dq28121989:
  • ESXi 5.5.0 mit angepassten Treibern
Was und wie wurde angepasst
* Gigabyte Mainboard
Auf der HCL?

* Raidcontroller der Marke Adaptec mit 2x 4TB im Raid1
Eine Marke VW sagt auch nichts über das eigentliche Auto aus. Also, welchen Kontroller hast du?

"vmfs ....
Platte hin
Nur das dateisystem geschrottet
Lesefehler in verschiedene Sektoren
Kontroller evtl. hin
SATA Kabel evtl. hin
RAM evtl. hin
.
.
.

* Pinker Bilschirm mit haufen cryptischer Nachrichten (Debugger, Screenshot auf Anfrage)
Das entscheidende kannst du aber schon abschreiben oder gar ein Foto von machen? So viel kryptisches steht da auch nicht. VMWare kann dir sagen was welcher Lila Bildschirm dir sagen will.
https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&am ...
http://serverfault.com/questions/648765/how-can-i-fix-purple-screen-of- ...

Da ich kein VMware Experte bin
Hat aber gereicht um dein ESXi anzupassen und gaaanz viele VMs am laufen zu haben face-smile

Meine Vermutung liegt darin, dass die Auslagerungsdateien alles vollgestopft haben
Dann prüfe dein Dateisystem
http://www.running-system.com/how-to-check-vmfs-for-metadata-corruption ...
https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&am ...
http://www.vm-help.com/esx/esx3i/check_system_partitions.php

Vielleicht ist auch nur dein Horst hin (Dateisystem deines ESXi - USB Stick? CF Karte? Kopie davon?)

Datensicherung deines Systems liegt vor?

Gruß,
Peter
GrueneSosseMitSpeck
Lösung GrueneSosseMitSpeck 15.08.2016 aktualisiert um 11:49:37 Uhr
Goto Top
Vermutlihc bootet das ESXi nicht mehr... bei so einer Latte Fehlermeldungen ist es auch nicht unbedingt zielführend, das Dateisystem auf Fehler zu durchsuchen. Ich würde da mal eine Rettingsinstallation probieren

- Festplatten vom Raidcontroller trennen
- auf nem USB Stick ein neues ESXI fertig installieren
- prüfen ob das soweit bootet daß man mit dem Managementprogramm von VMware draufkommt
- runterfahren, Festplatten wieder anschließen, wieder booten
- im VMware Verwaltungsprogramm nachgucken ob die Hardware erkannt wurde
- falls Controller und Festplatten erkannt sind, in der Storage Verwaltung "auf neue Datenspeicher prüfen" und ggf. hinzufügen.

Wenn man damit auch noch Erfolg hatte, dann sollten die vorher schon existierenden VMFS Volumes erkannt werden und es sollte ein großes Volume mit VMFS3 oder neuer vorhanden sein. Die VMs kann man dann alle einzeln wieder hinzufügen.
dq28121989
dq28121989 26.08.2016 um 21:06:23 Uhr
Goto Top
So das System läuft wieder, das mit der Rettungsinstallation war ein guter Hinweis, konnte sämtliche Datenspeicher laden und auslesen, schien wohl irgendetwas im Dateisystem vom ESXi selbst geklemmt zu haben. Mit der USB-Stick Installtion konnte ich sehen, wie einfach ich die VMs wieder verwenden kann und habe mich entschlossen das System neu zu installieren. Bevor ich das gemacht habe, nutzte ich die Wiederherstellungsoption im ESXi Bootmenü mit erfolg und konnte mir die Neuinstallation sparen. Die komplette Konfiguration (vswitches, Resourcenpools, etc.) war leider weg aber es hat wieder funktioniert und ging schnell wieder einzurichten.

Sorry für die späte Rückmeldung und danke für die Ratschläge.

Gruß