geforce28
Goto Top

Esxi hängt sich unregelmäßig auf

Hallo!

Ich habe einen Dell Power Edge T110 II
Auf diesem ist auf einem usb Stick das Dell Custom Image vom esxi 5.5 U2 installiert!

Als Raid Controller habe ich einen Adaptec 6405e der im raid 10 mit 4x 3tb Platten konfiguriert ist!!

Nun zum eigentlichen Problem:
Die vm's hängen sich unregelmäßig auf!
Es Laufen insg 2x Win Server 2012 R2!
Diese lassen sich dann nicht mehr anpingen und sind auch nicht per vphere Client über die Konsole direkt erreichbar!
Wenn ich die Konsole öffne hängt sich sogar der ganze vsphere Client auf und muss neu gestartet werden!

Wenn ich unter Speicheradapter gehe in dem Moment wo er sich aufgegangen hat, kann ich den adaptec Controller sehen!
Drücke ich dann auf aktualisieren, hängt auch wieder der vpshere Client! Liegt es dann vielleicht am RAID Controller?!
Laut adaptec Support ist alles okay (die haben die Logs vom Controller bereits ausgewertet)

Welche Logs vom esxi host wären noch interessant um eventuell den Fehler einzugrenzen?
Ich habe mal durch ein paar Logs im /var/log/ Ordner geschaut! Leider verstehe ich davon relativ wenig weil mir da echt die Kenntnisse fehlen! Kann mir wer helfen??

Außerdem ist anzumerken, dass ich den esxi auch noch ganz normal währen des "Hängers" per ssh erreichen kann!
Ich kann den Host aber nicht neu starten, dabei hängt er dann ebenfalls!
Es musste also jedes Mal ein Hard reset gemacht werden!


Die Aussetzer sind wirklich unregelmäßig. Mal läuft es ne Woche durch, mal hängt er schon nach 1 Tag wieder!

Ich bin am Ende mit meinem Latein und brauche echt dringend eure Hilfe!
Vielen Dank im Voraus dafür!

Content-ID: 252663

Url: https://administrator.de/forum/esxi-haengt-sich-unregelmaessig-auf-252663.html

Ausgedruckt am: 25.12.2024 um 05:12 Uhr

broecker
broecker 21.10.2014 um 21:36:19 Uhr
Goto Top
Moin,
ich würde erstmal - weil es so einfach zu testen ist - einen Arbeitsspeichertest z.B. über 6 Stunden (z.B. am WE) laufen lassen (von CD "Memtest" aus z.B. Knoppix o.ä.), die Log-Dateien können schon auch sinnvoll helfen, insofern ist Dein Ansatz schon richtig, aber auch da wäre ein Eingrenzen natürlich hilfreich...
Also: z.B. wenn's der RAID-Controller ist, dürften böse SCSI-Lesefehler in /var/log/syslog.log oder gar (in der Phase der laufenden VMs) in vmkernel.log zu finden sein: mit cat kann man die ja ausgeben, mit grep oder less (alles Linux-Einsteigersachen) nach Begriffen darin suchen und "Error" hilft da schon als Suchbegriff.
Ist der Fehler in Wirklichkeit im Betrieb der VMs zu suchen (also eher deren "Bluescreen" oder andersartiges hängen) könnte in den log-Dateien zu den VMs etwas zu finden sein: /vmfs/Volumes/Datastore1/NameDerVM/NameDerVM.log - da oder je nach Datastore-Name so ähnlich könnten Timeouts, IRQ-Fehler o.ä. zu finden sein.
Bei den früheren Versionen gab's mittlerweile hier im Forum mehrere Beiträge zu der Verwendung der falschen virtuellen Netzwerkkarten, da wird's aber zu 5.5U2 sicher noch nichts valides zu finden geben... - vielleicht die KBs von VMware also darauf absuchen?
Gezielt draufgucken würde ich zwar - aber dann wohl gegen Honorar face-wink
HG
Mark
broecker
broecker 21.10.2014 um 23:17:36 Uhr
Goto Top
Aus Nachricht zum Mitlesen:
Moin,
nein, ich hatte das jetzt tatsächlich als kommerziell betriebenes System gedeutet, sorry, die Logs habe ich eben quergelesen, die Fehlermeldungen sind alle ok, "unsupportete Hardware" - daher kommt's sicher nicht, wenn der Server 24/7 läuft.
Da sollte man bei den Temperatur-Sensoren ggf. mit Treibern - auch bei ESXi - noch was machen - aber das hat nichts mit dem aktuellen Problem zu tun.
War gegen "2014-10-21T15:39:50" der letzte Neustart oder dort ein "Hänger"? Spannender wären die Logs natürlich unmittelbar nach einem Stillstand und dann wohl (auch) die VM.log-Dateien (also im Datastore)?
Wo's privat ist, wie schon geschrieben - dann natürlich auch unter der Woche - ist ja niemand unbeteiligtes abhängig, Memtest einfach auf Verdacht laufen lassen!
HG
Mark
geforce28
geforce28 21.10.2014 um 23:29:51 Uhr
Goto Top
Hallo nochmal und danke erstmal.

Also der Asufall war tatsächlich um die Besagte Zeit um 15:39:50, heute am 21.10.
Die Logs habe ich auch direkt gezogen, nachdem der Server wieder neugestartet war.
Der Neustart des Servers war so um ca 18:00, kann auch 18:30 gewesen sein.

Memtest werde ich morgen mal durchrennen lassen, aber ist ja auch ECC Ram, sollte da wirklich der Ram Schuld sein, würde dann nicht auch der Host an sich hängen und nicht nur die VM's ??

Verdächtig finde ich ja das Phänomen, dass wenn ich auf Speichergeräte im Vphere Client gehe, während er steht und dann die Liste aktualisiere, dass er sich dann auch nochmal aufhängt....

Achso und das der Raid Controller defekt ist halte ich eigetnlich für ausgeschlossen, ist nagelneu das Ding und auch von Adaptec wurden ja schon die Logs vom Controller ausgewertet und nichts auffälliges festgestellt.
broecker
broecker 21.10.2014 um 23:50:41 Uhr
Goto Top
ECC: stimmt schon, Meldungen sollten dann vor allem auch im im WatchDog-System und evt. im BIOS vom Server zu sehen sein, häng doch für alle hier noch die VM-Logs mit in die ZIP rein, wenn die Zeiten des letzten Stillstands schon so klar sind, kann man sie ja dort auch gut vergleichen...
Der Aufhänger im viClient wundert mich leider weniger bzw. dem messe ich hier wenig Bedeutung bei, weil ich das auch im Alltag nicht gerade als stabil erlebe face-sad
Oh: eines kann man tatsächlich noch kontrollieren und würde das Verhalten auch erklären, ich kenne von IBM-Maschinen ein Phänomen, daß, wenn man im BIOS den Cache des Prozessors/der Prozessoren von Default Write-Back auf (schneller) Write-Through stellt, ESXi gar nicht mehr stabil läuft, danach bitte ggf. 'mal suchen...
HG
Mark
108012
108012 22.10.2014 um 01:57:05 Uhr
Goto Top
Hallo,

Ich habe einen Dell Power Edge T110 II
Mit einem E3 Xeon 3,1 GHz und wie viel ECC RAM bitte genau?

Auf diesem ist auf einem usb Stick das Dell Custom Image vom esxi 5.5 U2 installiert!
Worauf werden denn die OS Logs geschrieben? Verschluckt der sich eventuell?
Auch auf den USB Stick?
Wie schnell und wie groß ist der USB Stick denn?

Als Raid Controller habe ich einen Adaptec 6405e
Ist der Cache eventuell zu klein?

der im raid 10 mit 4x 3tb Platten konfiguriert ist!!
Nicht genug IOPS durch zu wenige HDDs?
Nicht genug Geschwindigkeit durch zu große HDDs?
Kein extra RAID5 für die Logs der DBs die in den VMs laufen?
Einfach zu langsame HDDs (SATA und nicht SAS mit 10k oder 15k)?
Die Hardware ist nicht performant genug für die gesamten Zugriffe, kann das sein?
Zu wenig RAM bzw. kein ECC RAM oder zu wenig "CPU Cores" bzw. Performance (E5)?

Die Aussetzer sind wirklich unregelmäßig.
Mal läuft es ne Woche durch, mal hängt er schon nach 1 Tag wieder!
RAM voll? Cache voll? USB Stick hängt,........

Ich bin am Ende mit meinem Latein und brauche echt dringend eure Hilfe!
Wir haben doch schon alle zusammen hier im Forum und zwar vorher darüber gesprochen
was man und wie man es angehen sollte? Und nun drückt der Schuh und alles muss schnell
gehen? Naja das Geld sitzt den Leuten halt nicht mehr so locker, das verstehe ich schon nur
laufen muss es doch auch oder nicht?

Also Datenbanken, egal ob nun direkt auf dem Blech oder in der VM sind schon etwas anderes
als einfach nur ein DC oder ein Fileserver in einer VM und sicherlich haben die eben auch andere
Anforderungen hinsichtlich der Hardware.

Gruß
Dobby
geforce28
geforce28 22.10.2014 aktualisiert um 08:19:00 Uhr
Goto Top
Vielleicht sollte ich noch anmerken, dass es sich hier um einen Privaten Heimserver für mich und meine Familie handelt. (4 Clients)
Denke kam, dass die Hardware hier an ihre Grenzen stößt und das groß mehr notwendig ist.
Selbst wenn der Cache zu klein ist beim Raid Controller, dann stürzt das System doch nicht ab ??

Ja die Logs werden auch auf dem USB Stick geschrieben, dies ist ein ganz normaler USB 2.0 Stick. Aber wie gesagt, es hängen sich nur die VM's, auf.
Wenn es Probleme mit den Logs geben sollte, würde ja auch der ganze Host hängen.

Ram ist 16GB ECC Ram verbaut, standartmäßig von Dell...

Logs habe ich hier:
https://mega.co.nz/#!RYYQAJrB!TK-bpZP1GtWRhWvJQrBRDtURfPXbmz0RlRmRtYZhMu ...

EDIT:
USB Stick ist überigens folgendeR:
http://www.amazon.de/Transcend-Extreme-Speed-USB-Stick-Frustfreie-Verpa ...
(Ultra Speed) sollte eig reichen für son Host, der sich eh nur 1x in den Ram lädt oder ?? (Habe ich zumindest angenommen)
Aber wie gesagt, der Host an sich hängt ja eigentlich nicht!


EDIT2:
@broecker:
So wo im Bios soll jetzt was eingestellt werden?
Habe die Optionen:
Virtualization Technology - Enabled
Hardware Prefetcher - Enabled
Adjacent Cache Line Prefetch - Enabled
DCU IP Prefetch - Enabled
DCU Streamer Prefetcher - Enabled
Execute Disable - Enabled
Number of Cores per Processor - ALL
Turbo Mode - Enabled
C States - Enabled

Sollte ich da was ändern ?
Teck90
Teck90 22.10.2014 aktualisiert um 09:45:20 Uhr
Goto Top
Moin geforce28,

Die vm's hängen sich unregelmäßig auf!
Es Laufen insg 2x Win Server 2012 R2!
Diese lassen sich dann nicht mehr anpingen und sind auch nicht per vphere Client über die Konsole direkt erreichbar!
Wenn ich die Konsole öffne hängt sich sogar der ganze vsphere Client auf und muss neu gestartet werden!

Welchen Ethernet-Adaptertyp hast du für die 2012er Server ausgewählt? Soweit ich weiß machen der E1000 und E1000E Probleme und es kann zu solchen "Hängern" kommen

Außerdem ist anzumerken, dass ich den esxi auch noch ganz normal währen des "Hängers" per ssh erreichen kann!
Ich kann den Host aber nicht neu starten, dabei hängt er dann ebenfalls!
Es musste also jedes Mal ein Hard reset gemacht werden

Hast du schon versucht per SSH die Management Agents neuzustarten?

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&am ...
geforce28
geforce28 22.10.2014 um 09:53:47 Uhr
Goto Top
Adaptertyp habe ich tatsächlich E1000E genommen, da dieser doch die beste Performance bringen soll oder ?!
Aber bist du dir sicher, dass dann gleich die ganze VM hängt und nicht nur das Netzwerk ?!
Ich werde mal eine meiner VM's auf einen anderen Typ umstellen und dann berichten, ob dann nur noch die eine Ausfällt beim nächsten Ausfall.
Darf ich fragen, woher du diese Informationen nimmst ?


Per SSH habe ich noch nicht versucht die Management Agents neuzustarten.
Werde ich dann auch mal tun beim nächsten Hänger.

Vielen Dank erstmal !
geforce28
geforce28 22.10.2014 um 09:57:40 Uhr
Goto Top
So also ich habe den "hänger" jetzt mal repoduzieren können.
Habe gerade mal auf meinem DC das Laufwerk C:\ überprüfen lassen mittels der Windows Boardmittel.
Und dabei hat es sich doch tatsächlich aufgehangen !?

Hatte vorher eine Debian Maschiene noch zusäztlich hinzugefügt, welche nun immer noch ansprechbar ist.
Die 2. Win Server 2012 VM, auf der keine Überprüfung des Laufwerkes durchgeführt wurde, hängt jetzt nun ebenfalls.

Was soll ich nun tun ?
Teck90
Teck90 22.10.2014 um 10:38:46 Uhr
Goto Top
Das hab ich unter anderen von zwei Kollegen schon unabhängig gehört
Hier noch der Link wo das auch beschrieben wird.

http://vmware-forum.de/viewtopic.php?t=29324

Allerdings wird auch gesagt das es mit der 5.5 U2 behoben sein soll die du ja schon hast.
geforce28
geforce28 22.10.2014 aktualisiert um 10:46:38 Uhr
Goto Top
Okay, also ich habe nun festgestellt, dass ich doch nicht auf mein Debian System draufkomme während des Hängers.
Wahrscheinlich ist die Maschiene nur noch UP, weil Linux ja so viel im Ram arbeitet.
Ich kann jedenfalls drauf SSH'n und auch Benutzername und Passwort eingeben aber mehr passiert nicht. Weiter gehts auch nicht.
Maschiene ist aber wie gesagt auch zusätzlich noch die ganze Zeit via Ping erreichbar.

Habe nun per SSH auf dem ESXI Host "services.sh restart" eingegeben und jetzt ist er ganz weg.
Ping geht noch afu den ESXI Host und das wars auch. Kein SSH, kein Vsphere client, ist weg.


"
~ # services.sh restart
Running xorg stop
Running sfcbd stop
This operation is not supported.
Please use /etc/init.d/sfcbd-watchdog stop
Running wsman stop
Stopping openwsmand
Running snmpd stop
Running sfcbd-watchdog stop
sfcbd cannot be stopped, please try again.
Running vpxa stop
watchdog-vpxa: Terminating watchdog process with PID 34325
vpxa stopped.
Running vobd stop
watchdog-vobd: Terminating watchdog process with PID 33191
vobd stopped
Running lacp stop
watchdog-net-lacp: Terminating watchdog process with PID 33382
Running memscrubd stop
memscrubd is not running
Running smartd stop
watchdog-smartd: Terminating watchdog process with PID 34251
smartd stopped
Running dcbd stop
watchdog-dcbd: Terminating watchdog process with PID 34212
Running cdp stop
watchdog-cdp: Terminating watchdog process with PID 34169
Running nscd stop
watchdog-nscd: Terminating watchdog process with PID 34091
Running slpd stop
Stopping slpd
Running storageRM stop
watchdog-storageRM: Terminating watchdog process with PID 33990
storageRM stopped
Running hostd stop
watchdog-hostd: Terminating watchdog process with PID 33949
hostd stopped.
Running vmfstraced stop
watchdog-vmfstracegd: PID file /var/run/vmware/watchdog-vmfstracegd.PID does not exist
watchdog-vmfstracegd: Unable to terminate watchdog: No running watchdog process for vmfstracegd
vmfstracegd is not running
Failed to clear vmfstracegd memory reservation
Running lbtd stop
watchdog-net-lbt: Terminating watchdog process with PID 33880
net-lbt stopped
Running sdrsInjector stop
watchdog-sdrsInjector: Terminating watchdog process with PID 33844
sdrsInjector stopped
Running rhttpproxy stop
watchdog-rhttpproxy: Terminating watchdog process with PID 33792
rhttpproxy stopped.
Running sensord stop
sensord is not running
Running usbarbitrator stop
watchdog-usbarbitrator: Terminating watchdog process with PID 33731
usbarbitrator stopped
Running DCUI stop
Disabling DCUI logins
VobUserLib_Init failed with -1
Running SSH stop
SSH login disabled
VobUserLib_Init failed with -1
Connect to localhost failed: Connection failure
Errors:
Invalid operation requested: This ruleset is required and connot be disabled
Running vsantraced stop
watchdog-vsantraced: Terminating watchdog process with PID 33624
vsantraced stopped
watchdog-vsantracedUrgen: Terminating watchdog process with PID 33653
vsantracedUrgen stopped
Persisting traces to /locker/vsantraces
"

weiter kam er nicht und hängt bis jetzt
geforce28
geforce28 22.10.2014 um 12:01:18 Uhr
Goto Top
Kurzes Update.
War bis vor paar Minuten immer noch aufgehangen.
Habe dann mal wieder einen Hard-Reset gemacht und dann auch mal was interesssantes gefunden:
Anscheinend waren bei mir 2 unterschiedliche Versionen von VM-Ware Tools installiert.
(Version 9.4.0.1280544 und Version 9.4.5.1598834)
Habe jetzt beide einmal deinstalliert und die neuste installiert. Vielleicht hat es ja daran schon gelegen !? Die Zeit wird es zeigen.

Das mit der Festplattenüberprüfung war anscheinend nicht der Auslöser für den letzten Hänger, habe jetzt nochmal die Überprüfung durchführen lassen und da ging alles problemlos durch.
Mike-M
Mike-M 22.10.2014 um 14:48:01 Uhr
Goto Top
Hallo gforce28,

ich muss Teck90 Recht geben. Wir hatten das Problem genauso, und sind über eien Artikel mit den Netzwerkkarten E1000E gestossen. Danach haben wir die Virtuelle Karten getauscht in VMXNET3. Seitdem hatten wir keine Probleme mehr.

Mike
geforce28
geforce28 22.10.2014 um 15:07:36 Uhr
Goto Top
Alles klar, super das hört sich ja sehr vielversprechend an.
HAbe jetzt mal getauscht auf VMXNET3.

Ich werde berichten !!
geforce28
geforce28 28.10.2014 um 12:18:07 Uhr
Goto Top
Kurze Rückmeldung:

Bis jetzt keinen Hänger gehabt, scheint wohl echt mit VMXNET3 besser zu laufen.
Ich warte jetzt mal noch ein paar Tage ab, dann sollte es sicher sein, dass es daran lag face-smile
Vielen Dank für die tolle Hilfe hier.
geforce28
geforce28 09.11.2014 um 19:06:20 Uhr
Goto Top
So also bis heute lief alles gut!
Dann jetzt gerade ein Ausfall
geforce28
geforce28 09.11.2014 um 20:26:55 Uhr
Goto Top
Also es scheint am Adaptec Raid Controller zu liegen... !
Er hat sich jetzt nachdem ich ihn wieder eingeschaltet habe schon wieder aufgehangen.

Dann habe ich per SSH mal ein "df -h" versucht und dabei hing er sich auch auf.
Danach habe ich mal versucht per ssh auf den Raid zuzugriefen und es funktioniert nicht... ! (dabei hängt er sich auch auf)

Platten sind alle neu und der Raid Controller zeigt auch Status Optimal an ! (Raid 10 ist konfiguriert)
Treiber ist der aktuelle "AACRAID Driver v1.2.1-40301 for VMware " installiert.
rc-computer
rc-computer 30.10.2015 um 21:08:25 Uhr
Goto Top
Auch wenn das sehr spät kommt, aber du könntest mal über die Zeit schauen wie sich der Diskspass verhält die Tage. Wir hatten bei Adaptec Cards immer das Problem das sich die Logs aufgebläht haben, bis die 100% erreicht wurden.

Wir schreiben in die /etc/rc.local.d/local.sh immer:
/bin/rm /var/log/arcconf.log 2> /dev/null; /bin/ln -s /dev/null /var/log/arcconf.log
/bin/rm /var/log/arcerror.txt 2> /dev/null; /bin/ln -s /dev/null /var/log/arcerror.txt
/bin/rm /tmp/arcconf.log 2> /dev/null; /bin/ln -s /dev/null /tmp/arcconf.log

VG
Johannes
geforce28
geforce28 31.10.2015 um 10:12:36 Uhr
Goto Top
Kurze Rückmeldung von mir auch dann noch dazu.

Ich setze ich den Dell Servern nun ausschließlich LSI Megaraid Controller ein, mit denen gab es die besagten Probleme nicht.

Der Adaptec Controller, welcher solche Probleme bereitete habe ich in einem HP Server umgezogen, auch mit ESXI, wo er keine Probleme mehr macht...