Esxi hängt sich unregelmäßig auf
Hallo!
Ich habe einen Dell Power Edge T110 II
Auf diesem ist auf einem usb Stick das Dell Custom Image vom esxi 5.5 U2 installiert!
Als Raid Controller habe ich einen Adaptec 6405e der im raid 10 mit 4x 3tb Platten konfiguriert ist!!
Nun zum eigentlichen Problem:
Die vm's hängen sich unregelmäßig auf!
Es Laufen insg 2x Win Server 2012 R2!
Diese lassen sich dann nicht mehr anpingen und sind auch nicht per vphere Client über die Konsole direkt erreichbar!
Wenn ich die Konsole öffne hängt sich sogar der ganze vsphere Client auf und muss neu gestartet werden!
Wenn ich unter Speicheradapter gehe in dem Moment wo er sich aufgegangen hat, kann ich den adaptec Controller sehen!
Drücke ich dann auf aktualisieren, hängt auch wieder der vpshere Client! Liegt es dann vielleicht am RAID Controller?!
Laut adaptec Support ist alles okay (die haben die Logs vom Controller bereits ausgewertet)
Welche Logs vom esxi host wären noch interessant um eventuell den Fehler einzugrenzen?
Ich habe mal durch ein paar Logs im /var/log/ Ordner geschaut! Leider verstehe ich davon relativ wenig weil mir da echt die Kenntnisse fehlen! Kann mir wer helfen??
Außerdem ist anzumerken, dass ich den esxi auch noch ganz normal währen des "Hängers" per ssh erreichen kann!
Ich kann den Host aber nicht neu starten, dabei hängt er dann ebenfalls!
Es musste also jedes Mal ein Hard reset gemacht werden!
Die Aussetzer sind wirklich unregelmäßig. Mal läuft es ne Woche durch, mal hängt er schon nach 1 Tag wieder!
Ich bin am Ende mit meinem Latein und brauche echt dringend eure Hilfe!
Vielen Dank im Voraus dafür!
Ich habe einen Dell Power Edge T110 II
Auf diesem ist auf einem usb Stick das Dell Custom Image vom esxi 5.5 U2 installiert!
Als Raid Controller habe ich einen Adaptec 6405e der im raid 10 mit 4x 3tb Platten konfiguriert ist!!
Nun zum eigentlichen Problem:
Die vm's hängen sich unregelmäßig auf!
Es Laufen insg 2x Win Server 2012 R2!
Diese lassen sich dann nicht mehr anpingen und sind auch nicht per vphere Client über die Konsole direkt erreichbar!
Wenn ich die Konsole öffne hängt sich sogar der ganze vsphere Client auf und muss neu gestartet werden!
Wenn ich unter Speicheradapter gehe in dem Moment wo er sich aufgegangen hat, kann ich den adaptec Controller sehen!
Drücke ich dann auf aktualisieren, hängt auch wieder der vpshere Client! Liegt es dann vielleicht am RAID Controller?!
Laut adaptec Support ist alles okay (die haben die Logs vom Controller bereits ausgewertet)
Welche Logs vom esxi host wären noch interessant um eventuell den Fehler einzugrenzen?
Ich habe mal durch ein paar Logs im /var/log/ Ordner geschaut! Leider verstehe ich davon relativ wenig weil mir da echt die Kenntnisse fehlen! Kann mir wer helfen??
Außerdem ist anzumerken, dass ich den esxi auch noch ganz normal währen des "Hängers" per ssh erreichen kann!
Ich kann den Host aber nicht neu starten, dabei hängt er dann ebenfalls!
Es musste also jedes Mal ein Hard reset gemacht werden!
Die Aussetzer sind wirklich unregelmäßig. Mal läuft es ne Woche durch, mal hängt er schon nach 1 Tag wieder!
Ich bin am Ende mit meinem Latein und brauche echt dringend eure Hilfe!
Vielen Dank im Voraus dafür!
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 252663
Url: https://administrator.de/contentid/252663
Ausgedruckt am: 22.11.2024 um 13:11 Uhr
19 Kommentare
Neuester Kommentar
Moin,
ich würde erstmal - weil es so einfach zu testen ist - einen Arbeitsspeichertest z.B. über 6 Stunden (z.B. am WE) laufen lassen (von CD "Memtest" aus z.B. Knoppix o.ä.), die Log-Dateien können schon auch sinnvoll helfen, insofern ist Dein Ansatz schon richtig, aber auch da wäre ein Eingrenzen natürlich hilfreich...
Also: z.B. wenn's der RAID-Controller ist, dürften böse SCSI-Lesefehler in /var/log/syslog.log oder gar (in der Phase der laufenden VMs) in vmkernel.log zu finden sein: mit cat kann man die ja ausgeben, mit grep oder less (alles Linux-Einsteigersachen) nach Begriffen darin suchen und "Error" hilft da schon als Suchbegriff.
Ist der Fehler in Wirklichkeit im Betrieb der VMs zu suchen (also eher deren "Bluescreen" oder andersartiges hängen) könnte in den log-Dateien zu den VMs etwas zu finden sein: /vmfs/Volumes/Datastore1/NameDerVM/NameDerVM.log - da oder je nach Datastore-Name so ähnlich könnten Timeouts, IRQ-Fehler o.ä. zu finden sein.
Bei den früheren Versionen gab's mittlerweile hier im Forum mehrere Beiträge zu der Verwendung der falschen virtuellen Netzwerkkarten, da wird's aber zu 5.5U2 sicher noch nichts valides zu finden geben... - vielleicht die KBs von VMware also darauf absuchen?
Gezielt draufgucken würde ich zwar - aber dann wohl gegen Honorar
HG
Mark
ich würde erstmal - weil es so einfach zu testen ist - einen Arbeitsspeichertest z.B. über 6 Stunden (z.B. am WE) laufen lassen (von CD "Memtest" aus z.B. Knoppix o.ä.), die Log-Dateien können schon auch sinnvoll helfen, insofern ist Dein Ansatz schon richtig, aber auch da wäre ein Eingrenzen natürlich hilfreich...
Also: z.B. wenn's der RAID-Controller ist, dürften böse SCSI-Lesefehler in /var/log/syslog.log oder gar (in der Phase der laufenden VMs) in vmkernel.log zu finden sein: mit cat kann man die ja ausgeben, mit grep oder less (alles Linux-Einsteigersachen) nach Begriffen darin suchen und "Error" hilft da schon als Suchbegriff.
Ist der Fehler in Wirklichkeit im Betrieb der VMs zu suchen (also eher deren "Bluescreen" oder andersartiges hängen) könnte in den log-Dateien zu den VMs etwas zu finden sein: /vmfs/Volumes/Datastore1/NameDerVM/NameDerVM.log - da oder je nach Datastore-Name so ähnlich könnten Timeouts, IRQ-Fehler o.ä. zu finden sein.
Bei den früheren Versionen gab's mittlerweile hier im Forum mehrere Beiträge zu der Verwendung der falschen virtuellen Netzwerkkarten, da wird's aber zu 5.5U2 sicher noch nichts valides zu finden geben... - vielleicht die KBs von VMware also darauf absuchen?
Gezielt draufgucken würde ich zwar - aber dann wohl gegen Honorar
HG
Mark
Aus Nachricht zum Mitlesen:
Moin,
nein, ich hatte das jetzt tatsächlich als kommerziell betriebenes System gedeutet, sorry, die Logs habe ich eben quergelesen, die Fehlermeldungen sind alle ok, "unsupportete Hardware" - daher kommt's sicher nicht, wenn der Server 24/7 läuft.
Da sollte man bei den Temperatur-Sensoren ggf. mit Treibern - auch bei ESXi - noch was machen - aber das hat nichts mit dem aktuellen Problem zu tun.
War gegen "2014-10-21T15:39:50" der letzte Neustart oder dort ein "Hänger"? Spannender wären die Logs natürlich unmittelbar nach einem Stillstand und dann wohl (auch) die VM.log-Dateien (also im Datastore)?
Wo's privat ist, wie schon geschrieben - dann natürlich auch unter der Woche - ist ja niemand unbeteiligtes abhängig, Memtest einfach auf Verdacht laufen lassen!
HG
Mark
Moin,
nein, ich hatte das jetzt tatsächlich als kommerziell betriebenes System gedeutet, sorry, die Logs habe ich eben quergelesen, die Fehlermeldungen sind alle ok, "unsupportete Hardware" - daher kommt's sicher nicht, wenn der Server 24/7 läuft.
Da sollte man bei den Temperatur-Sensoren ggf. mit Treibern - auch bei ESXi - noch was machen - aber das hat nichts mit dem aktuellen Problem zu tun.
War gegen "2014-10-21T15:39:50" der letzte Neustart oder dort ein "Hänger"? Spannender wären die Logs natürlich unmittelbar nach einem Stillstand und dann wohl (auch) die VM.log-Dateien (also im Datastore)?
Wo's privat ist, wie schon geschrieben - dann natürlich auch unter der Woche - ist ja niemand unbeteiligtes abhängig, Memtest einfach auf Verdacht laufen lassen!
HG
Mark
ECC: stimmt schon, Meldungen sollten dann vor allem auch im im WatchDog-System und evt. im BIOS vom Server zu sehen sein, häng doch für alle hier noch die VM-Logs mit in die ZIP rein, wenn die Zeiten des letzten Stillstands schon so klar sind, kann man sie ja dort auch gut vergleichen...
Der Aufhänger im viClient wundert mich leider weniger bzw. dem messe ich hier wenig Bedeutung bei, weil ich das auch im Alltag nicht gerade als stabil erlebe
Oh: eines kann man tatsächlich noch kontrollieren und würde das Verhalten auch erklären, ich kenne von IBM-Maschinen ein Phänomen, daß, wenn man im BIOS den Cache des Prozessors/der Prozessoren von Default Write-Back auf (schneller) Write-Through stellt, ESXi gar nicht mehr stabil läuft, danach bitte ggf. 'mal suchen...
HG
Mark
Der Aufhänger im viClient wundert mich leider weniger bzw. dem messe ich hier wenig Bedeutung bei, weil ich das auch im Alltag nicht gerade als stabil erlebe
Oh: eines kann man tatsächlich noch kontrollieren und würde das Verhalten auch erklären, ich kenne von IBM-Maschinen ein Phänomen, daß, wenn man im BIOS den Cache des Prozessors/der Prozessoren von Default Write-Back auf (schneller) Write-Through stellt, ESXi gar nicht mehr stabil läuft, danach bitte ggf. 'mal suchen...
HG
Mark
Hallo,
Auch auf den USB Stick?
Wie schnell und wie groß ist der USB Stick denn?
Nicht genug Geschwindigkeit durch zu große HDDs?
Kein extra RAID5 für die Logs der DBs die in den VMs laufen?
Einfach zu langsame HDDs (SATA und nicht SAS mit 10k oder 15k)?
Die Hardware ist nicht performant genug für die gesamten Zugriffe, kann das sein?
Zu wenig RAM bzw. kein ECC RAM oder zu wenig "CPU Cores" bzw. Performance (E5)?
was man und wie man es angehen sollte? Und nun drückt der Schuh und alles muss schnell
gehen? Naja das Geld sitzt den Leuten halt nicht mehr so locker, das verstehe ich schon nur
laufen muss es doch auch oder nicht?
Also Datenbanken, egal ob nun direkt auf dem Blech oder in der VM sind schon etwas anderes
als einfach nur ein DC oder ein Fileserver in einer VM und sicherlich haben die eben auch andere
Anforderungen hinsichtlich der Hardware.
Gruß
Dobby
Ich habe einen Dell Power Edge T110 II
Mit einem E3 Xeon 3,1 GHz und wie viel ECC RAM bitte genau?Auf diesem ist auf einem usb Stick das Dell Custom Image vom esxi 5.5 U2 installiert!
Worauf werden denn die OS Logs geschrieben? Verschluckt der sich eventuell?Auch auf den USB Stick?
Wie schnell und wie groß ist der USB Stick denn?
Als Raid Controller habe ich einen Adaptec 6405e
Ist der Cache eventuell zu klein?der im raid 10 mit 4x 3tb Platten konfiguriert ist!!
Nicht genug IOPS durch zu wenige HDDs?Nicht genug Geschwindigkeit durch zu große HDDs?
Kein extra RAID5 für die Logs der DBs die in den VMs laufen?
Einfach zu langsame HDDs (SATA und nicht SAS mit 10k oder 15k)?
Die Hardware ist nicht performant genug für die gesamten Zugriffe, kann das sein?
Zu wenig RAM bzw. kein ECC RAM oder zu wenig "CPU Cores" bzw. Performance (E5)?
Die Aussetzer sind wirklich unregelmäßig.
Mal läuft es ne Woche durch, mal hängt er schon nach 1 Tag wieder!
RAM voll? Cache voll? USB Stick hängt,........Mal läuft es ne Woche durch, mal hängt er schon nach 1 Tag wieder!
Ich bin am Ende mit meinem Latein und brauche echt dringend eure Hilfe!
Wir haben doch schon alle zusammen hier im Forum und zwar vorher darüber gesprochenwas man und wie man es angehen sollte? Und nun drückt der Schuh und alles muss schnell
gehen? Naja das Geld sitzt den Leuten halt nicht mehr so locker, das verstehe ich schon nur
laufen muss es doch auch oder nicht?
Also Datenbanken, egal ob nun direkt auf dem Blech oder in der VM sind schon etwas anderes
als einfach nur ein DC oder ein Fileserver in einer VM und sicherlich haben die eben auch andere
Anforderungen hinsichtlich der Hardware.
Gruß
Dobby
Moin geforce28,
Welchen Ethernet-Adaptertyp hast du für die 2012er Server ausgewählt? Soweit ich weiß machen der E1000 und E1000E Probleme und es kann zu solchen "Hängern" kommen
Hast du schon versucht per SSH die Management Agents neuzustarten?
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&am ...
Die vm's hängen sich unregelmäßig auf!
Es Laufen insg 2x Win Server 2012 R2!
Diese lassen sich dann nicht mehr anpingen und sind auch nicht per vphere Client über die Konsole direkt erreichbar!
Wenn ich die Konsole öffne hängt sich sogar der ganze vsphere Client auf und muss neu gestartet werden!
Es Laufen insg 2x Win Server 2012 R2!
Diese lassen sich dann nicht mehr anpingen und sind auch nicht per vphere Client über die Konsole direkt erreichbar!
Wenn ich die Konsole öffne hängt sich sogar der ganze vsphere Client auf und muss neu gestartet werden!
Welchen Ethernet-Adaptertyp hast du für die 2012er Server ausgewählt? Soweit ich weiß machen der E1000 und E1000E Probleme und es kann zu solchen "Hängern" kommen
Außerdem ist anzumerken, dass ich den esxi auch noch ganz normal währen des "Hängers" per ssh erreichen kann!
Ich kann den Host aber nicht neu starten, dabei hängt er dann ebenfalls!
Es musste also jedes Mal ein Hard reset gemacht werden
Ich kann den Host aber nicht neu starten, dabei hängt er dann ebenfalls!
Es musste also jedes Mal ein Hard reset gemacht werden
Hast du schon versucht per SSH die Management Agents neuzustarten?
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&am ...
Das hab ich unter anderen von zwei Kollegen schon unabhängig gehört
Hier noch der Link wo das auch beschrieben wird.
http://vmware-forum.de/viewtopic.php?t=29324
Allerdings wird auch gesagt das es mit der 5.5 U2 behoben sein soll die du ja schon hast.
Hier noch der Link wo das auch beschrieben wird.
http://vmware-forum.de/viewtopic.php?t=29324
Allerdings wird auch gesagt das es mit der 5.5 U2 behoben sein soll die du ja schon hast.
Auch wenn das sehr spät kommt, aber du könntest mal über die Zeit schauen wie sich der Diskspass verhält die Tage. Wir hatten bei Adaptec Cards immer das Problem das sich die Logs aufgebläht haben, bis die 100% erreicht wurden.
Wir schreiben in die /etc/rc.local.d/local.sh immer:
/bin/rm /var/log/arcconf.log 2> /dev/null; /bin/ln -s /dev/null /var/log/arcconf.log
/bin/rm /var/log/arcerror.txt 2> /dev/null; /bin/ln -s /dev/null /var/log/arcerror.txt
/bin/rm /tmp/arcconf.log 2> /dev/null; /bin/ln -s /dev/null /tmp/arcconf.log
VG
Johannes
Wir schreiben in die /etc/rc.local.d/local.sh immer:
/bin/rm /var/log/arcconf.log 2> /dev/null; /bin/ln -s /dev/null /var/log/arcconf.log
/bin/rm /var/log/arcerror.txt 2> /dev/null; /bin/ln -s /dev/null /var/log/arcerror.txt
/bin/rm /tmp/arcconf.log 2> /dev/null; /bin/ln -s /dev/null /tmp/arcconf.log
VG
Johannes