Sporadischer Ausfall physischer und virtueller Server (VMWare 5.5) im Netzwerk (anpingbar aber sonst ohne Funktion)
Hallo Gemeinde,
seit ein paar Tagen haben wir in der Firma immer wieder das Problem, dass einige unserer VMWare Gast- Server einfach so "stehen" bleiben. Die Server sind zwar noch anpingbar, aber weder via RDP noch via VMWare Konsole reagieren diese auf Eingaben.
Auf den Hosts laufen weitere Maschinen, welche ganz normal reagieren. Wir haben 3 FSC Hosts in Verbindung mit einem FSC Storage mit Anschliuss via FibreChannel, auf denen wir bereits die aktuellste Version von ESXI/VMWare 5.5. eingespielt haben. Auch der VCenter 5.5 Server (weiterer phys. FSC Server) ist aktuell. Auf den Gast-Servern läuft Windows 2012 / Windows 2008 R2, auch hier sind die aktuellen Windows Updates drauf (auch ohne bleiben die Server hängen)...
Wir haben unsere Server - Switche 2 x HP-1910-48G im Verdacht, verstehen aber nicht, warum alle anderen (phys. und virtuellen) Server und andere Geräte, welche auch an diesen Switchen (ua. weitere Switche via LWL deren Funktion nicht beeinträchtigt ist) hängen weiter funktionieren. Bisher war es einmal so, dass auch 2 der 3 VM-Hosts und der phys. DC und VCenter Server nicht mehr via Management / RDP / Konsole erreichbar waren, hier hat dann ein Neustart des Management-Network bzw. des ganzen Servers geholfen.
Auch funktionieren die Server nach einem Neustart wieder einige Tage um dann ohne Vorwarnung wieder "stehen" zu bleiben. Alle Logs die man so anschauen kann, sowohl Windows als auch VM,Hardware und Switch Logs loggen keine Fehler mit. Laut FSC laufen die Server, nach Auswertung der Logs durch FSC ganz normal, nur das diese halt via Netz nicht mehr erreichbar sind und via Konsole nicht mehr reagieren.
Hat Jemand eine Idee was das sein könnte - ich habe nun schon einige Sachen (siehe unten) ausprobiert und mir gehen langsam die Ideen aus, was ich noch machen kann... Auch mein Dienstleister, welcher u.a. die Netzwerkkonfig. vorgenommen hat, hat keine sinnvolllen Ideen mehr. Mein letzter Gedanke ist eine Art Überlastung der Switche, denn wenn ich meine Datensicherung im vollem Umfang laufen lasse, geht das Ganze schneller und betrifft mehr als nur ein paar Server, welche dann nicht mehr reagieren und neu gestartet werden müssen...
Folgendes haben wir schon gemacht:
- einspielen der letzten VM Updates (ESXI und VCenter)
- einspielen letzte Firmware Updates HW (für einsenden der Logs an FSC Voraussetzung)
- einspielen aktuelle Windows Updates via WSUS
- Check der SAN Verbindung
- Check der Netzwerkverkabelung und Konfig an den Servern
- Check der Switchports auf Fehler / Fehlkonfig (hier gab es keine auch kein Konfigänderung)
- Check DNS / DHCP Konfig im AD
- Tausch der Switchports der ESXI-Hosts
Vielen Dank für euren Input...
Stoey20
seit ein paar Tagen haben wir in der Firma immer wieder das Problem, dass einige unserer VMWare Gast- Server einfach so "stehen" bleiben. Die Server sind zwar noch anpingbar, aber weder via RDP noch via VMWare Konsole reagieren diese auf Eingaben.
Auf den Hosts laufen weitere Maschinen, welche ganz normal reagieren. Wir haben 3 FSC Hosts in Verbindung mit einem FSC Storage mit Anschliuss via FibreChannel, auf denen wir bereits die aktuellste Version von ESXI/VMWare 5.5. eingespielt haben. Auch der VCenter 5.5 Server (weiterer phys. FSC Server) ist aktuell. Auf den Gast-Servern läuft Windows 2012 / Windows 2008 R2, auch hier sind die aktuellen Windows Updates drauf (auch ohne bleiben die Server hängen)...
Wir haben unsere Server - Switche 2 x HP-1910-48G im Verdacht, verstehen aber nicht, warum alle anderen (phys. und virtuellen) Server und andere Geräte, welche auch an diesen Switchen (ua. weitere Switche via LWL deren Funktion nicht beeinträchtigt ist) hängen weiter funktionieren. Bisher war es einmal so, dass auch 2 der 3 VM-Hosts und der phys. DC und VCenter Server nicht mehr via Management / RDP / Konsole erreichbar waren, hier hat dann ein Neustart des Management-Network bzw. des ganzen Servers geholfen.
Auch funktionieren die Server nach einem Neustart wieder einige Tage um dann ohne Vorwarnung wieder "stehen" zu bleiben. Alle Logs die man so anschauen kann, sowohl Windows als auch VM,Hardware und Switch Logs loggen keine Fehler mit. Laut FSC laufen die Server, nach Auswertung der Logs durch FSC ganz normal, nur das diese halt via Netz nicht mehr erreichbar sind und via Konsole nicht mehr reagieren.
Hat Jemand eine Idee was das sein könnte - ich habe nun schon einige Sachen (siehe unten) ausprobiert und mir gehen langsam die Ideen aus, was ich noch machen kann... Auch mein Dienstleister, welcher u.a. die Netzwerkkonfig. vorgenommen hat, hat keine sinnvolllen Ideen mehr. Mein letzter Gedanke ist eine Art Überlastung der Switche, denn wenn ich meine Datensicherung im vollem Umfang laufen lasse, geht das Ganze schneller und betrifft mehr als nur ein paar Server, welche dann nicht mehr reagieren und neu gestartet werden müssen...
Folgendes haben wir schon gemacht:
- einspielen der letzten VM Updates (ESXI und VCenter)
- einspielen letzte Firmware Updates HW (für einsenden der Logs an FSC Voraussetzung)
- einspielen aktuelle Windows Updates via WSUS
- Check der SAN Verbindung
- Check der Netzwerkverkabelung und Konfig an den Servern
- Check der Switchports auf Fehler / Fehlkonfig (hier gab es keine auch kein Konfigänderung)
- Check DNS / DHCP Konfig im AD
- Tausch der Switchports der ESXI-Hosts
Vielen Dank für euren Input...
Stoey20
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 390318
Url: https://administrator.de/forum/sporadischer-ausfall-physischer-und-virtueller-server-vmware-5-5-im-netzwerk-anpingbar-aber-sonst-ohne-390318.html
Ausgedruckt am: 14.04.2025 um 03:04 Uhr
14 Kommentare
Neuester Kommentar
Moin,

Gruß,
Dani
Auf den Hosts laufen weitere Maschinen, welche ganz normal reagieren. Wir haben 3 FSC Hosts in Verbindung mit einem FSC SAN, auf denen wir bereits die aktuellste Version von ESXI/VMWare 5.5.
VMWare Support Case wird schwierig mit der Version - EoL, EoS. Wir haben unsere Server - Switche 2 x HP-1910-48G im Verdacht, verstehen aber nicht, warum alle anderen (phys. und virtuellen) Server und andere Geräte, welche auch an diesen Switchen (ua. weitere Switche via LWL deren Funktion nicht beeinträchtigt ist) hängen weiter funktionieren.
Erklär uns im Detail was auf den beiden Switches hängt. Sag bitte nicht, dass über der Datenverkehr LAN und/oder SAN laufen. Was nutzt ihr im SAN (iSCSI oder NFS)?Gruß,
Dani
Hallo,
schreib auch mal, wie die VMs ins Netzwerk eingebunden werden. Hat jede ihr Kabel oder einen virtuellen Switch? Haben die vielleicht mehrere Netzwerkinterfaces? Wie ist das LAN vom SAN getrennt?
Jedenfalls - Eventlogs der Server checken, auf Fehler und auf „was die in der Zeit so treiben“ Und die Switche überprüfen: STP? QOS?“
Grüße
lcer
schreib auch mal, wie die VMs ins Netzwerk eingebunden werden. Hat jede ihr Kabel oder einen virtuellen Switch? Haben die vielleicht mehrere Netzwerkinterfaces? Wie ist das LAN vom SAN getrennt?
Jedenfalls - Eventlogs der Server checken, auf Fehler und auf „was die in der Zeit so treiben“ Und die Switche überprüfen: STP? QOS?“
Grüße
lcer
Hallo,
anpingbar während eines Neustarts? Prüf mal, wen Du da anpingst.
Ansonsten, bei der Konfigurationphase von Windows Updates kann es zu ziemlich langen „Black Screen“ Zeiten kommen. Stehen Updates aus?
Was passiert, wenn Du Dich per KVM verbindest? Keine Verbindung oder schwarzer Bildschirm?
Grüße
lcer
anpingbar während eines Neustarts? Prüf mal, wen Du da anpingst.
Ansonsten, bei der Konfigurationphase von Windows Updates kann es zu ziemlich langen „Black Screen“ Zeiten kommen. Stehen Updates aus?
Was passiert, wenn Du Dich per KVM verbindest? Keine Verbindung oder schwarzer Bildschirm?
Grüße
lcer
Moin,
wenn die VM anpingbar ist, aber sonst nicht mehr "läuft" könnte das Problem auch vom Storage kommen. Was loggen denn die ESXi und/oder der vCenter zu dem Thema? Wie sehen die Disk-Latenzen aus?
Und was bisher auch noch nicht erwähnt wurde:
- Sind die VMWare Tools in den VMs aktuell?
- Haben die VMs noch eine e1000 vNIC konfiguriert? Wenn ja, umstellen auf vmxnet3
lg,
Slainte
wenn die VM anpingbar ist, aber sonst nicht mehr "läuft" könnte das Problem auch vom Storage kommen. Was loggen denn die ESXi und/oder der vCenter zu dem Thema? Wie sehen die Disk-Latenzen aus?
Und was bisher auch noch nicht erwähnt wurde:
- Sind die VMWare Tools in den VMs aktuell?
- Haben die VMs noch eine e1000 vNIC konfiguriert? Wenn ja, umstellen auf vmxnet3
lg,
Slainte