enriqe
Goto Top

ESXi 5 Server bleibt einfach stehen.

Hallo zusammen,

wieder einmal kämpfe ich mit einem Problem und diesmal ist es ESXi. Wir haben, obwohl wir nicht allzuviel Ahnung davon haben, vor ca. 2 Monaten unsere bislang auf VMWare Server 2 laufenden Server auf ESXi Plattformen umgezogen.
Es handelt sich um zwei ältere dual Xeon Server mit je 32 GB Ram und je einem 8 Kanal Adaptec 5805 Controller mit SAS Platten im RAID 5 und eine neue ESXi zertifizierte dual Xeon Maschine mit 48GB RAM und auch dem Adaptec Controller und SAS Platten im RAID 5 Verbund. Diese Maschine ist es jetzt auch, die uns Probleme bereitet. ESXi war vom Hersteller vorinstalliert und wir hatten es nur angepasst. (Leider weiß ich nicht, wie ich den Updatestand mit den anderen Maschinen vergleichen kann.)
Es laufen ein Windows 2003 Standard Server, Ein 2008 Server und ein 2008R2 Server auf dem ESXi und die bleiben in unregelmäßigen Abständen immer mal wieder stehen. (zw. einer Woche und 2-3 Tagen)
Auch das ESXi ist dann an der Konsole nur noch kurz erreichbar und macht dann auch den Eindruck, als bliebe es stehen. Ich glaube allerdings, dass es nur ausgelastet ist und die Server auch. Leider finde ich keine Möglichkeit zu sehen, ob es ausgelastet ist und wenn ja, was ausgelastet ist. Die Server sind aus dem Netz nicht mehr erreichbar und auch nicht mehr anzupingen. Über IPMI ist die Maschine weiterhin ganz normal erreichbar und die Sensorlogs melden nichts verdächtiges. Auch dei ESXi Konsole lässt sich über IPMI erreichen aber auch nicht bedienen. Mir bleibt dann nichts anderes übrig als einen Reset zu machen. Mir ist aufgefallen, dass es schon mehrmals passiert ist, dass gerade ein Backup gelaufen ist, als die Server stehen geblieben sind. Aber es ist nicht immer der Selbe Job gewesen und auch nicht immer der selbe Server der gesichert wurde. (BE läuft auf einer anderen ESXi Plattform und greift per Agent auf die Server zu. Einen Hardwarefehler schließe ich fast aus. RAM wurde schon einmal komplett getauscht da früher im IPMI LOG correctabe ECC Errors gemeldet wurden die aber eigentlich nicht kritisch sein sollten. Die sind jetzt auf jeden Fall weg aber das Problem besteht weiterhin. Für Platten Inkonzistenzen gibt es keine Anzeichen. Wenn die Server laufen ist auch die Performance gut.
Was mir auffällt ist, dass an diesem Server die Uhrzeit immer wieder falsch ist. (ESXi. Windows holt seine Zeit über die Domain. Der Controller läuft nicht auf dieser ESXi)
Die Performance Tabellen (Excel) sehen eher unausgelastet aus. CPUs bei ca 1 MHz, Betrieb gegen Null aber der Arbeitsspeicher ist beinahe so hoch wie zugeteilt. Ich weiß allerdings nicht, wie ich das deuten muss.
Ich weiß nicht mehr, was ich machen soll. Ich kann doch nicht alle paar Tage die Server abwürgen und neu starten. Zumal auch unser ERP System da läuft und obwohl die Datenbank gutmütig ist und sich jedesmal nach einem Indexaufbau wieder wohl fühlt, bleibt bei mir ein mulmiges Gefühl.
Wenn Irgend jemand Abhilfe weiß, ich wäre sehr dankbar für jeden Tipp.
Ich hoffe, ich habe die Situation genau beschrieben und nichts vergessen. Wenn doch, bin ich natürlich jederzeit zu einem Nachtrag bereit.
Danke schon mal im Voraus.

Gruß
Enriqe

Content-ID: 180480

Url: https://administrator.de/contentid/180480

Ausgedruckt am: 24.11.2024 um 12:11 Uhr

nEmEsIs
nEmEsIs 13.02.2012 um 21:14:53 Uhr
Goto Top
Hi
Also den Updatestand kannst du anhand der Nummer in der Console oder im vSphere erkennen (Hinter ESXi 5.0 ***) Das ist die Build Nr.

(Nenne mal die Nummer dann kann man nachsehen, ob ein update verfügbar ist)

Setzt ihr vCenter ein ???

Worauf ist der ESXi bei dem Server installiert ??? USB CF HDD ????

Mit was machst du Backup´s, da du ja schreibst das es beim Backupen passiert.
Somit tun sich bei mir zwei Dinge auf, das eine die Backups werden wahrscheinlich via snapshot gemacht oder ??? Das zweite ist wieviele Netzwerkkarten hängen an dem Server , da du ja schreibst, dass die Backup´s der VM´s auf einen anderen ESXi kopiert werden.


Könnte Netzwerklast euer Problem sein ???

Hast du mal ein wenig gewartet bzw. wie lange hast du am längsten gewartet, bis du den ESXi resetet hast ??? Weil 3 VM´s mit so jeder mal so als Schätzwert 100 GB und mehr brauchen über ne Gbitverbindung zu sichern schon etwas Zeit ...

Schonmal im vSphere in Performance geschaut, da kann man sich anzeigen lassen was wie stark belastet ist. (CPU usw. kann man oben rechts auswählen.)

MfG Nemesis

PS: Absätze schaden nicht sie machen einem das lesen einfacher.... als ein Textblock.
60730
60730 13.02.2012 um 21:48:30 Uhr
Goto Top
moin,

Zitat von @Enriqe:
Ich hoffe, ich habe die Situation genau beschrieben und nichts vergessen. Wenn doch, bin ich natürlich jederzeit zu einem Nachtrag bereit.

Es handelt sich um eine neue ESXi zertifizierte dual Xeon Maschine mit 48GB RAM und auch dem Adaptec Controller und SAS Platten im RAID 5 Verbund.
  • SAS Platten mit x rpm?
  • Raid 5?
Leider finde ich keine Möglichkeit zu sehen, ob es ausgelastet ist und wenn ja, was ausgelastet ist.
  • Also zumindestens per Auge auf die LEDs der Platten und der Nics kann man aber schon schauen face-sad

die Sensorlogs melden nichts verdächtiges.
  • Welche und wie greifst du auf die zu?
Mir bleibt dann nichts anderes übrig als einen Reset zu machen.
  • Schonmal in den abwarten und Teetrinken Modus gewechselt?
  • Was sagt der hoffentlich besser geschulte Lieferant zur Thematik?

Ansonsten schliesse ich mich nEmEsIs an.
Ein paar Zeilenschalter mehr hätten es auch sein dürfen.
Enriqe
Enriqe 14.02.2012 um 10:59:02 Uhr
Goto Top
Hallo Nemesis,

vielen Dank für Deine schnelle Antwort.
Ich versuche jetzt mal der Reihe nach Deine Fragen zu beantworten:

Also, auf den Updatestand hätte ich natürlich auch selbst kommen können. Die Versionen sind: vSphere Client 5.0.0 build 455964 und ESXi 5.0.0 build 504890. Manchmal sieht man eben vor lauter bits die Bytes nicht.
Das ESXi build unterscheidet sich von dem der anderen Maschinen die stabil laufen. Dort habe ich bei beiden Maschinen build 469512.

vCenter setzten wir bis jetzt nicht ein.

Der ESXi ist auf den Festplatten installiert. @Timo (ESXi und Daten auf 3x 450 GB SAS Platten mit15.000 U/min im RAID 5 und Daten (VMs) auf 3x 2TB SAS Platten im RAID5 mit 10.000 U/min)

Die Backups die ich erwähnt hatte werden mit Backup Exec gemacht und werden von einem Server gezogen der auf einer anderen ESXi Plattform läuft. Das BE bringt eine eigene snapshot Technologie mit, welche hier zum Einsatz kommt.
Es kann Zufall sein, dass ich jetzt 2x so einen Hänger beobachtete als gerade ein Backup lief. Ich meine das wäre auch schon passiert als kein Backup lief. Das möchte ich aber offen lassen. Ich bin mir da nicht sicher.

Der Server verfügt über 4 Intel Servernetzwerkkarten und der IPMI Schnittstelle.
Jeder VM ist eine eigene Schnittstelle zugeordnet.

Ausschließen kann ich nicht, dass Netzwerklast ein Problem sein könnte aber ich denke eher nicht. (@ Dr. House die LEDs der Netzwerkkarten verrieten mir nichts derartiges. Und dann auch gleich zu den LEDs der HDDs. Diese leuteten stetig was sie aber immer tun. Bei Datenverkehr flackern sie. Ob das auf ein Problem hindeutet ??? Ich kann ja mal den"hoffentlich besser geschulten Liferanten"fragen face-wink Bei unseren anderen Servern leuten / flackern die nur bei Aktivität. Ich habe dem nie eine Bedeutung zugemessen da auch der Controller immer "Optimal" meldet.

Gestern Abend, als hier kein Betrieb mehr war habe ich fast 2 Stunden gewartet aber es hat sich nichts verändert. Es lief da auch nur der eine Backup Job der hängen geblieben war. Die Anderen, die die Server auf dieser Plattform betreffen wären erst später dran gewesen.
Ich habe den hängenden Job abgebrochen und dann wie gesagt 2 Stunden gewartet.

Ja, im vSphere habe ich mir die Performancewerte anzeigen lassen wollen aber es kamen nur die leeren Gitternetzmasken ohne Auslastungslinien. Nur beim Speicher habe ich die Linien gesehen. Wie auch in den Excel Auswertungen die man sich anzeigen lassen kann. (s. Text. Ich weiß leider nicht, wie das mit den Zitaten geht. Vielleicht liegt es an meinem Opera, dass das nicht tut.)

Also, ich hoffe, ich konnte alle Klarheiten beseitigen und es sei mir gelungen den Text etwas übersichtlicher zu gestalten.

Vielen Dank für Deinen Beitrag, vielleicht fällt Dir ja noch was ein. Wäre Super.

Gruß
Enriqe
Enriqe
Enriqe 14.02.2012 um 11:12:20 Uhr
Goto Top
Hallo Dr. House,

da Du die Runde der Nettigkeiten ja schon eingeläutet hast, (Zitat: "Was sagt der hoffentlich besser geschulte Liferant zur Thematik?") möchte ich anmerken:
Alleine sich zu verhalten wie Dr. House macht noch lange kein Dr. House aus Dir. Seine Kritik mag zwar schroff sein aber sie ist konstruktiv.

Außerdem, wer lesen kann ist im Vorteil. Auf Deine Frage wie ich auf die Sensorlogs zugreife, lies Dir den Text einfach noch einmal durch.
Zumindest per Auge kann man ja schon mal schauen.

Aber ich gebe ja zu, ich habe den Text unübersichtlich gestaltet und da kann es leicht passieren, dass man mal was überliest. Ich gelobe Besserung.

Auch Dir vielen Dank für Deinen Beitrag. Du hast Dir ja zumindest große Mühe gegeben viele Buchstaben aneinander zu reihen.
Ich weiß das zu schätzen.

Gruß
Enriqe
nEmEsIs
nEmEsIs 14.02.2012 um 16:36:52 Uhr
Goto Top
Hi

Nochmal welche Maschine hat welche Nr.???
Esxi ohne Probleme -->
Esxi mit Problemen -->

So über welche Netzwerkkarte läuft die Managmentconsole und über welche das Backup???

Nächste Frage wie ist BE konfiguriert um snapshots zu machen ?? Pausiert sie die Maschinen ?? Oder mit VSS ?

Hast du für den snapshot auch genug Platz auf dem Esxi (mit den Problemen) ??? Bzw wo werden die Snapshots hingemacht?? Sag bitte nicht auf die Daten Festplatte wo der Esxi installiert ist ?! Dann würde es dein einfriehren erklären.

Da du schreibst du hast den einen Job abgebrochen, das ist doch dann sicher immer der erste Job und sichert immer die selbe Maschine. Das es vll. Daran liegt An der einen Maschine liegt???

MfG Nemesis

Ps: warum kein VMware essential für 3 Hosts mit vCenter ??? Würde sich sicher lohnen und kostet jetzt auch nicht die Welt.
Enriqe
Enriqe 15.02.2012 um 11:58:44 Uhr
Goto Top
Hi Nemesis,

vielen Dank für Deine Ausdauer.

Also, wieder der Reihe nach:

ESXi ohne Probleme: Build 455964
ESXi mit Problemen: Build 504890 (scheint aktueller zu sein)

Die Managementkonsole läuft über vmnic0. (die drei Server dann jeweils über vmnic1 -3)
Das Backup, läuft immer über die Karte, welche der zu sichernden Maschine zugewiesen ist. Das ist ein klassisches Backupsystem, welches sich direkt mit dem zu sichernden Server verbindet (über Windows Agents) Es wird hier nicht mit VM snapshots gearbeitet. (wir haben das System in dieser Form schon 2 -3 Jahre in Betrieb und es lief bisher problemlos. Auch mit den Virtuellen Servern unter VMWare Server 2.)
Unter der Woche wird hier nur eine Differenzialsicherung gemacht, welche auf eine am WE gefahrene Vollsicherung aufbaut.
Die beiden Hänger, bei denen gerade eine Sicherung lief, waren Beide während der Differenzialsicherung.

Zu den snapshots kann ich nicht so viel sagen. Wie gesagt, es sind keine VMware snapshots sondern entweder Advanced file open technology von Symante oder Windows vss. Die Einstellung im BE steht auf "automatisch Technologie für geöffnete Dateien auswählen".) Datenbanken und Exchange werden per Script vor der Sicherung angehalten und anschließend wieder gestartet. (Der Exchangeserver läuft nicht auf der betroffenen Plattform.)

Ich denke, das beantwortet auch die Frage nach dem Ort der Snapshots.

Nein, es betraf bei den Beiden Beobachtungen jeweils eine andere Maschine. Das letzte Mal war es aber (zufällig?) der erste Job.
Glaubst Du, dass ein (Windows) Fehler auf einer VM den ganzen ESXi zum stehen bringen kann? Alle anderen VMs dann unereichbar werden?

Dass wir bis jetzt noch kein VMWare essential mit vCenter einsetzen, liegt einfach daran, dass wir bisher (keine Ahnung haben) nicht wussten welches das geeignete Produkt für uns ist, Eine Beratung darüber ist bereits terminiert.

Noch zur Info: Seit ich diesen Thread eröffnete, läuft der Server. Ich werde es posten wenn er wieder stehen bleibt.

Vielen Dank für Deine Mühe. Ich hoffe, wir drehen uns hier nicht im Kreis.

Gruß
Enriqe
Enriqe
Enriqe 12.03.2012 um 11:38:28 Uhr
Goto Top
Hallo Nemesis,
Hallo Alle die diesen Thread lesen und ähnliche Probleme haben,

drei wochen nach dem ich diesen Thread eröffnet hatte, war der Server Sonntag mittags wieder während einer DaSi stehen geblieben. Diesen Sonntag (eine Woche) wieder und auch wieder während der Sicherung.
Ich gehe im Augenblick schon davon aus, dass es an der Datensicherung liegt.
Leider ist mir nicht klar was an der Sicherung diesen Effekt hervorruft. Unsere anderen Server werden genau so gesichert und haben dieses Problem nicht.
Ich werde jetzt einmal schauen, ob alle Backup Exec Agents up to date sind und gegebenfalls updaten.
Ich werde interessante Ergebnisse hier posten.

Eine Frage stellt sich mir jedoch noch immer und ich konnte im Netz keine eindeutige Antwort finden.
Wenn ich im vSphere Client unter Konfiguration - Lizenzierte Funktionen nachschaue, sehe ich dort bei Produktfunktionen: bis zu 32 GB Arbeitsspeicher und: Bis zu 8-Wege-virtual-SMP.
Bedeutet das mit dem Arbeitsspeicher, dass ich pro VM oder pro CPU oder insgesamt bis zu 32 GB Hauptspeicher verwenden kann / darf? Mein Server hat nämlich 48GB ???
Könnten Probleme daher kommen?

Also, sollte doch noch Jemand irgendeine Idee haben, ich würde mich freuen wenn ich hier darüber lesen dürfte.
Danke für die Hilfe.

Gruß
Enriqe
nEmEsIs
nEmEsIs 12.03.2012 um 18:44:29 Uhr
Goto Top
Hi

Zitat aus dem VMWare Forum:

vSphere Hypervisor aka Free ESXi:
- Hat ein phys. Speicherlimit von 32GB
- Keine Begrenzung auf CPU Sockel

Da ich davon ausgehe, dass du den freien einsetzt ist das so.

Wenn du 2 oder 3 Esxi Server einsetzt denk bitte über eine kostenpflichtige Lösung nach.
Dann hast du das vCenter und je nach Lizenz HA und vMotion.

Schau dir das mal an und lass dich ggf. von einem Systemhaus, welches VM Zertifiziert ist beraten. http://www.vmware.com/files/pdf/vsphere_pricing.pdf

Aber der überschüssige RAM wird einfach nicht genutzt. Ausser (ich weiß die Einstellung leider nicht mehr) das dein Board den RAM verwaltet und nicht der ESXi und somit in einen Speicherbereich geschrieben wird, den der ESXi nicht Adressiert und dadurch die Hänger beim Backupen kommt. Ist jetzt nur eine Vermutung.

Wenn dir die kostenpflichtige Lösung nicht passt bau den überschüssigen RAM aus und warte oder such die oben genannte Einstellung Bioseinstellung (wie gesagt ich weiß es gerade nicht bin auch die nächste Zeit nicht in der Firma um mal eben nachzuschauen)

MfG Nemesis
Enriqe
Enriqe 13.03.2012 um 10:48:03 Uhr
Goto Top
Hallo Nemesis,

vielen Dank für die schnelle Antwort.
Als der Server gestern das zweite mal stehen geblieben war, beim Update der Backup Exec Clients, habe ich gleich zwei 8 GB Riegel herausgenommen. Mal sehen, ob das was hilft.
Danke auch für das Whitepaper. Ich werde das mal genau studieren.
Über eine kostenpflichtige ESXi Version denken wir schon von Anfang an nach aber da wir die Produkte nicht gut kennen, haben wir uns (wie auch von Dir vorgeschlagen) an eine Beraterfirma gewandt.
Leider wurde der Termin für diese Beratung wegen Krankheit des Beraters immer wierder verschoben. Jetzt gibt es einen neuen Anlauf und ich hoffe es klappt diesmal. Bevor schlimmeres passiert.
Ich danke Dir noch einmal und werde die Ergebnisse noch hier posten bevor ich den Thread (hoffentlich bald) schließe.

Gruß
Enriqe
Enriqe
Enriqe 27.03.2012 um 11:19:46 Uhr
Goto Top
Hallo Nemesis,
Hallo an Alle, die diesen Thread verfolgen,

Nur zur Info:
leider kann ich den Thread immer noch nicht schließen. Das Drama nahm am vorletzten Wochenende wieder seinen Lauf aber auch eine Wendung. Ich hatte auf einer der VMs den Backup Exec Agenten deinstalliert, da der Backup Exec Snapshot Provider duch das Installieren der VMWare Tools wohl beschädigt werden kann und damit Probleme verursachen, wie Recherchen ergaben.
Nur durch eine De- und anschließende Neu- Installation des Agenten lassen sich diese Fehler wohl beheben. - Gebracht hat es in meinem Falle leider nichts. Aber was probiert man nicht alles. Übrigens, am Rande vermerkt, das Herausnehmen des RAMs hat auch nicht geholfen. Am Sonntag blieb der Server wieder stehen. Bis auf eine VM! Alles Andere blieb stehen inklusive des ESXi. Leider kam ich auch nicht mehr über vSphere an die noch laufende VM um diese herunterfahren zu können. Also machte ich wieder einen Reset.Nach dem Neustart des Servers und der VMS merkte ich bei einer der betroffenen VMS, dass sie sich nicht richtig bedienen lies und schon wieder hing. Ich wollte die anderen VMs herunterfahren solange dies noch möglich war und bekam dann beim Herunterfahren einen Purple Screen vom ESXi. Und mein RAID Controller fing an mit piepsen.
Nach einem Reset sah ich, dass der Controller auf einem der beiden RAID5 Stapel einen Rebuild machte. (Betroffen,der Stapel auf dem ESXi läuft und der Datastore für die beiden VM Server die stehen bleiben. Das gab mir ein bisschen Hoffnung, dem Problem auf die Spur zu kommen.
Ich meldete Alles dem Computerhersteller und bekam von ihm nach Auswertung des Purplescreens zwei CPUs und eine Festplatte zugeschickt.
http://dl.dropbox.com/u/62020032/purplescreen.pdf (hier kann der Purplescreen eingesehen werden)

Am selben Abend noch, baute ich den Server um und seither läuft er. Auch das Wochenende hat er überstanden. Was jetzt nicht unbedingt was heißt, denn das war schon öfter mal so, dass er 2 oder 3 Wochen gelaufen ist aber es gibt mir zumindest wieder Anlass zur Hoffnung.

Viele Grüße an Alle da draußen,
genießt den Frühling face-smile
Enriqe
Enriqe 18.04.2012 um 10:21:28 Uhr
Goto Top
Hallo noch einmal,

also, nur der Vollständigkeit halber: Die CPUs und die HDD waren es auch nicht. Der Computerhersteller stochert genauso im Dunkel wie auch wir.
Wir haben uns mittlerweile vCenter und vRanger zugelegt und die auf dieser Maschine laufenden virtuellen Server auf eine andere umgezogen. Nach Auswertung der logfiles des esxi kristallisierte sich ein neuer "Schuldiger" heraus. Der Adaptec Controller meldet immer wieder Fehler. Nach Recherche stellte sich heraus, dass der Treiber problematisch ist. Bei VMware und bei Adaptec gibt es einen neuen bezw. Patches.
Wir haben uns entschlossen, den Controller zu tauschen und die Patches / Treiber zu installieren. (Der Server ist ja fast neu)
Gerade läuft der Host nur im Testbetrieb.
Mal sehen ob es tut. Ich poste meine Erfahrungen dann wieder hier.

Keep on rocking

Gruß
Enriqe
Enriqe
Enriqe 17.12.2012 um 12:42:42 Uhr
Goto Top
Bevor ich den Thread abschließe, möchte ich für Alle die mit ähnlichen Prblemen kämpfen, noch einen Abschlussbericht liefern.
Unser Server läuft nun seit einigen Monaten mit einem Intel Controller stabil. Der Computerhersteller konnte das Problem nur lösen indem ein anderer RAID- Controller eingebaut wurde.
VMWare und auch Adaptec haben "Probleme unter bestimmten Voraussetzungen" eingeräumt.
Einzelheiten darüber konnte ich leider nicht erfahren.

Vielen Dank noch einmal an Alle die versucht haben zu helfen.

Fröhliche Weihnachten und ein gutes, gesundes und erfolgreiches 2013

Enriqe