pageman262
Goto Top

VMWare 6 verliere Verbindung zu Lun

Hallo liebe Leute,

ich bin am Ende meiner Weisheit. Ich habe 3 Hosts (1 VM6 uns 2 VM3). Ausserdem sind noch 4 Storages vorhanden (3x EMC und 1x Theccus).
Die VM3 Hosts sind alle an die Storages angebunden via ISCSI und es gibt keinerlei Probleme. Der neue Host hat 2x ISCSI zum Theccus und 8x zu den EMC und verliert in unregelmäßigen Abständen die Verbindung zu dem Theccus. Alle Storages und Hosts laufen mit Multipath und es muss auch richtig konfiguriert sein da es nur auf dem Theccus die Probleme mit dem neuen VM6 Host gibt. Auf den alten ESXI läuft die Sache ohne Probleme.

Alle Storages und auch die Anbindung an die Hosts sind auf eingenen Switchen (kein VLAN sondern physikalisch) und in einen eigenen Netz. Das Netz ist aich physikalisch komplett getrennt von allen anderen Netzen.

Nachdem der VM6 die Verbindung verliert dauert es ca 5-8 Minuten bis er selbstständig die Verbindung wieder findet. Dann funkt die Sache paar Stunden (zw. 2 und 5) und er verliert wieder die Verbindung.

Kann mir einer einen Tipp geben woran das liegen kann?

Ich habe schon einen PC in das ISCSI Netz gehängt und einen Dauerping laufen lassen. Zu den Storages verliere ich keine Pings und auch zu den ESXI nicht.

Hoffe einer von euch kann mir einen Tipp geben wo ich ansetzen soll.

Besten Dank

Content-ID: 282778

Url: https://administrator.de/contentid/282778

Ausgedruckt am: 22.11.2024 um 19:11 Uhr

Dani
Dani 13.09.2015 um 21:36:58 Uhr
Goto Top
Moin,
Der neue Host hat 2x ISCSI zum Theccus und 8x zu den EMC und verliert in unregelmäßigen Abständen die Verbindung zu dem Theccus.
Hast du die 2 bzw 8 Uplinks als LACP konfiguriert? Wie viele iSCSI-Netzwerk hast du? Ich frage deshalb, weil man bei ISCSI aus Redudanzgründen zwei phy. getrennte Netze nimmt. Hängt der neue Host auf dem selben Switch wie die anderen VMWare-Hosts? Verliert der Host auch die Verbindung, wenn er nur einen Link zum Theccus hat (anderen einfach ausstecken)?

Nachdem der VM6 die Verbindung verliert dauert es ca 5-8 Minuten bis er selbstständig die Verbindung wieder findet. Dann funkt die Sache paar Stunden (zw. 2 und 5) und er verliert wieder die Verbindung.
Was sagt zu diesem Zeitpunkt
  • das Log des Switches
  • das Log von VMWare ESXi
  • das Log von Theccus


Gruß,
Dani
Pageman262
Pageman262 13.09.2015 um 21:58:16 Uhr
Goto Top
Hi Dani,

Hast du die 2 bzw 8 Uplinks als LACP konfiguriert? Wie viele iSCSI-Netzwerk hast du? Ich frage deshalb, weil man bei ISCSI aus Redudanzgründen zwei phy. getrennte Netze nimmt. Hängt der neue Host auf dem selben Switch wie die anderen VMWare-Hosts? Verliert der Host auch die Verbindung, wenn er nur einen Link zum Theccus hat (anderen einfach ausstecken)?

Das Theccus hat 2 Netzwerkkarten.Eine pro Controller. Eine hat eine IP im 240 die andere im 241 Netz. Die EMC haben Pro Conroller je 2 Netzwerkkarten auch jeweils pro Controller eine IP im 240 und eine im 241 Netz. Alle Hosts und Storages hängen auf den gleichen Switches. Jeweils 2 gestacke D-Link Switche. Einmal im Hauptserverraum und einmal im Nebengebäude mit Glasfaseruplink.

Kein LACP sonderd Portbinding mit Multipathing. Die ESXi haben je 5 Netzwerkkarten. 1x vMotion (172.16.11) 1x Managemant (172.16.220) 2 x ICSI (1x 240 und 1x 241 Netz) 1xProduktives Netzwerk

Was sagt zu diesem Zeitpunkt

* das Log des Switches
Nichts und ich meine damit wirklich nichts. Keine Einträge. Ich verliere ja auch ganz bestimmt physisch nicht die Verbindung. Auf den anderen Hosts funkt alles.
* das Log von VMWare ESXi
Kurz bevor er die Verbindung verliert bekomme ich die Warnung das alle Pfade verloren sind. 30 Sec später ist dann das Log das die Verbindung ganz weg ist und der Speicher nicht mehr zur Verfügung steht.
* das Log von Theccus
Das Log in dem Storage ist so gut wie nicht vorhanden oder ich hab es noch nicht gefunden.

Gruß,
Dani

lg
Pageman
0l1v3r
0l1v3r 14.09.2015 um 08:43:51 Uhr
Goto Top
wie hoch ist das LoginTimeout auf dem iSCSI Initiator eingestellt? Wenn es auf 5 sek. steht, vielleicht mal mit 15 sek. versuchen. Das hat zumindest bei mir geholfen.

Cheers,
Olli
clSchak
clSchak 14.09.2015 aktualisiert um 15:47:40 Uhr
Goto Top
Mit welchem Pfade sind die Storages am VMWare Server angebunden? Alles außer RoundRobin macht keinerlei Sinn, da die Verbindung ansonsten abbricht.

01d24e949ca12f130ea376436ea32dbd

6cf8ef84085ecd21cf74faa710e6b493

43a7ba32aea5748dfcabbaa9d4923329

Bei iSCSI sollte das auf RoundRobin stehen und auf nichts anderes. Das sollte deine Verbindungsabbrüche beheben.

Gruß
@clSchak
Pageman262
Pageman262 14.09.2015 aktualisiert um 19:12:39 Uhr
Goto Top
@clSchak

Besten Dank für den Hinweis jedoch ist es bereits die ganzte Zeit so konfiguriert. Wobei es machen sich immer mehr Probleme mit der VM6 breit.

Heute das nächste das die vMotion nicht funkt wenn die VM läuft.
VMWare 6 mit vCenter Migration von Host im laufenden Betrieb funktioniert nicht

Langsam bezweifel ich das der umstieg auf 6 eine gute Idee war.

Kann es sein das es Probleme gibt weil das Theccus auch noch im alten Cluster hängt? Wobei sich dann die Frage stellen würde warum die anderen Storages nicht herumzicken.

Bin für weitere Lösungsvorschläge gerne offen und hoffe das einer von euch die Lösung für mich hat.
Dani
Dani 14.09.2015 um 20:24:57 Uhr
Goto Top
Besten Dank für den Hinweis jedoch ist es bereits die ganzte Zeit so konfiguriert
Das heißt aber nicht, dass es Best Practices ist. Da muss ich Kollege @clschlak recht geben.

Wobei sich dann die Frage stellen würde warum die anderen Storages nicht herumzicken.
Botote doch die Hosts neu und schau was passiert. face-wink

Kann es sein das es Probleme gibt weil das Theccus auch noch im alten Cluster hängt?
Was für einen alten Cluster meinst du?


Gruß,
Dani
Pageman262
Pageman262 14.09.2015 aktualisiert um 20:33:25 Uhr
Goto Top
Zitat von @Dani:

Wobei sich dann die Frage stellen würde warum die anderen Storages nicht herumzicken.
Botote doch die Hosts neu und schau was passiert. face-wink

Das hab ich schon des öfteren versucht. Allein während den Updates habe ich 3 Neustarts gewonnen.

Kann es sein das es Probleme gibt weil das Theccus auch noch im alten Cluster hängt?
Was für einen alten Cluster meinst du?

Ich habe einen alten Cluster mit VM4 (3 Hosts) von dem hab ich zuerst einen gekillt und VM6 drauf gespielt. Konfiguriert und alles funkt bis auf das eine Lun vom Theccus. Heute den 2 aus dem alten CLuster gezogen und dem neuen Cluster (vCenter ist auch 6) hinzugefügt. Auf den 2 habe ich jetzt genau das gleiche Problem mit dem Theccus.
Pageman262
Pageman262 17.09.2015 um 15:26:14 Uhr
Goto Top
Das Problem hat sich gelöst. Das Storage hat gestern den Geist aufgegeben. Da lag das Problem anscheinend. Somit danke ich euch allen für die Hilfe

lg
Pageman