darkened1645
Goto Top

VMware vSphere 7 - Fehlermeldung bei Live Migration

Guten Morgen zusammen,

ich habe seit längerem ein kleines Problem mit unserer VMware Umgebung.
Und zwar, wird die Konsole der vSphere-Umgegbung mit Fehlermeldungen wie die folgende Zugespammt:


Ich kann momentan auch nicht die VMs auf einen anderen Host verschieben. Dort bekomme ich die selbe Fehlermeldung...


Hat da jemand eine Idee woran das liegen kann?
Die vSwitche und die Physischen Switche verwenden alle eine MTU von 1500.
Die Hosts können sich auch untereinander mit der vMotion IP anpingen.

Vielen Dank!
screen2
screen1

Content-ID: 31590871850

Url: https://administrator.de/contentid/31590871850

Ausgedruckt am: 08.11.2024 um 01:11 Uhr

cykes
cykes 22.07.2024 um 10:05:37 Uhr
Goto Top
Moin,

vielleicht hilft Dir schon der folgende KB-Artikel: https://knowledge.broadcom.com/external/article/318797/failed-waiting-fo ...

Insbesondere mal die Einstellungen im vmkernel (ggf. Jumboframes) überprüfen/vergleichen.

Gruß

cykes
Darkened1645
Darkened1645 22.07.2024 um 10:47:24 Uhr
Goto Top
Danke schon einmal! Ich habe in den Logs aber eine leicht andere Fehlermeldung...
Ich vermute mal das es, was mit der LUN-Verbindung zutun hat? Die VMs laufen aber komischerweise stabil...

2024-07-22T08:43:54.814Z cpu3:10118119)World: vm 10118122: 6957: Starting world vmm0:vCLS-02ee6e3c-ad69-4485-a7e2-0aed53eb4f3f of type 8
2024-07-22T08:43:54.814Z cpu3:10118119)Sched: vm 10118122: 6591: Adding world 'vmm0:vCLS-02ee6e3c-ad69-4485-a7e2-0aed53eb4f3f', group 'host/user', cpu: shares=-1 min=-1 minLimit=-1 max=-1, mem: shares=-1 min=-1 minLimit=-1 max=-1  
2024-07-22T08:43:54.814Z cpu3:10118119)Sched: vm 10118122: 6606: renamed group 64392701 to vm.10118119
2024-07-22T08:43:54.814Z cpu3:10118119)Sched: vm 10118122: 6623: group 64392701 is located under group 4
2024-07-22T08:43:54.850Z cpu3:10118119)Migrate: 319: vmotion: Dest vmmLeaderID = 10118122, ts = 9223311403982756020, srcIP = <10.250.0.2> dstIP = <10.250.0.1> Dest wid = 0 using SHARED swap, encrypted
2024-07-22T08:43:54.850Z cpu3:10118119)WARNING: MigrateNet: 3848: Uplink speed reported 0 for vmknic vmk3. Will lead to sub optimal vMotion performance as CPU reservation and autoscaling TCP streams depend on uplink speed.
2024-07-22T08:43:54.850Z cpu3:10118119)Migrate: 662: 9223311403982756020 D: Used default migrate heap of size 116773919 bytes (computed 42089060 bytes)
2024-07-22T08:43:54.850Z cpu3:10118119)WARNING: MigrateNet: 3848: Uplink speed reported 0 for vmknic vmk3. Will lead to sub optimal vMotion performance as CPU reservation and autoscaling TCP streams depend on uplink speed.
2024-07-22T08:43:54.850Z cpu3:10118119)VMotionStream: 350: 9223311403982756020 D: vMotion stream helper count: 1.
2024-07-22T08:43:54.851Z cpu3:10118119)Migrate: 102: 9223311403982756020 D: MigrateState: Starting migration on
2024-07-22T08:43:54.851Z cpu3:10118119)Hbr: 3721: Migration start received (worldID=10118122) (migrateType=1) (event=0) (isSource=0) (sharedConfig=1)
2024-07-22T08:43:54.866Z cpu0:2098213)MigrateNet: vm 2098213: 3232: Accepted connection from <::ffff:10.250.0.2>
2024-07-22T08:43:54.866Z cpu0:2098213)MigrateNet: vm 2098213: 3320: dataSocket 0x4317ef59aa40 receive buffer size is 563724
2024-07-22T08:43:54.866Z cpu0:2098213)VMotionServer: 305: Remote machine is ESX 6.5 or newer.
2024-07-22T08:43:54.866Z cpu10:10118132)MigrateNet: 1753: 9223311403982756020 D: Successfully bound connection to vmknic vmk3 - '10.250.0.1'  
2024-07-22T08:43:54.866Z cpu30:10118133)VMotion: 6793: 9223311403982756020 D: Using 1 threads for streaming
2024-07-22T08:43:54.866Z cpu0:2098213)MigrateNet: vm 2098213: 3232: Accepted connection from <::ffff:10.250.0.2>
2024-07-22T08:43:54.866Z cpu0:2098213)MigrateNet: vm 2098213: 3320: dataSocket 0x4317ef5814f0 receive buffer size is 563724
2024-07-22T08:43:54.866Z cpu0:2098213)VMotionServer: 305: Remote machine is ESX 6.5 or newer.
2024-07-22T08:43:54.866Z cpu0:2098213)VMotionUtil: 5180: 9223311403982756020 D: Stream connection 1 added.
2024-07-22T08:43:54.867Z cpu1:2098208)VMotionUtil: 7811: 9223311403982756020 D: Estimated -90 microseconds timer difference to remote host.
2024-07-22T08:43:54.867Z cpu30:10118133)Migrate: 102: 9223311403982756020 D: MigrateState: Precopying memory
2024-07-22T08:43:54.867Z cpu10:10118132)WARNING: NetDVS: 5721: zero ports to be restored
2024-07-22T08:44:16.879Z cpu2:10118129)WARNING: VMotionUtil: 892: 9223311403982756020 D: failed to read stream keepalive: Connection reset by peer
2024-07-22T08:44:16.879Z cpu2:10118129)Migrate: 102: 9223311403982756020 D: MigrateState: Failed
2024-07-22T08:44:16.879Z cpu2:10118129)WARNING: Migrate: 256: 9223311403982756020 D: Failed: Connection reset by peer (0xbad004b) @0x42001d7b3b7a
2024-07-22T08:44:16.879Z cpu24:10118119)WARNING: Migrate: 6460: 9223311403982756020 D: Migration considered a failure by the VMX.  It is most likely a timeout, but check the VMX log for the true error.
2024-07-22T08:44:16.879Z cpu24:10118119)Hbr: 3815: Migration end received (worldID=10118122) (migrateType=1) (event=1) (isSource=0) (sharedConfig=1)
2024-07-22T08:44:16.879Z cpu2:10118129)VMotion: 2199: 9223311403982756020 D: VMotion bandwidth in last 1s: 0 bytes/s, 10s: 0 bytes/s, 20s: 0 bytes/s,
2024-07-22T08:44:16.893Z cpu17:2100263 opID=bd3655af)World: 12077: VC opID lro-14968417-195c2eec-01-34-3bc3 maps to vmkernel opID bd3655af
2024-07-22T08:44:16.893Z cpu17:2100263 opID=bd3655af)DLX: 4579: vol 'ds_LUN01', lock at 400957440: [Req mode 1] Checking liveness:  
2024-07-22T08:44:16.893Z cpu17:2100263 opID=bd3655af)[type 10c00001 offset 400957440 v 135001, hb offset 3739648
gen 3, mode 1, owner 65e44ec7-6af8c5a6-a393-3868dd88b558 mtime 11409225
num 0 gblnum 0 gblgen 0 gblbrk 0]
2024-07-22T08:44:20.899Z cpu16:2100263 opID=bd3655af)DLX: 5244: vol 'ds_LUN01', lock at 400957440: Lock type: 10C00001. [Req mode: 1] Not free, pollStat 3:  
2024-07-22T08:44:20.899Z cpu16:2100263 opID=bd3655af)[type 10c00001 offset 400957440 v 135001, hb offset 3739648
gen 3, mode 1, owner 65e44ec7-6af8c5a6-a393-3868dd88b558 mtime 11409225
num 0 gblnum 0 gblgen 0 gblbrk 0] alloc owner 0
2024-07-22T08:44:20.899Z cpu16:2100263 opID=bd3655af)DLX: 2650: vol 'ds_LUN01', lock at 400957440: Lock type: 10C00001. Exclusive Lock(s) held on a file on volume 641d7ee9-868bc588-8151-3868dd88b600. numHolders:0 gblNumHolders:0, volume state 10, APD st$  
2024-07-22T08:44:20.899Z cpu16:2100263 opID=bd3655af)[type 10c00001 offset 400957440 v 135001, hb offset 3739648
gen 3, mode 1, owner 65e44ec7-6af8c5a6-a393-3868dd88b558 mtime 11409225
num 0 gblnum 0 gblgen 0 gblbrk 0] alloc owner 0
2024-07-22T08:44:20.899Z cpu16:2100263 opID=bd3655af)DLX: 2651: vol 'ds_LUN01', lock at 400957440: Lock type: 10C00001. owner(s) MAC: 38:68:dd:88:b5:58:  
2024-07-22T08:44:20.899Z cpu16:2100263 opID=bd3655af)[type 10c00001 offset 400957440 v 135001, hb offset 3739648
gen 3, mode 1, owner 65e44ec7-6af8c5a6-a393-3868dd88b558 mtime 11409225
num 0 gblnum 0 gblgen 0 gblbrk 0] alloc owner 0
2024-07-22T08:44:20.899Z cpu16:2100263 opID=bd3655af)Fil3: 5010: Lock failed on file: vCLS-02ee6e3c-ad69-4485-a7e2-0aed53eb4f3f.vmx on vol 'ds_LUN01' with FD: <FD c35 r1>  
2024-07-22T08:44:20.900Z cpu25:2101522 opID=bd3655af)World: 12077: VC opID lro-14968417-195c2eec-01-34-3bc3 maps to vmkernel opID bd3655af
2024-07-22T08:44:20.900Z cpu25:2101522 opID=bd3655af)Config: 756: "SIOControlFlag2" = 0, Old Value: 1, (Status: 0x0)  
2024-07-22T08:44:20.901Z cpu41:2101567 opID=bd3655af)World: 12077: VC opID lro-14968417-195c2eec-01-34-3bc3 maps to vmkernel opID bd3655af
2024-07-22T08:44:20.901Z cpu41:2101567 opID=bd3655af)VmMemXfer: vm 2101567: 2465: Evicting VM with path:/vmfs/volumes/641d7ee9-868bc588-8151-3868dd88b600/vCLS-02ee6e3c-ad69-4485-a7e2-0aed53eb4f3f/vCLS-02ee6e3c-ad69-4485-a7e2-0aed53eb4f3f.vmx
2024-07-22T08:44:20.901Z cpu41:2101567 opID=bd3655af)VmMemXfer: 209: Creating crypto hash
2024-07-22T08:44:20.901Z cpu41:2101567 opID=bd3655af)VmMemXfer: vm 2101567: 2479: Could not find MemXferFS region for /vmfs/volumes/641d7ee9-868bc588-8151-3868dd88b600/vCLS-02ee6e3c-ad69-4485-a7e2-0aed53eb4f3f/vCLS-02ee6e3c-ad69-4485-a7e2-0aed53eb4f3f.v$
Spirit-of-Eli
Spirit-of-Eli 22.07.2024 um 11:01:11 Uhr
Goto Top
Moin,

sind denn Jumbo Frames auf allen Netzen aktiviert? Das "muss" durchgehend möglich sein! Sollte aber auch im VCenter angemeckert werden falls nicht.

Gruß
Spirit
Darkened1645
Darkened1645 22.07.2024 um 11:23:59 Uhr
Goto Top
Soweit ich das sehen kann, sind auf den Switchen keine Jumbo-Frames aktiviert. War bisher aber auch noch nie, und die Migration konnte vorher ohne Probleme durchgeführt werden.

Ich meine wenn wir eine 1500er MTU eingestellt haben, müsste das doch auch ohne JumboFrames laufen, oder nicht?
ukulele-7
ukulele-7 22.07.2024 um 11:58:10 Uhr
Goto Top
Wenn alle beteiligten Komponenten 1500 MTU nutzen, sollte das alles gehen. Das trifft aber alle Netzwerkkarten und Switches (virtuell und physisch).
cykes
cykes 22.07.2024 aktualisiert um 16:42:17 Uhr
Goto Top
Ich würde zusätzlich mal zur Warnung bspw. in Zeile 6 in Deinem Log recherchieren:

2024-07-22T08:43:54.850Z cpu3:10118119)WARNING: MigrateNet: 3848: Uplink speed reported 0 for vmknic vmk3. Will lead to sub optimal vMotion performance as CPU reservation and autoscaling TCP streams depend on uplink speed.

Dazu gibt es auch einen KB-Artikel: https://knowledge.broadcom.com/external/article?legacyId=2074518
[EDIT] Der KB-Artikel passt - zugegeben - nicht so wirklichund gilt auch nur für ältere Versionen...
cykes
Lösung cykes 22.07.2024 um 16:40:46 Uhr
Goto Top
Und hier gibt es ein ähnliches Problem mit Lösung (MTU auf allen Interfaces überprüfen): https://www.elasticsky.de/en/2018/01/vmotion-fails-at-21-with-error-1958 ...
Darkened1645
Darkened1645 24.07.2024 um 11:22:15 Uhr
Goto Top
Zitat von @cykes:

Und hier gibt es ein ähnliches Problem mit Lösung (MTU auf allen Interfaces überprüfen): https://www.elasticsky.de/en/2018/01/vmotion-fails-at-21-with-error-1958 ...

Oh man... Tatsächlich habe ich übersehen, dass bei den Kernel-Ports auch die MTU eingetragen werden muss. Kaum ist das angepasst, und jetzt läuft es sauber...
Darkened1645
Darkened1645 24.07.2024 um 11:27:40 Uhr
Goto Top
Zitat von @cykes:

Ich würde zusätzlich mal zur Warnung bspw. in Zeile 6 in Deinem Log recherchieren:

2024-07-22T08:43:54.850Z cpu3:10118119)WARNING: MigrateNet: 3848: Uplink speed reported 0 for vmknic vmk3. Will lead to sub optimal vMotion performance as CPU reservation and autoscaling TCP streams depend on uplink speed.

Dazu gibt es auch einen KB-Artikel: https://knowledge.broadcom.com/external/article?legacyId=2074518
[EDIT] Der KB-Artikel passt - zugegeben - nicht so wirklichund gilt auch nur für ältere Versionen...

Ich werde mich diesem Problem demnächst annehmen, danke!
Ich tippe mal darauf, da der Sekundäre Port keinen Uplink hat, aber konfiguriert ist.
cykes
cykes 24.07.2024 um 14:18:52 Uhr
Goto Top
Schön, dass es jetzt wieder passt.

Dann bleibt eigentlich nur noch: Wie kann ich einen Beitrag als gelöst markieren?
Darkened1645
Darkened1645 24.07.2024 um 15:46:35 Uhr
Goto Top
Ganz vergessen face-smile