ueba3ba
Goto Top

RDMA mit Nexus 5548up

Hallo allerseits.

Ich habe mal wieder ein Problem.

Richte eben mein HyperV CLuster ein.

Cluster besteht aus: 3 HP DL360p G8 mit je 2 Intel Xeon 2660 V2 10 Core und 64GB RAM

Jeder Server hat eine Mellanox ConnectX3 Dual 10Gbit Netywerkkarte verbaut und eine zweite 10Gbit Dual Karte(Die kann aber kein RDMA)

Angeschloßen ist dieses 10Gbit Netzwerk(ConnectX3 Karten) an einen Cisco Nexus 5548up Switch.

Verbinde ich 2 Server direkt mit Twinax-Kabeln, wird mir RDMA Traffic im perfmon korrekt angezeigt.
Also Windowsseitig alles richtig konfiguriert.

Nur über den Switch kommt kein RDMA Traffic zustande.

Hier mal die COnfig vom Switch:

Nexus5K(config)# sh run

!Command: show running-config
!Time: Thu May 26 14:33:49 2022

version 5.0(3)N2(2b)
no feature telnet
no telnet server enable
feature lldp

username admin password 5 $1$BooxXhUp$ffgxsJ6J3PX02R1GDLtgO.  role network-admin
no password strength-check
ssh key rsa 2048
ip domain-lookup
switchname Nexus5K
class-map type qos class-fcoe
class-map type qos match-all roce
  match cos 5
class-map type queuing roce
  match qos-group 5
class-map type queuing class-fcoe
  match qos-group 1
class-map type queuing class-all-flood
  match qos-group 2
class-map type queuing class-ip-multicast
  match qos-group 2
policy-map type qos roce
  class roce
    set qos-group 5
  class class-fcoe
    set qos-group 1
policy-map type queuing roce
  class type queuing roce
    bandwidth percent 70
  class type queuing class-fcoe
    bandwidth percent 20
  class type queuing class-default
    bandwidth percent 10
class-map type network-qos roce
  match qos-group 5
class-map type network-qos class-fcoe
  match qos-group 1
class-map type network-qos class-all-flood
  match qos-group 2
class-map type network-qos class-ip-multicast
  match qos-group 2
policy-map type network-qos roce
  class type network-qos roce
    pause no-drop
    mtu 9000
  class type network-qos class-fcoe
    pause no-drop
    mtu 2158
  class type network-qos class-default
    mtu 9216
    multicast-optimize
system qos
  service-policy type qos input roce
  service-policy type queuing input roce
  service-policy type queuing output roce
  service-policy type network-qos roce
snmp-server user admin network-admin auth md5 0xdf70cfdc76ddb562a87e519c32757594
 priv 0xdf70cfdc76ddb562a87e519c32757594 localizedkey
rmon event 1 log description FATAL(1) owner PMON@FATAL
rmon event 2 log description CRITICAL(2) owner PMON@CRITICAL
rmon event 3 log description ERROR(3) owner PMON@ERROR
rmon event 4 log description WARNING(4) owner PMON@WARNING
rmon event 5 log description INFORMATION(5) owner PMON@INFO
snmp-server community Nexus group network-operator

vrf context management
vlan 1
vlan 200
  name Stotage1
vlan 300
  name Storage2

interface Ethernet1/1
  priority-flow-control mode on
  switchport access vlan 200

interface Ethernet1/2
  priority-flow-control mode on
  switchport access vlan 300

interface Ethernet1/3
  priority-flow-control mode on
  switchport access vlan 200

interface Ethernet1/4
  priority-flow-control mode on
  switchport access vlan 300

interface Ethernet1/5
  priority-flow-control mode on
  switchport access vlan 200

interface Ethernet1/6
  priority-flow-control mode on
  switchport access vlan 300

interface Ethernet1/7

interface Ethernet1/8

interface Ethernet1/9

interface Ethernet1/10

interface Ethernet1/11

interface Ethernet1/12

interface Ethernet1/13

interface Ethernet1/14

interface Ethernet1/15

interface Ethernet1/16

interface Ethernet1/17

interface Ethernet1/18

interface Ethernet1/19

interface Ethernet1/20

interface Ethernet1/21

interface Ethernet1/22

interface Ethernet1/23

interface Ethernet1/24

interface Ethernet1/25

interface Ethernet1/26

interface Ethernet1/27

interface Ethernet1/28

interface Ethernet1/29

interface Ethernet1/30

interface Ethernet1/31

interface Ethernet1/32

interface mgmt0
  vrf member management
line console
line vty
boot kickstart bootflash:/n5000-uk9-kickstart.5.0.3.N2.2b.bin
boot system bootflash:/n5000-uk9.5.0.3.N2.2b.bin


Nexus5K(config)#

Ohne Switch, direkt angeschlossen geht RDMA traffic, am Switch nicht.

Hab ich den Switch falsch konfiguriert?
Könnte mir bitte jemand bei der Konfiguration behilflich sein?

Content-ID: 2904534576

Url: https://administrator.de/contentid/2904534576

Ausgedruckt am: 21.11.2024 um 18:11 Uhr

2423392070
2423392070 26.05.2022 um 19:53:02 Uhr
Goto Top
Sieht auf'n ersten Blick gut aus. Es kann sein dass das Switch RDMA1 und 2 unterscheidet und diesbezüglich noch etwas Parameter will.
Ueba3ba
Ueba3ba 26.05.2022 um 19:58:43 Uhr
Goto Top
Hey, danke für deinen Beitrag.

Ich habe alle ConnectX3 Karten auf Roce V1 eingestellt. Falls du dass meintest mit RDMA 1 und 2.
2423392070
2423392070 26.05.2022 um 20:18:22 Uhr
Goto Top
Ich bin kein Cisco Pro mehr seit 2014, daher müsste ich jetzt erst Whitepapers wälzen...

Aber was mir noch auffällt ist, dass ggf ein DCB Parameter pro Port fehlt. Auch könnte es an FCoE Parametern pro Port fehlen. Die Ports müssen ja wissen, dass sie mit den globalen Parametern was zu tun haben.

Ich denke du solltest dir die Ports 1-6 angucken. Da liegt der Hase im Pfeffer.
2423392070
2423392070 26.05.2022 um 20:37:40 Uhr
Goto Top
Es könnte noch mehr fehlen... Außerdem verstehe ich einen Satz so, dass du es Lizenz nötig ist/sein kann.
https://www.cisco.com/c/en/us/td/docs/switches/datacenter/nexus5000/sw/o ...
Ueba3ba
Ueba3ba 27.05.2022 aktualisiert um 13:39:31 Uhr
Goto Top
Du beziehst dich bestimmt auf:

3. Cisco NX-OS Release 4.1(3)N1(1) or a later release.
4. FC Features Package (FC_FEATURES_PKG) is necessary for running FCoE. If this is not installed,
there will be a temporary license that will last 90 days.

Ich bin auch kein Cisco Experte, und mit der QOS Config kenne ich mich so gut wie überhaupt net aus.

Dennoch verwirrt mich eins: Was hat das mit FCoE zu tun?

Ich habe meine Nodes ganz normal über Ethernet angebunden und nicht über Fibre Channel over Ethernet.
Auf das Storage wird über SMB3 zugegriffen.
Ueba3ba
Lösung Ueba3ba 28.05.2022 um 18:35:10 Uhr
Goto Top
Hallo allerseits.

Ich konnte mein Problem lösen!

Alle NIC's, die RDMA machen, müssen ein VLAN-TAG erhalten.
Alle Ports auf dem Nexus Switch über die RDMA Traffic laufen soll müssen im Trunk Modus sein und das entsprechende Vlan erlauben.


So schaut meine Nexus Config nun aus:

N5K(config)# sh run

!Command: show running-config
!Time: Sat May 28 15:25:13 2022

version 5.0(3)N2(2b)
no feature telnet
no telnet server enable
no feature ssh
feature lldp

username admin password 5 $1$9ehtvPYv$BNH5FQ89cYGNqvHphVtTf1  role network-admin
no password strength-check
ip domain-lookup
switchname N5K
class-map type qos class-fcoe
class-map type qos match-all roce
  match cos 5
class-map type queuing roce
  match qos-group 5
class-map type queuing class-fcoe
  match qos-group 1
class-map type queuing class-all-flood
  match qos-group 2
class-map type queuing class-ip-multicast
  match qos-group 2
policy-map type qos roce
  class roce
    set qos-group 5
  class class-fcoe
    set qos-group 1
policy-map type queuing roce
  class type queuing roce
    bandwidth percent 70
  class type queuing class-fcoe
    bandwidth percent 20
  class type queuing class-default
    bandwidth percent 10
class-map type network-qos roce
  match qos-group 5
class-map type network-qos class-fcoe
  match qos-group 1
class-map type network-qos class-all-flood
  match qos-group 2
class-map type network-qos class-ip-multicast
  match qos-group 2
policy-map type network-qos roce
  class type network-qos roce
    pause no-drop
    mtu 5000
  class type network-qos class-fcoe
    pause no-drop
    mtu 2158
  class type network-qos class-default
    mtu 9216
    multicast-optimize
system qos
  service-policy type qos input roce
  service-policy type queuing input roce
  service-policy type queuing output roce
  service-policy type network-qos roce
snmp-server user admin network-admin auth md5 0xdf70cfdc76ddb562a87e519c32757594
 priv 0xdf70cfdc76ddb562a87e519c32757594 localizedkey
snmp-server community Nexus group network-operator

vrf context management
vlan 1
vlan 200
  name Storage1
vlan 300
  name Storage3

interface Ethernet1/1
  priority-flow-control mode on
  switchport mode trunk
  switchport access vlan 200
  switchport trunk allowed vlan 200

interface Ethernet1/2
  priority-flow-control mode on
  switchport mode trunk
  switchport access vlan 300
  switchport trunk allowed vlan 300

interface Ethernet1/3
  priority-flow-control mode on
  switchport mode trunk
  switchport access vlan 200
  switchport trunk allowed vlan 200

interface Ethernet1/4
  priority-flow-control mode on
  switchport mode trunk
  switchport access vlan 300
  switchport trunk allowed vlan 300

interface Ethernet1/5
  priority-flow-control mode on
  switchport mode trunk
  switchport access vlan 200
  switchport trunk allowed vlan 200

interface Ethernet1/6
  priority-flow-control mode on
  switchport mode trunk
  switchport access vlan 300
  switchport trunk allowed vlan 300

interface Ethernet1/7
  priority-flow-control mode on
  switchport mode trunk
  switchport access vlan 200
  switchport trunk allowed vlan 200

interface Ethernet1/8
  priority-flow-control mode on
  switchport mode trunk
  switchport access vlan 300
  switchport trunk allowed vlan 300

interface Ethernet1/9
  priority-flow-control mode on
  switchport mode trunk
  switchport access vlan 200
  switchport trunk allowed vlan 200

interface Ethernet1/10
  priority-flow-control mode on
  switchport mode trunk
  switchport access vlan 300
  switchport trunk allowed vlan 300

interface Ethernet1/11

interface Ethernet1/12

interface Ethernet1/13

interface Ethernet1/14

interface Ethernet1/15

interface Ethernet1/16

interface Ethernet1/17

interface Ethernet1/18

interface Ethernet1/19

interface Ethernet1/20

interface Ethernet1/21

interface Ethernet1/22

interface Ethernet1/23

interface Ethernet1/24

interface Ethernet1/25

interface Ethernet1/26

interface Ethernet1/27

interface Ethernet1/28

interface Ethernet1/29

interface Ethernet1/30

interface Ethernet1/31

interface Ethernet1/32

interface mgmt0
line console
line vty
boot kickstart bootflash:/n5000-uk9-kickstart.5.0.3.N2.2b.bin
boot system bootflash:/n5000-uk9.5.0.3.N2.2b.bin

Hier auch der Link zu der Anleitung die mir sehr weitergeholfen hat:

RDMA Anleitung


Cluster ist soweit konfiguriert und läuft.

Die Geschwindigkeit lässt meiner Meinung nach etwas zu wünschen übrig.

Siehe Bilder:

Hab euch auch mal ein Bild von meinem System gemacht face-smile
img_2263.
img_2264.
img_2265.
img_2261.
img_2262.
Ueba3ba
Ueba3ba 17.06.2022 um 12:47:42 Uhr
Goto Top
Noch mal auf die Performance zurück:

Als HBA werden je Node ein HP P822 6Gb/s Controller genutzt.
6Gb/s sind 600 MByte/s, klar.

Die 2* 24 HDD's sind auch SAS Platten 10K 6Gb/s

Der Controller besitzt 24 Leitungen!
Kann ich davon ausgehen, dass über jede Leitung 600 MByte die Sekunde übertragen werden kann und das gleichzeitig auf jeder Leitung?

Dann sollte ich ja zumindest mal meine 10Gbit/s schaffen müssen, oder? Da S2D mit 24 Platten ?

Hätte besser in ein 12G Storage investiert!

Also mit der Performance bin ich nicht ganz zufrieden.
Klar, es sind keine SSD's verbaut, nur HDD's.
Wäre es performanter mit SSD's?? Hätte doch dann einen Flaschenhals, der HBA mit seinen 6Gb/s ??

Hat mein System noch Potential noch oben? Außer auf SSD's zu gehen(eventuell)?

Wie kann ich am besten die Performance mal richtig testen, außer Win-Server ISO hin und her zu kopieren.

IPerf?
2423392070
2423392070 17.06.2022 um 19:11:48 Uhr
Goto Top
IOMeter und 16 Wartenschlagen mit unterschiedlichen Blockgrößen usw... Oder noch mehr.

Ja, SSDs bringen auch bei 6GBit SAS etwas.
Ueba3ba
Ueba3ba 17.06.2022 um 19:18:42 Uhr
Goto Top
IOMeter? 16 Wartenschlagen? Verstehe ich nicht! SSD‘s bringen was bei 6Gb/s! Danke für die Informationen. Werde ich mit einplanen.

Unterschiedliche Blockgrössen? Keine Ahnung was du meinst. Sorry. Erleuchtete mich bitte.
2423392070
2423392070 17.06.2022 um 20:31:59 Uhr
Goto Top
Du willst doch wissen, was blocktechnisch die Möhre kann! SAS hat, wenn Treiber, Os und Schnittstellen passen, einige Vorteile gegenüber SATA. Auch wenn SATA Platten im Shelf sind.

Die Warteschlangen sind hier "Worker" https://www.youtube.com/watch?v=qtwlKLVxwuw

Hier gängige IO Größen beim Benchmarken: https://img.raymond.cc/blog/wp-content/uploads/2008/02/atto_disk_benchma ...

Wenn du weißt, was deine Kiste roh kann, kannst Du dein Dateisystem ggf ändern, wenn Potential zur Optimierung hat.