freak-on-silicon
Goto Top

CISCO SX350X-24F Stackmember Bootschleife

Servus;

Habe hier zwei CISCO SX350X-24F. Das sind meine Core Swtich.

Die laufen mit der neuesten Firmware 2.5.9.16.

Sie sind mit zwei DAC Kabeln verbunden und sind ein STACK.
Die Unit ID ist bei beiden manuell zugewiesen.

Das ganze läuft seit 3 Jahren problemlos.

Letzte Firmware Update habe ich im Sommer eingespielt.

Nun zum Problem:

Aus dem Nichts heraus bootet sich der zweite immer neu sobald er gestartet ist.

Hier mal ein Auszug der CLI:
Unit number 2
--------------------------------

27-Feb-2023 04:54:37 %INIT-I-InitCompleted: Initialization task is completed


>27-Feb-2023 04:54:47 %CSCDLAG-I-UP: Stack port te23 operational status is UP
27-Feb-2023 04:54:47 %CSCDLAG-I-ACTIVE: Stack port te23 is active in stack LAG 1
27-Feb-2023 04:54:47 %CSCDLAG-I-UP: Stack port te24 operational status is UP
27-Feb-2023 04:54:47 %CSCDLAG-I-ACTIVE: Stack port te24 is active in stack LAG 1

--------------------------------
Unit number 2 active enabled
--------------------------------

27-Feb-2023 04:54:54 %MLDP-I-MEMBER: Switching to the member mode.
27-Feb-2023 04:54:54 %MLDP-I-CONNECT: Connection to Unit 1 is established.
02-Nov-2023 14:08:46 %Environment-W-RPS-STAT-MSG: Power supply source changed to Main Power Supply.
02-Nov-2023 14:08:46 %Entity-I-SEND-ENT-CONF-CHANGE-TRAP: entity configuration change trap.
02-Nov-2023 14:08:48 %CDB-I-LOADCONFIG: Loading running configuration.
02-Nov-2023 15:08:52 %Environment-I-FAN-STAT-CHNG: FAN# 1 status changed to operational.
02-Nov-2023 15:08:52 %Environment-I-FAN-STAT-CHNG: FAN# 2 status changed to operational.
02-Nov-2023 15:08:52 %Environment-I-FAN-STAT-CHNG: FAN# 3 status changed to operational.
02-Nov-2023 15:08:52 %Environment-I-FAN-STAT-CHNG: FAN# 4 status changed to operational.
02-Nov-2023 15:09:03 %MLDP-W-ABORT: Connection to Unit 1 is aborted due to Timeout.
Resetting local unit

**************************************************
*****************  SYSTEM RESET  *****************
**************************************************
[   97.896924] reboot: Restarting system

BootROM - 1.73
Booting from NAND flash, Secure modeBootROM: RSA Public key verification PASSED
BootROM: CSK block signature verification PASSED
BootROM: Boot header signature verification PASSED
BootROM: Flash ID verification PASSED


General initialization - Version: 1.0.0
AVS selection from EFUSE disabled (Skip reading EFUSE values)
Overriding default AVS value to: 0x23
Detected Device ID 6811
High speed PHY - Version: 2.0

Init Customer board mvHwsPexConfig: Link is Gen1, check the EP capability 
PCIe, Idx 0: Link upgraded to Gen2 based on client capabilities 
High speed PHY - Ended Successfully
DDR3 Training Sequence - Ver TIP-1.55.0
DDR3 Training Sequence - Switching XBAR Window to FastPath Window 
DDR3 Training Sequence - Ended Successfully
BootROM: Image checksum verification PASSED
BootROM: Boot image signature verification PASSED


Armada38x Booton: Jun 18 2019 16:47:43 ver. 2.1.3
efuse secure mode: ON

Press x to choose XMODEM...
Booting from NAND flash
Verify secure U-Boot pass
Running UBOOT...


U-Boot 2013.01 (Jun 07 2022 - 20:21:16)Version: 2016_T1.0 V3.5.7.13


NAND ID = 0xDA01
NAND Model = Spansion 2Gb 8bit
Loading system/images/active-image ...
Verify ROS secure Image pass, efuse is programmed
[    9.314772] I2C frequency 100 kHz (Tclk 200 MHz, freq_m 12, freq_n 3)
[    9.321580] I2C frequency 100 kHz (Tclk 200 MHz, freq_m 12, freq_n 3)
BOOTP ubi: Starting Boot...


MAC address   :  10:f9:20:c0:ed:f6.

Autoboot in 2 seconds - press RETURN or Esc. to abort and enter prom.

*****************************************************************
*** Running SW Ver. 2.5.9.16  Date Feb 27 2023  Time 16:53:52 ***
*****************************************************************

HW Revision is V03
Serial Number is PSZ25101E9Z
Base Mac address is: 10:f9:20:c0:ed:f6
Dram size is  : 512M bytes
Flash size is: 256M
27-Feb-2023 04:54:07 %CDB-I-LOADCONFIG: Loading running configuration.
27-Feb-2023 04:54:08 %CDB-I-LOADCONFIG: Loading startup configuration.
Device configuration:
Slot 1 - SX350X-24F
Device 0: CPSS_98DX8324
CPLD version is: 0x0a
CPU speed: 1333 MHz
Coredump mode 1 (disabled)

--------------------------------
Unit number 2
--------------------------------

27-Feb-2023 04:54:38 %INIT-I-InitCompleted: Initialization task is completed


>27-Feb-2023 04:54:47 %CSCDLAG-I-UP: Stack port te23 operational status is UP
27-Feb-2023 04:54:47 %CSCDLAG-I-ACTIVE: Stack port te23 is active in stack LAG 1
27-Feb-2023 04:54:47 %CSCDLAG-I-UP: Stack port te24 operational status is UP
27-Feb-2023 04:54:47 %CSCDLAG-I-ACTIVE: Stack port te24 is active in stack LAG 1

--------------------------------
Unit number 2 active enabled
--------------------------------

27-Feb-2023 04:54:54 %MLDP-I-MEMBER: Switching to the member mode.
27-Feb-2023 04:54:54 %MLDP-I-CONNECT: Connection to Unit 1 is established.
02-Nov-2023 14:11:28 %Environment-W-RPS-STAT-MSG: Power supply source changed to Main Power Supply.
02-Nov-2023 14:11:28 %Entity-I-SEND-ENT-CONF-CHANGE-TRAP: entity configuration change trap.
02-Nov-2023 14:11:31 %CDB-I-LOADCONFIG: Loading running configuration.
02-Nov-2023 15:11:34 %Environment-I-FAN-STAT-CHNG: FAN# 1 status changed to operational.
02-Nov-2023 15:11:35 %Environment-I-FAN-STAT-CHNG: FAN# 2 status changed to operational.
02-Nov-2023 15:11:35 %Environment-I-FAN-STAT-CHNG: FAN# 3 status changed to operational.
02-Nov-2023 15:11:35 %Environment-I-FAN-STAT-CHNG: FAN# 4 status changed to operational.
02-Nov-2023 15:11:47 %MLDP-W-ABORT: Connection to Unit 1 is aborted due to Timeout.
Resetting local unit

Es schaut alles gut aus, aber immer auf der selben Stelle schreibt er dann %MLDP-W-ABORT: Connection to Unit 1 is aborted due to Timeout. und startet neu.

Was habe ich gemacht?
Alle kabel abgesteckt, dann startet er ganz normal und macht sich selbst zum Master mit der Unit ID 2, und läuft brav dahin, so wie es sein soll.
Sobald ich, egal welches von den zweien DAC Kabel, in den Stack Port stecke, erlischt die LED bei Master und er rebootet neu, das würde ja auch passen, nur dann sobald er wieder gestartet ist, obiges Verhalten.

Hab den Switch komplett resettet und das STACK neu eingerichtet, keine Änderung.

Firmware ist aktuell.

Hat da wer eine Idee?

LOG vom Master, von unten nach oben:
Warning 	%CSCDLAG-W-DOWN: Stack port te23 operational status is Down   
Warning 	%CSCDLAG-W-DOWN: Stack port te24 operational status is Down   
Informational 	%CSCDLAG-I-ACTIVE: Stack port te24 is active in stack LAG 2   
Informational 	%CSCDLAG-I-UP: Stack port te24 operational status is UP   
Informational 	%CSCDLAG-I-ACTIVE: Stack port te23 is active in stack LAG 2   
Informational 	%CSCDLAG-I-UP: Stack port te23 operational status is UP   

Content-ID: 3645753474

Url: https://administrator.de/contentid/3645753474

Ausgedruckt am: 22.11.2024 um 06:11 Uhr

BlueSkillz
Lösung BlueSkillz 28.11.2023 um 17:10:31 Uhr
Goto Top
Moin,

nur mal so eine Idee, hast du mal versucht den Switch, welcher immer neu startet als Unit 1 einzurichten, wodurch dieser dann zu Master wird?
aqui
Lösung aqui 28.11.2023 aktualisiert um 17:55:23 Uhr
Goto Top
Strategisch vorgehen:
  • Konfig sichern
  • Switches trennen und Factory Reset
  • Checken ob beide im Standalone stabil booten
    • Ja = weitermachen, Nein = RMA
  • Dann zuerst NUR Stacking aktivieren und Switches automatisch joinen lassen. Bei nur 2 Membern braucht man keine Unit IDs statisch vergeben.
  • Checken ob Stack stabil rennt
    • Ja = Konfig editieren und nur die Rumpfkonfig Schritt für Schritt abschnittsweise per CLI zurückspielen um zu sehen ob die Fehlfunktion ggf. Konfig bedingt ist
    • Nein = Checken welcher Konfig Abschnitt den Fehler auslöst, sonst defekt und RMA
Freak-On-Silicon
Freak-On-Silicon 29.11.2023 um 10:18:39 Uhr
Goto Top
Zitat von @BlueSkillz:

Moin,

nur mal so eine Idee, hast du mal versucht den Switch, welcher immer neu startet als Unit 1 einzurichten, wodurch dieser dann zu Master wird?

Nein, da derzeit keine Downtime möglich ist.
Zitat von @aqui:

Strategisch vorgehen:
  • Konfig sichern
Ist sowieso immer aktuell gesichert
* Switches trennen und Factory Reset
Derzeit noch schwierig, Downtime ist derzeit nicht möglich
* Checken ob beide im Standalone stabil booten
Ja, machen sie
* Ja = weitermachen, Nein = RMA
  • Dann zuerst NUR Stacking aktivieren und Switches automatisch joinen lassen. Bei nur 2 Membern braucht man keine Unit IDs statisch vergeben.
  • Checken ob Stack stabil rennt
    • Ja = Konfig editieren und nur die Rumpfkonfig Schritt für Schritt abschnittsweise per CLI zurückspielen um zu sehen ob die Fehlfunktion ggf. Konfig bedingt ist
    • Nein = Checken welcher Konfig Abschnitt den Fehler auslöst, sonst defekt und RMA

Ich werd schaun dass ich demnächst mal beide resette und nur das STACK einrichte auf automatisch.

Sonst gibts eh nur mehr RMA.
aqui
aqui 04.12.2023 um 17:44:03 Uhr
Goto Top
Wenn es das denn erstmal war bitte deinen Thread dann auch als erledigt markieren!
Wie kann ich einen Beitrag als gelöst markieren?
Freak-On-Silicon
Freak-On-Silicon 18.01.2024 um 11:08:16 Uhr
Goto Top
Zur Info.

Ich hab das, vermeintlich defekte, Gerät ungefähr ein Monat lang einfach laufen lassen, ohne dass irgendetwas angesteckt war.

In der Weihnachtszeit wollte ich dann beide Switche komplett resetten und von 0 anfangen.

Als ich den zweiten, Switch wieder an den ersten angesteckt hatte (per Stack), passiert was ungewöhnliches.

Nicht wie sonst der zweite sondern der Erste hat sich neu gestartet, der zweite war nun der Master.

Nach dem Neustart funktioniert jetzt wieder alles wie vorher. Nun ist nach einiger Zeit auch wieder der Erste zum Master geworden, keinerlei Probleme bis jetzt.

Was auch immer da los war...