3750er
Goto Top

Probleme mit Spanning-Tree bei Cisco 3750 Switchen

Hallo zusammen,

letzte Woche kam es bei einem unserer Standorte zu einem Ausfall der aktiven Netzwerk-Infrastruktur (Switche).

Anscheinend kam es zu einem Problem innerhalb des Spanning-Tree.... Im Erdgeschoss dieses Standortes sind 3x Cisco 3750 in einem Stack / im 1. OG haben wir 2x Cisco 3750 im Stack. Die Uplinks werden wie folgt hergestellt:

EG: Gi 1/0/1 nach 1. OG: Gi 1/0/1 (über LWL im SFP-Port)
EG: Gi 2/0/2 nach 1. OG Gi 2/0/2 (über LWL im SFP-Port)

Auf den Switchen ist Portfast aktiv; an den Gigabit ("Uplink") Schnittstellen ist Portfast deaktiviert. Loopguard ist ebenfalls standardarmäßig aktiv, hat aber nicht gegriffen.

Die Switchte meldeten "flapping" (Fehlermeldungen siehe unten).... Einen "dummen" Switch, d.h. ohne Spanning-Tree-Protokoll haben wir nicht im Einsatz.

In der gleichen Nacht kam es zu einem "Crash" eines der beiden Switche im 1.OG (Fehlermeldung siehe unten)

Temporär haben wir eine der beiden LWL Strecken auf "shutdown" gesetzt.

Wenn jemand eine Idee für mich hätte wäre es echt super face-wink..... Ich gehe fast davon aus, dass einer der Switche einen Defekt hat (insbesondere da noch dieser ominöse "Crash" dazu kam).

Vielen Dank schonmal vorab!!

Viele Grüße
Ralf


Folgende Konfiguration wird gefahren:
(ist die Konfiguration aus dem EG; die Konfig im 1. OG ist analog)

!
version 12.2
no service pad
service timestamps debug datetime msec localtime show-timezone
service timestamps log datetime msec localtime show-timezone
service password-encryption
!
hostname IST_EGAL
!
logging buffered 1000000 debugging
enable secret 5 IST_EGAL
!
username IST_EGAL secret 5 IST_EGAL
username IST_EGAL secret 5 IST_EGAL
no aaa new-model
clock timezone MEZ 1
clock summer-time MESZ recurring 2 Sun Apr 2:00 1 Sun Oct 3:00
switch 1 provision ws-c3750-24p
switch 2 provision ws-c3750-24p
switch 3 provision ws-c3750-24p
system mtu routing 1500
ip subnet-zero
ip domain-name IST_EGAL
ip name-server IST_EGAL
!
errdisable recovery cause bpduguard
errdisable recovery cause loopback
no file verify auto
!
spanning-tree mode pvst
spanning-tree loopguard default
spanning-tree logging
spanning-tree portfast default
spanning-tree portfast bpduguard default
spanning-tree extend system-id
!
vlan internal allocation policy ascending
!
!
interface GigabitEthernet1/0/1
description UPLINK ins 1. OG
switchport trunk encapsulation dot1q
switchport mode trunk
spanning-tree portfast disable
!
interface GigabitEthernet2/0/2
description UPLINK ins 1. OG
switchport trunk encapsulation dot1q
switchport mode trunk
spanning-tree portfast disable
!


Folgende Fehlermeldungen traten auf:
(Auszug aus dem Switch im 1. OG)

.Dec 22 22:31:47.691 MEZ: %SW_MATM-4-MACFLAP_NOTIF: Host <<MAC-ADRESSE>> in vlan 1 is flapping between port Gi1/0/1 and port Gi2/0/2
.Dec 22 22:31:48.219 MEZ: %SW_MATM-4-MACFLAP_NOTIF: Host <<MAC-ADRESSE>> in vlan 1 is flapping between port Gi1/0/1 and port Gi2/0/2
.Dec 22 22:31:48.404 MEZ: %SW_MATM-4-MACFLAP_NOTIF: Host <<MAC-ADRESSE>> in vlan 1 is flapping between port Fa1/0/19 and port Gi2/0/2
.Dec 22 22:31:49.083 MEZ: %SW_MATM-4-MACFLAP_NOTIF: Host <<MAC-ADRESSE>> in vlan 1 is flapping between port Gi1/0/1 and port Gi2/0/2



Fehlermeldung des "Crashs":
(Switch im 1. OG)

Dec 23 02:12:20.778 MEZ: %SPANTREE-5-ROOTCHANGE: Root Changed for vlan 7: New Root Port is GigabitEthernet1/0/1. New Root Mac Address is << MAC-ADRESSE >>(SWITCH_1og-1)
Dec 23 02:12:49.039 MEZ: %SPANTREE-5-TOPOTRAP: Topology Change Trap for vlan 1 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: System previously crashed with the following message: (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Cisco IOS Software, C3750 Software (C3750-IPBASE-M), Version 12.2(35)SE5, RELEASE SOFTWARE (fc1) (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Copyright (c) 1986-2007 by Cisco Systems, Inc. (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Compiled Thu 19-Jul-07 19:15 by nachen (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Debug Exception (Could be NULL pointer dereference) Exception (0x2000)! (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: SRR0 = 0x0064A164 SRR1 = 0x00029230 SRR2 = 0x0064899C SRR3 = 0x00020000 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: ESR = 0x80000000 DEAR = 0x00000000 TSR = 0x8C000000 DBSR = 0x10000000 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: CPU Register Context: (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Vector = 0x00002000 PC = 0x0099F0D4 MSR = 0x00029230 CR = 0x30000005 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: LR = 0x0099EFFC CTR = 0x00216D28 XER = 0xC000002E (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: R0 = 0x00000000 R1 = 0x01D3FC68 R2 = 0x00000000 R3 = 0x00000000 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: R4 = 0xFFFFFFFE R5 = 0x00000000 R6 = 0x01D3FC40 R7 = 0x00000000 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: R8 = 0x00029230 R9 = 0x016D0000 R10 = 0x01A539C0 R11 = 0x00000000 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: R12 = 0x0000001B R13 = 0x00110000 R14 = 0x00FCE7DC R15 = 0x00000000 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: R16 = 0x00000000 R17 = 0x00000000 R18 = 0x00000000 R19 = 0x00000000 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: R20 = 0x00000000 R21 = 0x00000000 R22 = 0x00000000 R23 = 0x00000000 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: R24 = 0x00000000 R25 = 0x00000000 R26 = 0x00986562 R27 = 0x017E25D0 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: R28 = 0x017E467C R29 = 0x0155C700 R30 = 0x00000000 R31 = 0x03283098 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Stack trace: (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: PC = 0x0099F0D4, SP = 0x01D3FC68 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Frame 00: SP = 0x01D3FC78 PC = 0x0099EFD4 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Frame 01: SP = 0x01D3FC98 PC = 0x00FCB6D4 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Frame 02: SP = 0x01D3FCC0 PC = 0x00FCC540 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Frame 03: SP = 0x01D3FCD8 PC = 0x00FCE670 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Frame 04: SP = 0x01D3FCF0 PC = 0x00FCE898 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Frame 05: SP = 0x01D3FCF8 PC = 0x009A0E90 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: Frame 06: SP = 0x00000000 PC = 0x00998464 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: (SWITCH_1og-1)

Content-ID: 132350

Url: https://administrator.de/contentid/132350

Ausgedruckt am: 26.11.2024 um 08:11 Uhr

brammer
brammer 28.12.2009 um 10:30:07 Uhr
Goto Top
Hallo,

hat diese Config jemals sauber funktioniert?
Ist irgendwasgeändert worden?

Wieso verwendet ihr zwei unabhänigeTrunks?
(Das wird immer Probleme geben, da alle VLANs auf den Trunks erlaubt sind und das dementsprechende VLAN immer auf beiden Ports auftauchen kann!
Alleine um das Problem zu umfahren würde ich die beiden Trunks auf den Stacks zu einem Etherchannel zusammenfassen.

Auf jeden Fall überprüfen ob die SFP's in den Cisco's richtig stecken und nicht einer eventuell rausgerutscht ist oder locker ist und dadurch ein Verbindungsproblem Auftritt.



.Dec 22 22:31:48.404 MEZ: %SW_MATM-4-MACFLAP_NOTIF: Host <<MAC-ADRESSE>> in vlan 1 is flapping between port Fa1/0/19 and port Gi2/0/2

Ist am Port 19 der Host mit der betroffenen Mac Adresse angeschlossen oder hängt der garnicht da dran?
Wenn der Host wo anders dran hängt würde ich auf einen Ring tippen, irgendwo eine zusätzliches Kabel das, wer weiß wer, gesteckt hat.

brammer

edit
Außerdem solltest du dir mal Gedanken machen die beiden Stacks auf eine aktuellere IOS Version zu heben.

(C3750-IPBASE-M), Version 12.2(35)SE5

Ist bereits zwei Jahre alt und aktuell wäre die Version c3750-ipbase-tar.122-53.SE.tar

brammer
edit
3750er
3750er 28.12.2009 um 11:09:40 Uhr
Goto Top
Hallo,

vielen Dank für Deine Antwort.

Die Konfiguration lief für ca. fünf Tage problemlos (der Standort wurde neu in Betrieb genommen).

Änderungen wurden seit diesem Aufbau nicht vorgenommen.

Was wir soweit ausschließen können (Problem trat gegen ca. 20 Uhr auf)... Ist dass ein SFP rausgerutscht ist oder dass jemand ein Kabel gesteckt hat, da an dem Standort ab 19 Uhr definitiv keiner mehr ist / war.

Die Meldungen mit dem "flapping between....." war wahllos aus show log rauskopiert.... es werden dort noch weit aus mehr Schnittstellen genannt.

Da ich noch relativ "jung" im Switching Thema bin werde ich Deinen Tipp mit dem Etherchannel auf jeden Fall umsetzen..... vielleicht bekomm ich's ja damit in den Griff.... Fraglich ist für mich bloß warum es fünf Tage problemlos lief.....

Erst mal HERZLICHEN DANK!!

Viele Grüße
Ralf
3750er
3750er 28.12.2009 um 11:13:43 Uhr
Goto Top
zu Deinem Edit....

in der Vergangenheit war es so, dass die Switche quasi auf dem IOS das geliefert wurde "eingefroren" wurde. Anscheinend ist mein Unternehmen damit bisher auch ganz gut gefahren....

vielleicht sollten wir das - aufgrund der aktuellen Gegebenheit - jedoch ändern face-wink

Wie gesagt, ich hab das Thema erst ziemlich frisch "übernommen"..... Wie das halt manchmal so läuft in der IT face-wink

nochmals vielen Dank & viele Grüße
Ralf
brammer
brammer 28.12.2009 um 11:28:19 Uhr
Goto Top
Hallo,

einen zeitlichen Zusammenhang zwischen dem Flapping Interface und dem Log Auszug kann ich im Moment nicht sehen, erstmal die zeitliche Differenz zwischen dem Flapping 22:31 Uhr und dem Crash 02:12 Uhr da ist für mich kein Zusammenhang erkennbar.
Aber auch inhaltlich nicht, das Flapping bezieht sich auf Port 19 und der Crash auf eine Root Änderung von VLAN 7.

Auch war der Crahs kein Totalaussetzer des Switches mit Reboot sondern "nur" eine Neuberechnung des Root. Ein 3750 braucht ca 90- 120 sekunden für einen kompletten Reboot. Die Log Aufzeichnung

Dec 23 02:12:49.039 MEZ: %SPANTREE-5-TOPOTRAP: Topology Change Trap for vlan 1 (SWITCH_1og-1)
Dec 23 02:13:15.102 MEZ: %PLATFORM-1-CRASHED: System previously crashed with the following message: (SWITCH_1og-1)

zeigen auf aber nur 36 sekunden, d.h. für mich, das es nur ein Topology Change war, kein Crash.
Die Frage wäre jetzt was ist um um 02:12 passiert?
Irgendeine Sicherung angesprungen?
Irgendeine Hardwareänderung (Reboot eines anderen Gerätes?).

Habt ihr sowas wie einen SYSlog oder KIWI Server auf dem die Meldung komplett gespeichert sind?
Vielleicht kannst du die Fehler Meldungen mal im Zeitlichen Kontext raussuchen und hier vegleichen.

brammer
brammer
3750er
3750er 28.12.2009 um 11:47:10 Uhr
Goto Top
Hallo,

leider haben wir (noch kein) Syslog-Server bzw. kein Netzwerk-Management-System.

Mir ist bewußt, dass das bei unserer Größe (ca. 150 Switche / 60 Server / 2.500 IP Endgeräte inkl. VoiP-Telefone) dringend erforderlich ist und dass hier dringend Handlungsbedarf besteht. Netzwerküberwachung ist für das nächste Jahr mit Nagios angedacht - das manuelle Überwachen ist in dieser Größenordnung nicht mehr möglich....

Stand heute läßt sich leider nicht mehr nachvollziehen ob ein Gerät rebootet hat. Eine Sicherung ist um diese Zeit nicht angelaufen.

Leider war das Netzwerk-Thema in der Vergangenheit nicht besonders "priorisiert" frei nach dem Motto "es läuft doch alles"....

Mittlerweile ist bewußt geworden, dass man für dieses Thema ("immerhin die Grundlage unseres Netzwerkes") dringend Wissen aufbauen und entsprechende Mangement Systeme und Tools etablieren muss.... Leider ein Feld das nicht innerhalb einiger weniger Tage fertig ist.... hier werden Wochen und Monate ins Land gehen bis alles "up-to-date" ist.

Viele Grüße
Ralf
brammer
brammer 28.12.2009 um 11:54:08 Uhr
Goto Top
Hallo,

diese Einsicht im Unternehmen ist doch schon mal ein guter Anfang.

brammer
3750er
3750er 28.12.2009 um 12:00:41 Uhr
Goto Top
jepp.... aber (m)ein weiter Weg face-wink

nochmal vielen Dank!!

Gruß
Ralf