coreknabe
Goto Top

SSH-Aufwahl auf ICX7450 nicht möglich - EXT4-Error

Moin,

wir haben ein Problem mit einem Brocade / Ruckus ICX7450, FW ist 09010f. Zufällig haben wir bemerkt, dass keine SSH-Aufwahl mehr möglich ist --> wird sofort geblockt.

Also mit dem Laptop an die Switchkonsole. Sieht erst mal gut aus, ich logge mich ein. Weil der Azubi daneben steht, will ich ihm eine Übersicht der Kommandos mit <?> zeigen. Einige Kommandos werden noch angezeigt, dann kommt eine Fehlermeldung:

[29013847.089481] EXT4-fs error (device sda3): ext4_find_entry:1451: inode #4396: comm sh: reading directory lblock 0
[29013847.215221] EXT4-fs error (device sda3): ext4_find_entry:1451: inode #4396: comm sh: reading directory lblock 0
[29013847.341142] EXT4-fs error (device sda3): ext4_find_entry:1451: inode #4023: comm sh: reading directory lblock 0
[29013847.469639] EXT4-fs error (device sda3): ext4_find_entry:1451: inode #4023: comm sh: reading directory lblock 0
[29013847.598021] EXT4-fs error (device sda3): ext4_find_entry:1451: inode #4023: comm sh: reading directory lblock 0
[29013847.726607] EXT4-fs error (device sda3): ext4_find_entry:1451: inode #657: comm sh: reading directory lblock 0
[29013847.853623] EXT4-fs error (device sda3): ext4_find_entry:1451: inode #657: comm sh: reading directory lblock 0
[29013847.982786] EXT4-fs error (device sda3): ext4_find_entry:1451: inode #657: comm sh: reading directory lblock 0

Unschön. Ich versuche mich mit dem Privileged Account anzumelden:

enable

Login:admin

Password:
[29013772.159087] EXT4-fs error (device sda3): ext4_find_entry:1451: inode #4128: comm aaa_server.py: reading directory lblock 0
Error - Incorrect username or password.

Das Passwort ist definitiv korrekt, Username ebenso. Die Fehlermeldung deutet aus meiner Sicht auch darauf hin, dass die Authentifizierung nicht ausgeführt werden kann.

Dann komme ich minutenlang nicht an die Konsole, auf Tastatureingaben erfolgt keine Reaktion. Zwischendurch an anderem Switch probiert, geht. Wieder zurück an den Problemswitch: Schwarzer Bildschirm. Irgendwann geht es wieder, bis zur Einwahl mit dem Privileged Account, s.o.

Das Switching an sich funktioniert weiter problemlos, zumindest fallen mir keine offensichtlichen Probleme auf.

Supportticket ist geöffnet, dauert dank Partnersupport aber etwas, da frage ich parallel mal die Profis hier face-wink

Die Fehlermeldung an sich ist ja eigentlich recht eindeutig: Dateisystem korrupt. Frage ist nun, ob das rein am Dateisystem liegt oder ein Hardwarefehler dahintersteckt. Ich weiß, eine Glaskugel hat hier niemand, geht mir um eine Einschätzung / Erfahrungswerte. Ich habe auch einen Ersatzswitch, den ich schon mit dem Konfig-Backup betankt habe, könnte also durchtauschen. Sollte allerdings der Switch getauscht werden müssen, muss ich den Ersatzswitch dann auch wieder tauschen, was ich vermeiden möchte, weil aus Gründen...

Ich habe bei Ruckus mal geschaut, die neueste FW ist die 09010j_cd3 (dass die cd-Versionen basteln, beruhigt mich erstmal nicht...). In den Release Notes heißt es bei Fehlern, die diese Version behebt, u.a.:

Issue                FI-286970
Symptom        Unable to access ICX console , SSH , Telnet session
Condition        Using Unimus tool to access switch via SSH and providing invalid user credentials
Workaround    No workaround
Recovery         Reload of the device

Das wiederum wirft weitere Fragen auf. Sind die EXT4-Fehler und die nicht mögliche SSH-Aufwahl zwei verschiedene Probleme, die nichts miteinander zu tun haben?
Der oben beschriebene Fehler trifft nicht auf uns zu, ich versuche die Aufwahl mit Putty, nicht mit dem Unimus Tool. Finde ich auch ein wenig schräg, letztlich dürfte doch auch das Unimus Tool nur SSH zur Aufwahl verwenden?

Sollte jemand jetzt immer noch mitlesen, vorab vielen Dank face-wink Noch dankbarer bin ich für hilfreichen Input!

Gruß

Content-ID: 4953034634

Url: https://administrator.de/contentid/4953034634

Printed on: September 1, 2024 at 08:09 o'clock

Lochkartenstanzer
Lochkartenstanzer Aug 07, 2024 updated at 06:06:53 (UTC)
Goto Top
Moin,

Ich kenne den switch zwar nicht, aber wenn das Filesystem defekt ist, und das Ding dadurch die Anmeldedaten nicht findet, ist es naheliegend, daß dann auch ssh nicht funktioniert.

Für mich wäre da ein Werksreset mit reload der Konfiguration naheliegend, um zu schauen, ob sich damit das Filesystem frisch schreiben läßt.

Jedenfalls ist das nichts, was man auf die lange Bank schieben sollte, wenn das in einer Produktivumgebung ist.

Wenn ich einen Ersatzswitch verfügbar hätte, würde ich umklemmen und dann in Ruhe den Fehler analysieren.


lks
Coreknabe
Coreknabe Aug 07, 2024 at 06:13:41 (UTC)
Goto Top
Moin lks,

danke für die schnelle Rückmeldung!

Sehe ich letztlich ähnlich. Ich habe auf dem Switch ein Primary (aktuell gestartet) und ein Secondary Image, von dem ich booten kann. Wenn ich den Switch jetzt hart ausschalte und den Bootvorgang abbreche, um dann das Secondary Image zu booten... Sollte dann alles funktionieren, könnte ich testweise das Primary Image updaten und es erneut probieren.

Gruß
aqui
aqui Aug 07, 2024 updated at 12:09:24 (UTC)
Goto Top
Du solltest auf dem 7450 keine 9er Firmware einsetzen sondern immer das von Ruckus für diese Plattform recommendete 8.0.95er Release!! Aktuell ist der p Patch!
Das 9er Release ist nur ein temporäres Transition Release zum 10er Releasetrain, also kein Long Term Release. Das 10er Image wird für den 7450 nicht mehr supportet werden. Deshalb solltest du immer auf dem 8.0.95er Train bleiben für den ICX7450.

Hier solltest du zwingend darauf achten immer das UFI Release zu installieren!! Sollte das nicht geschehen sein musst du den aktuellsten 8.0.95er Boot Code dazu installieren und dann das UFI Release flashen. (copy tftp flash xyz bootrom)
Der EXT4 Filesystem Error zeigt das irgendein Update dort vermutlich fehlerhaft gemacht wurde und das Flash Filesystem ggf. corrupted ist. Passiert häufig wenn die Transition zur UFI Imageversion fehlerhaft gehandhabt wurde. Über den Bootloader kannst du das korrigieren!
https://www.youtube.com/watch?v=Ql22blH_CGo

In jedem Falle ist dringenst zu empfehlen auf die 8.0.95er UFI Version zurückzugehen und vorher das Flash sauber neu zu formatieren.
Idealerweise packt man die L2 Version ins Primary Flash und die L3 (Routing) Version ins Secondary und kann dann je nach Bedarf L2 oder L3 (Routing Image) booten. („S“ im Imagenamen=Switching Image, „R“=Routing, L3 Image)

Der Rest zum Aufsetzen des SSH Zugangs ist dann das klassische Prozedere…
  • Domain Name setzen, denn der wird benötigt im den RSA Key zu erstellen
  • crypto key generate rsa modulus 2048 ausführen um den RSA Key zu erstellen
  • SSHv2 und Cipher Suite setzen

Teilweise werden die alten SHA1 Cipher Suites nicht mehr supportet von einigen modernen SSH Clients aber ein Fix ist da schnell gemacht und für die Ruckus ICX gilt dann genau das gleiche was auch für Cisco SSH gilt. Guckst du hier:
Cisco 880, 890 und ISR Router Konfiguration mit xDSL, Kabel oder FTTH Anschluss plus VPN und IP-TV

Nebenbei muss man solche brutalen Maßnahmen wie hart ausschalten um ein anders Flash Image zu booten gar nicht machen.
Ein bsfs (boot system flash secondary) auf der Konsole bootet sofort das Secondary Image. Das Primary dann mit einem „p“ statt des „s“.
Alternativ kann man es in der Konfig fest mit dem o.a. Kommando eingeben was dann immer das Secondary Image vom Flash bootet. Booten vom Primary ist immer Default.
Alternativ kann man ein Image auch direkt vom TFTP Server booten oder, sofern auf der HW vorhanden, auch von einem lokalen FAT32 formatierten USB Stick!
Coreknabe
Coreknabe Aug 08, 2024 updated at 08:25:39 (UTC)
Goto Top
Moin @aqui,

oha, Mecker vom Chef face-big-smile

Die 9er-Version hatten wir seinerzeit installiert, weil uns in der 8er ein Feature fehlte, wir das aber brauchten. DAI? Kann mich nicht erinnern.
Ich habe in all den Jahren keine Probleme gehabt, auch wenn Du natürlich grundsätzlich Recht hast. Die 10er brauchen wir Stand jetzt eh nicht, wahrscheinlich ist die Hardware dann auch irgendwann zu alt für neue Features.

Der EXT4 Filesystem Error zeigt das irgendein Update dort vermutlich fehlerhaft gemacht wurde und das Flash Filesystem ggf. corrupted ist.

Nein, das letzte Update hatte ich vor etwa einem Jahr gemacht. Wäre beim Update etwas schiefgegangen, hätte ich das früher bemerkt.

Passiert häufig wenn die Transition zur UFI Imageversion fehlerhaft gehandhabt wurde.

Die UFI-Version betreiben wir schon länger. Beliebter Fehler übrigens beim Update auf UFI: Nach dem Flashen passiert die eigentliche Aktualisierung im Hintergrund. Ich kann theoretisch schon wieder mit der CLI arbeiten. Wenn dann der Switch neu gestartet wird, ist das Image Matsch. Habe ich auch auf die harte Tour gelernt, hilft aber, wenn man mal ein Image Recovery lernen möchte face-wink

Idealerweise packt man die L2 Version ins Primary Flash und die L3 (Routing) Version ins Secondary und kann dann je nach Bedarf L2 oder L3 (Routing Image) booten. („S“ im Imagenamen=Switching Image, „R“=Routing, L3 Image)

Ganz klar nein! Es gibt Fälle, in denen das Primary Image nicht mehr startet und mir das Secondary das Hinterteil retten kann. Mit dem Routing Image kann ich spontan nichts anfangen (Konfiguration!). Wir kopieren das Primary immer auf Secondary.

Nebenbei muss man solche brutalen Maßnahmen wie hart ausschalten um ein anders Flash Image zu booten gar nicht machen.

Aufmerksame Leser werden bemerkt haben, dass ich keinerlei CLI-Zugriff mehr habe. Vielleicht macht die Aktivierung des Web Interfaces für so einen Fall doch Sinn face-wink

Ansonsten ein Update: Der Support möchte natürlich kostensparend arbeiten und hat mich gebeten, den Switch einfach neu zu starten. Mit Glück repariert der Switch das Filesystem beim Neustart, in jedem Fall sehe ich Fehlermeldungen, die hilfreich sein könnten.
Äh, ne, mache ich nicht, keine Ahnung, ob das ein Hardwaredefekt ist oder nicht, aber Ihr schickt mir bitte einfach Ersatz! Passiert jetzt nach kurzer Diskussion auch. Ich tausche den Switch morgen gegen ein Ersatzgerät aus und berichte dann wieder.

Gruß
aqui
aqui Aug 08, 2024 updated at 09:01:02 (UTC)
Goto Top
weil uns in der 8er ein Feature fehlte
Welches sollte das sein?
Wäre beim Update etwas schiefgegangen, hätte ich das früher bemerkt.
Fehler bei der Migration zur UFI Varante merkt man ausschließlich nur wenn man sich akribisch die Boot Messages über die Konsole ansieht, denn nur da werden Filesystem Errors dokumentiert. Das UFI Bootrom formatiert das interne Flash in einem neuen Format. Nur ein kleiner Bruchteil der Admins schenkt den Bootmessages Aufmerksamkeit, besonders nach der UFI Migration was dann oft zu diesen File System Errors führt. Hoffen wir mal das du hier aufmerksamer warst?! Deine Erfahrungen mit der „Wartezeit“ im CLI sprechen glücklicherweise dafür.face-wink Dennoch sollte man den Bootvorgang nochmal beobachten um sicherzugehen.
Mit dem Routing Image kann ich spontan nichts anfangen
Da wirst du dich dann in Zukunft umgewöhnen müssen! Ab dem 10er Image wird es nur noch L3 Images geben. Kannst du schon am neuen 8200 sehen! face-wink
Auch wenn Primary oder Secondary in seltenen Fällen nicht mehr startet retten einem immer der Bootloader den Gluteus maximus denn das ist der eigentliche Held. Mit aktueller HW kann man auch ein Image von einem USB Stick über den Bootloader booten.
dass ich keinerlei CLI-Zugriff mehr habe.
SSH ist ja bekanntlich noch nicht alles. Hast du denn zu mindestens TELNET auch einmal eine Clhance gegeben??
Gut das du Service hast, da ist ein RMA dann oftmals stressfreier! 😉
Case closed!
How can I mark a post as solved?
Coreknabe
Coreknabe Aug 08, 2024 at 09:30:01 (UTC)
Goto Top
Welches sollte das sein?
s.o., weiß ich nicht mehr face-wink

Nur ein kleiner Bruchteil der Admins schenkt den Bootmessages Aufmerksamkeit, besonders nach der UFI Migration was dann oft zu diesen File System Errors führt. Hoffen wir mal das du hier aufmerksamer warst?!

Wenn ich den Ersatzswitch boote, logged Herr Putty das alles für mich mit, da will ich natürlich sicher gehen. Bei Updates mache ich das ehrlicherweise nicht.

Ab dem 10er Image wird es nur noch L3 Images geben. Kannst du schon am neuen 8200 sehen!

Ach Gottchen, ich hoffe, unsere 7450 und 7250 laufen noch einige Jahre und irgendwann winkt auch mein Altenpflegeroboter face-wink

Hast du denn zu mindestens TELNET auch einmal eine Clhance gegeben??

Zukünftig ignoriere ich meine Kaffeetasse, wenn ich Deine Postings lese, sonst muss ich nicht nur einen Switch tauschen, sondern auch meinen Monitor. Aus der beliebten Rubrik: Anwender - So doof kannste gar nicht denken.
Tatsächlich habe ich telnet auf den Switchen als Sicherheitsminimalist deaktiviert.

EDIT: Das müsste man sogar extra aktivieren, per Default ist das aus:
https://docs.commscope.com/bundle/fastiron-10010-managementguide/page/GU ...

Gut das du Service hast, da ist ein RMA dann oftmals stressfreier!

Naja, ohne Service würden die sich mein Gejammer ja nicht einmal anhören face-wink Habe aber nur eine Handvoll Switches im Service (alle 7450 und einen 7250), für Notfälle wie diesen. Bei reinen HW-Defekten ist es meist günstiger, sich einen kleinen Vorrat mit Refurbished Geräten (inkl. Garantie!) zuzulegen. Nützt aber bei Konfig-Fragen natürlich nix.

Case closed!

Nö, ich will ja noch am defekten Switch etwas ausprobieren und meine hoffentlich hilfreichen Erkenntnisse hier verbreiten!

Gruß
aqui
aqui Aug 08, 2024 updated at 12:09:59 (UTC)
Goto Top
Das müsste man sogar extra aktivieren, per Default ist das aus:
Nope!!
Zeigt leider das du die Doku nicht richtig gelesen hast! 🧐
Gilt nur unter 2 Voraussetzungen:
  • Image muss ein 10er Image sein!
  • Hardware muss den gelisteten Modellen entsprechen. (Sind eh nur die die überhaupt ein 10er Upgrade supporten! face-wink )
Fazit:
Beides trifft bei deinem 7450 nicht zu und folglich ist Telnet immer im Default aktiv! face-wink

Mit den refurbished Geräten hast du absolut Recht. 👍
…und für Konfig Fragen gibt’s ja das hiesige Forum! 😉
Coreknabe
Solution Coreknabe Aug 13, 2024 at 12:11:46 (UTC)
Goto Top
Moin,

um der Bitte von @aqui zu entsprechen, abschließend dies:

  • Switch getauscht
  • Mutmaßlich defekten Switch neu gestartet, über Konsole beobachtet. Resultat: Startet ohne jegliche Fehlermeldung, scheinbar alles wieder gut. Nun denn...
  • Testweise über's Wochenende laufen lassen, kein Problem, allerdings fehlte natürlich jegliche Last.

Da Ruckus den RMA-Vorgang so schön angeschubst hat und der sich wohl nur unter starken Schmerzen rückgängig machen lässt, schicke ich "defekten" Switch trotzdem ein und habe jetzt ein niegelnagelneues Austauschgerät. Vielleicht hat der alte ja doch irgendwo in den Tiefen seiner elektronischen Eingeweide eine Macke. Nicht mehr mein Problem face-wink

Case closed, danke für Euren Input!

Gruß
aqui
aqui Aug 13, 2024 updated at 12:24:32 (UTC)
Goto Top
startet ohne jegliche Fehlermeldung
Hoffentlich dann mit einer 8.0.95er latest?. 😉
Alles richtig gemacht! 👍
Coreknabe
Coreknabe Aug 13, 2024 at 12:25:41 (UTC)
Goto Top
Zitat von @aqui:


Alles richtig gemacht! 👍

Vielen Dank! *knicks*