dermaddin
Goto Top

Handling Firewall am Hauptstandort

Moinsen.

Im Moment bin ich etwas mit dem Thema Disaster Recovery beschäftigt und in diesem Zusammenhang tauchen dann auch einige Fragen auf, die nicht damit direkt zu tun haben aber für Business Continuity eine wichtige Rolle spielen.

Wir haben einen Hauptstandort von wo aus einige Webdienste und die IP-Telefonie bereitgestellt wird. An diesen Standort sind aktuell drei weitere Standorte über ISP-Standortvernetzung sowie über "EDGE" (hier Sophos SD-RED) Geräte angebunden.

Nun schwirrt bei mir im Kopf die Frage, was passiert bzw. wie vorgehen, wenn die XGS Firewall am Hauptsitz defekt ist. Aktuell wäre eine Neubeschaffung nach 2-3 Werktagen bei uns, aber 2-3 Tage ohne Erreichbarkeit ist schon nicht ohne. Ein Tausch gegen "Irgendwas" ist auch nicht möglich, da die SD-RED nur mit der Sophos XGS "reden" möchten. Vom VPN ganz zu schweigen.

Die Alternative wäre also eine weitere XGS der gleichen Baureihe und diese im "HA Active Passive" laufen lassen.

Wie ist das bei Euch so umgesetzt bzw. was sind Eure Erfahrungen? Was würde passieren, wenn die aktive Firewall "sich verschluckt" (ist schon bei uns passiert und musste händisch neu gestartet werden)? Springt die passive dann ein?

Content-Key: 7451237241

Url: https://administrator.de/contentid/7451237241

Printed on: December 10, 2023 at 14:12 o'clock

Member: LauneBaer
LauneBaer Jun 07, 2023 at 14:52:59 (UTC)
Goto Top
Mahlzeit,

definiere "verschluckt"? Per Ping noch erreichbar? Webinterface erreichbar?

Wenn euch die Erreichbarkeit wichtig ist, wäre eine zusätzliche XGS natürlich die erste Wahl - alternativ die Telefonanlage in die Cloud? Welche Anlage ist das denn?

Grüße
Member: StefanKittel
StefanKittel Jun 07, 2023 at 15:01:18 (UTC)
Goto Top
Hallo,

einige Distris halten solche Geräte vor, kombiniert mit einem Express-Versand.

Sonst bleiben ja nur die beiden Varianten:
A) 1:1 Reserve
B) Alternative Reserve mit Nachteilen

Primär geht es ja um Kosten. Sonst würdest Du einfach eine 2. kaufen und gut ist.
Ich habe bei einem KMU-Kunden mit einer Firewall eine virtuelle PFSense in Reserve.
Die Firewall macht allerdings auch nur Web-Proxy. VLANs- und VPN laufen woanders.

Stefan
Member: Spirit-of-Eli
Solution Spirit-of-Eli Jun 07, 2023 at 15:31:25 (UTC)
Goto Top
Moin,

nur eine Büchse zu kaufen ist da echt sparen am falschen Ende.
Ein active-passive HA Cluster sollte die erste Wahl sein da wir hier von einer Appliance reden.

Ich denke nicht, dass du dir bei Problemen die Zeit nehmen willst alles irgendwie für den Notbetrieb umzubauen.
Das Budget wird durch deine Arbeitszeit im Disasterfall sehr schnell wieder raus sein.
Das Ersatz Gerät ist im live betrieb schnell integriert.

Gruß
Spirit
Member: maretz
maretz Jun 07, 2023 at 15:46:48 (UTC)
Goto Top
hast du doch selbst schon gesagt: HA-System, dabei bestenfalls nicht beide Firewalls im selben Raum u. auf selber Stromleitung legen. Denn damit kannst du auch bei Updates natürlich (normalerweise) nen rolling-reboot machen und bist nicht offline - und wenn dir eine verreckt dann läufts halt über die zweite...

Es ist nur dann unsinnig wenn alles im selben Raum und selben Rack hängt - weil dann hast du natürlich zB.bei ner überhitzung trotzdem die a-karte...
Member: jsysde
Solution jsysde Jun 07, 2023 at 19:26:27 (UTC)
Goto Top
N'Abend.

Zitat von @DerMaddin:
[...]Die Alternative wäre also eine weitere XGS der gleichen Baureihe und diese im "HA Active Passive" laufen lassen.
Wie ist das bei Euch so umgesetzt bzw. was sind Eure Erfahrungen?
Genau so und die Erfahrungen mit dem HA sind durchweg gut. Das waren sie auch schon zu Zeiten der SG-Serie.
Einziges Manko: Die XGS haben beim HA in einem von 10.000 Fällen das Problem, dass der HA-Sync sich weghängt und der passive Node plötzlich auf Werkseinstellungen gesetzt wird.

[...]Was würde passieren, wenn die aktive Firewall "sich verschluckt" (ist schon bei uns passiert und musste händisch neu gestartet werden)? Springt die passive dann ein?
Der Failover auf den passive Node hat bisher immer zuverlässig funktioniert, obiges Problem mal außen vor gelassen.

Wir gehen aber nach und nach dazu über, "business critical applications" im (eigenen) RZ zu betreiben. Der ganze HA-Kram nutzt dir nix, wenn am Hauptstandort der Strom weg ist, alle Internetleitungen ausfallen etc. - alles schon gehabt. Die Wahrscheinlichkeit, dass so etwas in einem RZ passiert, ist bedeutend geringer.

*Just my 5 Cent*

Cheers,
jsysde
Member: maretz
maretz Jun 08, 2023 at 03:54:27 (UTC)
Goto Top
Hmm... warte kurz, im RZ geringer? Sag das mal dem RZ hier in Süddeutschland was letztes Jahr länger weg war (ich meine nen Problem mit den Generatoren,...). Oder das natürlich andere im RZ an der Infra drehen - und ggf. mal plötzlich Routings weg sind, Firewallregeln geändert wurden,... BEIDES hat Vor- und Nachteile. Diese Frage würde ich also eher dahin schieben was man im Haus überhaupt an möglichkeiten hat (und dabei eben auch die Fähigkeiten der Mitarbeiter realistisch sehen). Realität ist ja leider das es eher dahin geht das wer "in house" den Win-Assistenten für Cluster einmal installiert bekommen hat schon als Experte zählt und dann natürlich das ganze auch betreiben kann... DA würde ich dann auch eher nach Extern wechseln ;)
Member: DerMaddin
DerMaddin Jun 08, 2023 at 05:25:11 (UTC)
Goto Top
Zitat von @LauneBaer:

Mahlzeit,

definiere "verschluckt"? Per Ping noch erreichbar? Webinterface erreichbar?

Wenn euch die Erreichbarkeit wichtig ist, wäre eine zusätzliche XGS natürlich die erste Wahl - alternativ die Telefonanlage in die Cloud? Welche Anlage ist das denn?

Grüße

In diesem einen Fall kein Ping, alle Port LED aus und nur die Status LED an. Nur ein Neustart hat geholfen. TKA in die Cloud geht leider nicht, da es ein onPrem "Kasten" ist. Möglichkeiten in den nächsten 2-3 Jahren auf Cloud oder VM zu gehen, ermitteln wir gerade. Ist eine OS BIZ X8.
Member: DerMaddin
DerMaddin Jun 08, 2023 at 05:31:58 (UTC)
Goto Top
Zitat von @maretz:

hast du doch selbst schon gesagt: HA-System, dabei bestenfalls nicht beide Firewalls im selben Raum u. auf selber Stromleitung legen. Denn damit kannst du auch bei Updates natürlich (normalerweise) nen rolling-reboot machen und bist nicht offline - und wenn dir eine verreckt dann läufts halt über die zweite...

Es ist nur dann unsinnig wenn alles im selben Raum und selben Rack hängt - weil dann hast du natürlich zB.bei ner überhitzung trotzdem die a-karte...

Selber Raum muss schon allein wg. der zwei WAN Leitungen sein, macht ja kaum Sinn WAN durch das halbe Gebäude zu patchen face-wink Stromleitung ist egal. In den Serverräumen sind alle aktiven Geräte an einer USV, die Battery-Time ist zwischen 1,5h und 2,25h.

Überhitzung nur möglich, wenn der komplette Gebäudestrom inkl. PVA ausfällt und selbst dann senden die Temperatursensoren eine entsprechende Meldung ans Monitoring und nach Überschreiten des Schwellen- und Zeitwertes wird das Cluster heruntergefahren.
Member: DerMaddin
DerMaddin Jun 08, 2023 at 05:36:55 (UTC)
Goto Top
Ein eigenes RZ zu betreiben, ist für uns nicht von Bedeutung. Business-kritische Anwendungen haben wir zwar einige, aber diese werden >90% Inhouse genutzt und wenig über VPN bzw. als Webdienst. Ich werde also eine zweite XGS besorgen und ein HA Cluster einrichten.

Danke für Euren Input.
Member: jsysde
jsysde Jun 08, 2023 at 06:18:20 (UTC)
Goto Top
Moin.

Zitat von @DerMaddin:
[...]Ich werde also eine zweite XGS besorgen und ein HA Cluster einrichten.
Noch ein kurzer Hinweis - weiß nicht, ob das die XGS schon/auch betrifft:
Für HA/Cluster musste bei der SG-Serie die identische Hardware-Revision genutzt werden. Das HA nur mit gleichen Modellen geht, ist sowieso klar.

Aber eine richtig alte SG210 mit Hardware-Revision 1 und eine neuere SG210 mit Hardware-Revision 2 liessen sich ums verplatzen nicht als HA/Cluster konfigurieren. Wird bei der XGS wohl genauso sein, allerdings weiß ich nicht, ob es da überhaupt schon unterschiedliche Hardware-Revisionen gibt.

Cheers,
jsysde
Member: DerMaddin
DerMaddin Jun 08, 2023 at 07:41:48 (UTC)
Goto Top
@jsysde aktuell gibt es keine unterschiedlichen HW Revisionen für die XGS Reihe, so dass dies zumindest entfällt. Aber klar, ich kann eine XGS 2100 mit 18.5 nicht mit einer XGS 136 mit 19.5 im HA Betrieb nehmen face-wink
Member: maretz
maretz Jun 08, 2023 at 12:54:38 (UTC)
Goto Top
Zitat von @DerMaddin:

Zitat von @maretz:

hast du doch selbst schon gesagt: HA-System, dabei bestenfalls nicht beide Firewalls im selben Raum u. auf selber Stromleitung legen. Denn damit kannst du auch bei Updates natürlich (normalerweise) nen rolling-reboot machen und bist nicht offline - und wenn dir eine verreckt dann läufts halt über die zweite...

Es ist nur dann unsinnig wenn alles im selben Raum und selben Rack hängt - weil dann hast du natürlich zB.bei ner überhitzung trotzdem die a-karte...

Selber Raum muss schon allein wg. der zwei WAN Leitungen sein, macht ja kaum Sinn WAN durch das halbe Gebäude zu patchen face-wink Stromleitung ist egal. In den Serverräumen sind alle aktiven Geräte an einer USV, die Battery-Time ist zwischen 1,5h und 2,25h.

Überhitzung nur möglich, wenn der komplette Gebäudestrom inkl. PVA ausfällt und selbst dann senden die Temperatursensoren eine entsprechende Meldung ans Monitoring und nach Überschreiten des Schwellen- und Zeitwertes wird das Cluster heruntergefahren.

Nun - warum macht es keinen Sinn da mal eben übers Patchfeld zu gehen?

Und ja - die hängen an einer USV, was schon mal gut ist. Wenn die dann ausfällt is nur blöd. Wenn dir die Klimaanlage unbemerkt ausfällt is ebenfalls ziemlich blöd. Je nach Umgebung gibts da noch div. andere Gründe die eben genau dafür sagen "nimm 2 räume wenns geht". Und dabei gehts auch nicht nur um das Modem nach aussen - sondern oft genug ist die Firewall ja auch das Gateway für die div. Netze und d.h. wenn die ausfällt is auch das interne Routing platt... Daher würde ich wenns geht immer versuchen das zu trennen. Hier ist es - für mich! - einfach: Wenn ich einmal diese Arbeit habe und in x Jahren da stehe und sage "nu werden die Geräte mal wieder getauscht, das ganze war nie nötig weils nie nen Ausfall gab" dann kann ich GUT damit leben vor meinem Chef diese "verschwendete" Arbeitszeit zu vertreten. Stehe ich aber innerhalb der X Jahre _EINMAL_ da und sage "mist, der ganze Laden steht, mit etwas Umstrukturierung wären wenigstens noch 30, 50 oder 75% möglich gewesen" wirds schwer... Wobei das natürlich auch von der Umgebung abhängt: Ist es am Standort selbst und da is 24/7 auch eh jemand in der IT da ist es natürlich was anderes als wenn sich deine Server permanent durch die verschiedenen Länder bewegen....
Member: DerMaddin
DerMaddin Jun 09, 2023 at 05:52:11 (UTC)
Goto Top
Zitat von @maretz:

Nun - warum macht es keinen Sinn da mal eben übers Patchfeld zu gehen?

Und ja - die hängen an einer USV, was schon mal gut ist. Wenn die dann ausfällt is nur blöd. Wenn dir die Klimaanlage unbemerkt ausfällt is ebenfalls ziemlich blöd. Je nach Umgebung gibts da noch div. andere Gründe die eben genau dafür sagen "nimm 2 räume wenns geht". Und dabei gehts auch nicht nur um das Modem nach aussen - sondern oft genug ist die Firewall ja auch das Gateway für die div. Netze und d.h. wenn die ausfällt is auch das interne Routing platt... Daher würde ich wenns geht immer versuchen das zu trennen. Hier ist es - für mich! - einfach: Wenn ich einmal diese Arbeit habe und in x Jahren da stehe und sage "nu werden die Geräte mal wieder getauscht, das ganze war nie nötig weils nie nen Ausfall gab" dann kann ich GUT damit leben vor meinem Chef diese "verschwendete" Arbeitszeit zu vertreten. Stehe ich aber innerhalb der X Jahre _EINMAL_ da und sage "mist, der ganze Laden steht, mit etwas Umstrukturierung wären wenigstens noch 30, 50 oder 75% möglich gewesen" wirds schwer... Wobei das natürlich auch von der Umgebung abhängt: Ist es am Standort selbst und da is 24/7 auch eh jemand in der IT da ist es natürlich was anderes als wenn sich deine Server permanent durch die verschiedenen Länder bewegen....

Weil die Verbindung eine Fiberstrecke ist, da kann ich die Firewall nicht einfach so zum anderen Gebäudeteil patchen.

Wenn eine Klimaanlage ausfällt, dann gibt es noch eine zweite im Hauptserverraum. Dort ist die "Hauptlast" an IT-Servern. Die Firewall und TKA sind in einem anderen Serverraum, in der nur eine Klima ist, dort aber auch der Wärmeoutput wesentlich geringer. Wenn die Anlage gewartet wird, dauert es gut 4-5 Stunden, bis dort ein subtropisches Klima herrscht. Unbemerkt ist da sowieso nichts, da wie gesagt Sensoren vorhanden sind, die Alarme senden.

Btw Routing, das macht nicht die Firewall bei uns, wir haben dazu einen L3-Core-Stack.
Member: Spirit-of-Eli
Spirit-of-Eli Jun 09, 2023 updated at 06:08:19 (UTC)
Goto Top
Zitat von @DerMaddin:
Weil die Verbindung eine Fiberstrecke ist, da kann ich die Firewall nicht einfach so zum anderen Gebäudeteil patchen.

Aber das ist doch gerade optimal dafür. Ich betreibe einen unserer Fortinet Cluster gerade genau so.
Die zweite WAN Anbindung ist auch so rüber geführt da es baulich nicht anders möglich ist.
Worst Case wäre bei uns wäre wenn ein Raum abbrennt. Aber dann habe wir auch echt andere Sorgen.

Edit:
Wobei deine Schilderung so klingt, als wenn die Räume nicht in unterschiedlichen Brandabschnitten stehen.
Dann kannst du dir das ganze wirklich sparen.
Member: DerMaddin
DerMaddin Jun 09, 2023 at 06:32:24 (UTC)
Goto Top
Um genauer zu sein. Es sind zwei Gebäude, die mit einem "Tunnel" verbunden sind. Zwischen den Gebäuden liegen ca. 15m Abstand. Der Punkt aber ist, dass die TK-Endpunkte alle in einem Gebäude liegen. Wenn es brennt, dann ist auch eine Firewall in dem anderen Gebäude nutzlos. Die Firewalls könnten mit SFP-Modulen bestückt werden dann aber müsste ich eine von vier Glasfaserverbindungen nutzen, die für die Vernetzung der beiden Gebäude genutzt werden. Dies kann man nicht umsetzen ohne dabei die L3-Core-Stack Redundanz (je zwei Core-Switche pro Gebäude) zu unterbrechen.
Member: maretz
maretz Jun 09, 2023 at 06:42:59 (UTC)
Goto Top
naja - es ist doch ganz einfach: Wäre es optimal das in verschiedene Abschnitte zu packen? Ja, wäre es. Aber wie so oft: Es wäre ja auch zB. optimal das Gebäude auf "Dämpfer" zu setzen und somit schwingend zu lagern - bei einem Erdbeben wäre das sicher ne gute Idee... In der Theorie gut, in der Praxis eben manchmal nicht umsetzbar... (also ich würde selbst hier protestieren wenn morgen jemand kommt und sagt "du, geh mal aus deiner Bude für nen paar wochen raus, wir müssen kurz das Haus abreissen um nen paar Dämpfer unterzubauen" ;) ).

Wenns also nicht geht dann ist es so - punkt. Sowas nennt sich eben "kalkuliertes Risiko" und es kann durchaus sein das man das absichtlich eingeht weil alles andere einfach finanziell oder organisatorisch deutlich zu komplex wäre. Das ist weder schlecht, schlimm noch irgendwie ungewöhnlich...
Member: Spirit-of-Eli
Spirit-of-Eli Jun 09, 2023 at 07:11:14 (UTC)
Goto Top
Also wenn es doch zwei Brandabschnitte sind, macht es immer Sinn.
Auch wenn du eine USV an den Geräten hast. Diese kann ebenfalls ausfallen. Mein Vorgänger ist bei uns daher gegangen und hat alle Systeme redundant auf zwei USVs verteilt.

Die Frage ist also, wie viele Fasern hast? Sind die Core Stacks mit zwei Faser "gekoppelt"?
Der Heart-beat könnt auch Kupfer sein. Alles weitere darf eh über Switche laufen.
Mitglied: 137431
137431 Jun 09, 2023 at 07:40:42 (UTC)
Goto Top
Ihr müsst definieren, wie lange ein Ausfall max dauern darf. Danach fällt sich die Entscheidung wie von selbst 😉
Member: maretz
maretz Jun 09, 2023 at 07:50:00 (UTC)
Goto Top
Zitat von @137431:

Ihr müsst definieren, wie lange ein Ausfall max dauern darf. Danach fällt sich die Entscheidung wie von selbst 😉

Nö - warum? Siehe oben: Jetzt sagen wir: Ok, nen Ausfall darf keine 2h dauern. Würdest du dann also auch das Gebäude abreissen um es schwingend zu lagern weil ggf. nen Erdbeben ja kommen könnte? Wohl kaum - da es eben weder vom Eintrittsrisiko wahrscheinlich genug ist als auch das die Kosten dafür einfach nicht relevant sind.

Von daher ist die reine Ausfallzeit eben kein Kriterium... Denn beim Gebäudeeinsturz hättest du nen Ausfall von mehreren Tagen/Wochen/Monaten, das wird wohl keiner als relevant ansehen, trotzdem gibt es nur ganz wenige Einrichtungen die sich so absichern...
Member: elix2k
elix2k Jun 09, 2023 at 12:55:47 (UTC)
Goto Top
Warum patchen? Ich habe pro WAN-Leitung ein VLAN.
Member: DerMaddin
DerMaddin Jun 09, 2023 at 13:52:54 (UTC)
Goto Top
Zitat von @elix2k:

Warum patchen? Ich habe pro WAN-Leitung ein VLAN.

Mir ist nicht klar wie zwei Firewalls, räumlich getrennt, ohne direktes Patchen, an ein WAN CPE angeschlossen werden sollen mit VLAN. In der Regel, neben dem HA Link, wird der konfigurierte WAN Port jeder Firewall in einen "dummen" Switch gesteckt und von da aus ein Kabel in den CPE.
Member: Spirit-of-Eli
Spirit-of-Eli Jun 09, 2023 at 14:21:02 (UTC)
Goto Top
Das WAN Interface anzubinden ist das geringste Thema. Einfach ein VLan wo alle Komponenten drin sind. Bei zwei Leitungen natürlich zwei VLans. Dann halt ein Link für den Heartbeat. Den würde ich schon gesondert (direkt) koppeln.

Fertig ist der Lack. Ein aller Welts Setup.
Mitglied: 137431
137431 Jun 09, 2023 at 19:56:24 (UTC)
Goto Top
Zitat von @maretz:

Zitat von @137431:

Ihr müsst definieren, wie lange ein Ausfall max dauern darf. Danach fällt sich die Entscheidung wie von selbst 😉

Nö - warum? Siehe oben: Jetzt sagen wir: Ok, nen Ausfall darf keine 2h dauern. Würdest du dann also auch das Gebäude abreissen um es schwingend zu lagern weil ggf. nen Erdbeben ja kommen könnte? Wohl kaum - da es eben weder vom Eintrittsrisiko wahrscheinlich genug ist als auch das die Kosten dafür einfach nicht relevant sind.

Von daher ist die reine Ausfallzeit eben kein Kriterium... Denn beim Gebäudeeinsturz hättest du nen Ausfall von mehreren Tagen/Wochen/Monaten, das wird wohl keiner als relevant ansehen, trotzdem gibt es nur ganz wenige Einrichtungen die sich so absichern...

Und als nächstes kommst mit Asteroiden. Ist klar. Hast echt den Durchblick. Bin raus
Member: Spirit-of-Eli
Spirit-of-Eli Jun 09, 2023 at 20:11:57 (UTC)
Goto Top
Scheint ja, alles nicht so wichtig zu sein.
Dann kann der TO das ja alles so belassen und ggf. beide FWs untereinander hängen.
Member: maretz
maretz Jun 09, 2023 at 20:44:34 (UTC)
Goto Top
Zitat von @137431:

Zitat von @maretz:

Zitat von @137431:

Ihr müsst definieren, wie lange ein Ausfall max dauern darf. Danach fällt sich die Entscheidung wie von selbst 😉

Nö - warum? Siehe oben: Jetzt sagen wir: Ok, nen Ausfall darf keine 2h dauern. Würdest du dann also auch das Gebäude abreissen um es schwingend zu lagern weil ggf. nen Erdbeben ja kommen könnte? Wohl kaum - da es eben weder vom Eintrittsrisiko wahrscheinlich genug ist als auch das die Kosten dafür einfach nicht relevant sind.

Von daher ist die reine Ausfallzeit eben kein Kriterium... Denn beim Gebäudeeinsturz hättest du nen Ausfall von mehreren Tagen/Wochen/Monaten, das wird wohl keiner als relevant ansehen, trotzdem gibt es nur ganz wenige Einrichtungen die sich so absichern...

Und als nächstes kommst mit Asteroiden. Ist klar. Hast echt den Durchblick. Bin raus

nun - zumindest genug durchblick um zu verstehen das eben die reine Ausfallzeit NICHT das einzige Kriterium sind... sondern eben dazu noch Eintrittwahrscheinlichkeit, Wirtschaftliche Faktoren,... kommen. Und um bei deinem Beispiel zu bleiben: Nun, die Dinos hatten sich eben NICHT gegen Asteroiden abgesichert - blöd gelaufen für die... Macht trotzdem heute auch noch keiner... Eben weil die Wahrscheinlichkeit u. die Kosten das nicht rechtfertigen würden.
Member: DerMaddin
DerMaddin Jun 12, 2023 at 05:35:44 (UTC)
Goto Top
Danke für einige hilfreiche Tipps und Hinweise. Die weniger sinnvollen oder total überflüssigen habe ich ignoriert. Wir müssen die zweite FW nicht in das andere Gebäude platzieren, wozu auch bei nur einer WAN-Leitung, außer Aufwand und Kosten habe ich keinen Vorteil und komm hier keiner "wenn es brennt in Geb. A..." - da ist eine redundante FW das geringste Problem.