gwaihir
Goto Top

Exchange 2019 und Laufwerk C

Hallo zusammen,

wir haben gestern einen Ausfall unserer beiden Exchange 2019 Knoten gehabt, was sich dadurch äußerte, dass wir von extern keine Mails mehr empfangen konnten. Einen Tag vorher haben wir festgestellt, dass auf beiden Servern dank Microsoft Updates die Festplatten C: auf unter 10% freien Speicher gefallen sind. Das waren 25GB, was in absoluten Zahlen eigentlich nicht kritisch klang. Wir haben es daher als Warnung aufgefasst und haben gestern erst gelernt, dass der Exchange Server eine von Microsoft festverdrahtete Grenze von 10% hat, was auf der Festplatte frei sein muss, sonst stellt der Server nach und nach seine Dienste ein. Genau das ist dann vorgestern Abend passiert. Das wusste niemand von uns.

Hat da jemand Details zu? So wie es aussieht, waren beide Platten C: auf rot (jeweils 25GB frei), aber die externen Mails sind noch einige Zeit reingelaufen. Wann genau sperrt der Server und wo hätte man das innerhalb von Exchange sehen können? Da wurde nichts angezeigt. Die Transportdienste waren alle "aktiv", es war nichts rot, keine Fehlermeldung. Nur ein Hinweis unserer Firewall (not enough ressources on target system, oder so ähnlich) brachte uns darauf, dass da eine Verbindung bestand.

Wir haben dann vom Dienstleister von den 10% erfahren. Bei sehr großen Festplatten heißt das dann auch mal eben, dass 100GB frei sein müssen. Wir haben die Festplatten vergrößert, dann lief es sofort wieder. Jetzt möchte ich diesen Fall aufarbeiten und erfahren, wie genau diese Grenze des Exchange funktioniert. Und wieso wir im Exchange keine Warnung dazu bekommen haben.

Ich danke Euch für hilfreiche Antworten!

Content-ID: 3386769752

Url: https://administrator.de/contentid/3386769752

Ausgedruckt am: 05.11.2024 um 08:11 Uhr

NordicMike
NordicMike 20.07.2022 um 12:19:49 Uhr
Goto Top
Die meisten Protokoll-Logs sind aus Performancegründen deaktiviert. Diese musst du für jeden Dienst erst einmal manuell aktivieren, um besser diagnostizieren zu können.
Dani
Dani 20.07.2022 um 12:25:11 Uhr
Goto Top
Moin,
Hat da jemand Details zu?
Ja, Exchange Server system requirements und Understanding back pressure.

Wann genau sperrt der Server und wo hätte man das innerhalb von Exchange sehen können?
Ereignisanzeige müssten sich Einträge finden lassen.


Gruß,
Dani
radiogugu
radiogugu 20.07.2022 um 20:23:40 Uhr
Goto Top
Hi.

Nachdem wir das erste Mal damit auf die Nase gefallen waren, hatten wir in unserem Monitoring einen besonderen Fokus auf die Exchange Festplatten / SSD.

Das Mailgateway hat uns als erstes auf ein "Fehlverhalten" hingewiesen.

Gruß
Marc
Gwaihir
Gwaihir 21.07.2022 um 10:16:18 Uhr
Goto Top
Ich versuche gerade noch nachzuvollziehen, wann genau die Server dichtgemacht haben. Denn der Wert von 10% wurde seit April schon mehrfach erreicht, kam dann aber jeweils wieder zurück in den Normbereich. Der Server hatte im Fall von Montag/Dienstag seinen Dienst nach 9 Stunden unter 10% quittiert. Vor ein paar Wochen war er aber auch mal 12 Stunden unter 10% und hat NICHT dichtgemacht. Also scheint es keine zeitliche Schwelle zu geben, sondern da muss noch ein anderer Schwellenwert von 7 oder 8% sein...

Ich muss zugeben, ich muss mir die oben genannten Links noch zu Gemüte führen... da stehts vielleicht...
NordicMike
NordicMike 21.07.2022 um 10:57:40 Uhr
Goto Top
Die Platzprüfung finden vermutlich nur 1x am Tag statt, evtl um Mitternacht. War das nicht sogar ein eigener Dienst?
Gwaihir
Gwaihir 21.07.2022 um 12:30:59 Uhr
Goto Top
Knoten 1 hat am Sonntag um 9:40 Uhr dichtgemacht, Knoten 2 am Montag um 18:50 Uhr. In den obigen Links steht kein zweiter Schwellenwert. Die Angaben dort sind sogar noch komplexer und ich verstehe es nicht ganz:

LowToMedium: 89
MediumToHigh: 99
HighToMedium: 90
MediumToLow: 80

Es ist auf jeden Fall die Prüfung auf das Verzeichnis für die Message Queue. Aber offenbar sind wir nicht die einzigen, die einmal in diesen Fall laufen und dann daraus lernen. Auf jeden Fall werden wir jetzt mal die Ereignisanzeige monitoren, ob der ExchangeTransport dort was meldet.
NordicMike
NordicMike 21.07.2022 um 13:06:41 Uhr
Goto Top
Ich würde da gar nicht mehr so viel anaysieren. 10% gehen gar nicht. Willst du ewig da herum putzen? Ein paar SSDs dazu, fertig...
Gwaihir
Gwaihir 21.07.2022 um 13:39:11 Uhr
Goto Top
Naja, ich muss es analysieren, weil das bei uns noch eine riesen Welle geben wird (Kritische Infrastruktur). Da habe ich lieber jede Menge technische Hintergrundinformationen, wieso und weshalb. Wobei man es einfach zusammenfassen kann: Das ganze Team hat die 10% nicht als kritisch angesehen, weil es noch nie einen Ausfall wegen der absoluten Zahl dahinter gegeben hat. Man hat was neues gelernt und hat das Monitoring angepasst, so dass sich dieser Fall nicht wiederholt.
Dani
Dani 21.07.2022 um 15:31:55 Uhr
Goto Top
Moin,
In den obigen Links steht kein zweiter Schwellenwert.
Richtig, weil sich dieser an der Gesamtkapazität des Laufwerks orientiert. D.h. bei einem Laufwerk mit mehreren TBs sind dann eben mal 300GB Speicherplatz frei.

Knoten 1 hat am Sonntag um 9:40 Uhr dichtgemacht, Knoten 2 am Montag um 18:50 Uhr.
Wenn ihr zur KRITIS gehört, würde ich mich fragen: Was hat die Rufbereitschaft von Sonntag Morgen bis Montag Abend (nicht) getan?! Ausfall Node A => Ist Mist, aber der Node B in der DAG macht seine Arbeit. 36 Stunden später der Ausfall von Node B.

Eins habe ich in den letzten Jahren gerlernt. Wichtige IT-Systeme immer über mehrere Kanäler überwachen. Um bei diesen Fall zu bleiben:
Kanal A: ÜBerwachung des Speicherplatzes der Laufwerke im Exchange Server
Kanal B: Überwachung des jeweiligesn Status der DAG
Kanal C: Mail Flow: Sprich aktiv E-Mails empfangen und verschicken (Round Trip)

Naja, ich muss es analysieren, weil das bei uns noch eine riesen Welle geben wird (Kritische Infrastruktur). Da habe ich lieber jede Menge technische Hintergrundinformationen, wieso und weshalb.
Du spielst auf die Meldepflicht an? Ist die E-Mail Plattform überhaupt Bestandteil eurer Definition des Geltungsbereichs? Würde ich an der Stelle nicht so eng sehen. Weil es sich hierbei um menschliches Versagen handelt. Je nachdem wie der Prozess bei euch aufgebaut ist, könnte man es auch ausschließlich im Logbuch vermerken und gut ist.


Gruß,
Dani
mankli
mankli 24.07.2022 um 18:56:17 Uhr
Goto Top
- zusätzliche Disk hinzufügen und darauf neue Exchange-DB erstellen
- Postfächer auf neue Exchange-DB verschieben
- Postfächer mit unliniertem Speicher in eigener DB auf separater Disk
- bei den beiden Server nicht die gleiche Diskgrössen verwenden, damit sie nicht nahezu gleichzeitig volllaufen - Monitoring anpassen nicht vergessen

PS: kontrollieren das SSL Zertifikate nicht am gleichen Tag ablaufen