Exchange 2019 und Laufwerk C
Hallo zusammen,
wir haben gestern einen Ausfall unserer beiden Exchange 2019 Knoten gehabt, was sich dadurch äußerte, dass wir von extern keine Mails mehr empfangen konnten. Einen Tag vorher haben wir festgestellt, dass auf beiden Servern dank Microsoft Updates die Festplatten C: auf unter 10% freien Speicher gefallen sind. Das waren 25GB, was in absoluten Zahlen eigentlich nicht kritisch klang. Wir haben es daher als Warnung aufgefasst und haben gestern erst gelernt, dass der Exchange Server eine von Microsoft festverdrahtete Grenze von 10% hat, was auf der Festplatte frei sein muss, sonst stellt der Server nach und nach seine Dienste ein. Genau das ist dann vorgestern Abend passiert. Das wusste niemand von uns.
Hat da jemand Details zu? So wie es aussieht, waren beide Platten C: auf rot (jeweils 25GB frei), aber die externen Mails sind noch einige Zeit reingelaufen. Wann genau sperrt der Server und wo hätte man das innerhalb von Exchange sehen können? Da wurde nichts angezeigt. Die Transportdienste waren alle "aktiv", es war nichts rot, keine Fehlermeldung. Nur ein Hinweis unserer Firewall (not enough ressources on target system, oder so ähnlich) brachte uns darauf, dass da eine Verbindung bestand.
Wir haben dann vom Dienstleister von den 10% erfahren. Bei sehr großen Festplatten heißt das dann auch mal eben, dass 100GB frei sein müssen. Wir haben die Festplatten vergrößert, dann lief es sofort wieder. Jetzt möchte ich diesen Fall aufarbeiten und erfahren, wie genau diese Grenze des Exchange funktioniert. Und wieso wir im Exchange keine Warnung dazu bekommen haben.
Ich danke Euch für hilfreiche Antworten!
wir haben gestern einen Ausfall unserer beiden Exchange 2019 Knoten gehabt, was sich dadurch äußerte, dass wir von extern keine Mails mehr empfangen konnten. Einen Tag vorher haben wir festgestellt, dass auf beiden Servern dank Microsoft Updates die Festplatten C: auf unter 10% freien Speicher gefallen sind. Das waren 25GB, was in absoluten Zahlen eigentlich nicht kritisch klang. Wir haben es daher als Warnung aufgefasst und haben gestern erst gelernt, dass der Exchange Server eine von Microsoft festverdrahtete Grenze von 10% hat, was auf der Festplatte frei sein muss, sonst stellt der Server nach und nach seine Dienste ein. Genau das ist dann vorgestern Abend passiert. Das wusste niemand von uns.
Hat da jemand Details zu? So wie es aussieht, waren beide Platten C: auf rot (jeweils 25GB frei), aber die externen Mails sind noch einige Zeit reingelaufen. Wann genau sperrt der Server und wo hätte man das innerhalb von Exchange sehen können? Da wurde nichts angezeigt. Die Transportdienste waren alle "aktiv", es war nichts rot, keine Fehlermeldung. Nur ein Hinweis unserer Firewall (not enough ressources on target system, oder so ähnlich) brachte uns darauf, dass da eine Verbindung bestand.
Wir haben dann vom Dienstleister von den 10% erfahren. Bei sehr großen Festplatten heißt das dann auch mal eben, dass 100GB frei sein müssen. Wir haben die Festplatten vergrößert, dann lief es sofort wieder. Jetzt möchte ich diesen Fall aufarbeiten und erfahren, wie genau diese Grenze des Exchange funktioniert. Und wieso wir im Exchange keine Warnung dazu bekommen haben.
Ich danke Euch für hilfreiche Antworten!
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 3386769752
Url: https://administrator.de/contentid/3386769752
Ausgedruckt am: 05.11.2024 um 08:11 Uhr
10 Kommentare
Neuester Kommentar
Moin,
Gruß,
Dani
Hat da jemand Details zu?
Ja, Exchange Server system requirements und Understanding back pressure.Wann genau sperrt der Server und wo hätte man das innerhalb von Exchange sehen können?
Ereignisanzeige müssten sich Einträge finden lassen.Gruß,
Dani
Moin,
Eins habe ich in den letzten Jahren gerlernt. Wichtige IT-Systeme immer über mehrere Kanäler überwachen. Um bei diesen Fall zu bleiben:
Kanal A: ÜBerwachung des Speicherplatzes der Laufwerke im Exchange Server
Kanal B: Überwachung des jeweiligesn Status der DAG
Kanal C: Mail Flow: Sprich aktiv E-Mails empfangen und verschicken (Round Trip)
Gruß,
Dani
In den obigen Links steht kein zweiter Schwellenwert.
Richtig, weil sich dieser an der Gesamtkapazität des Laufwerks orientiert. D.h. bei einem Laufwerk mit mehreren TBs sind dann eben mal 300GB Speicherplatz frei.Knoten 1 hat am Sonntag um 9:40 Uhr dichtgemacht, Knoten 2 am Montag um 18:50 Uhr.
Wenn ihr zur KRITIS gehört, würde ich mich fragen: Was hat die Rufbereitschaft von Sonntag Morgen bis Montag Abend (nicht) getan?! Ausfall Node A => Ist Mist, aber der Node B in der DAG macht seine Arbeit. 36 Stunden später der Ausfall von Node B.Eins habe ich in den letzten Jahren gerlernt. Wichtige IT-Systeme immer über mehrere Kanäler überwachen. Um bei diesen Fall zu bleiben:
Kanal A: ÜBerwachung des Speicherplatzes der Laufwerke im Exchange Server
Kanal B: Überwachung des jeweiligesn Status der DAG
Kanal C: Mail Flow: Sprich aktiv E-Mails empfangen und verschicken (Round Trip)
Naja, ich muss es analysieren, weil das bei uns noch eine riesen Welle geben wird (Kritische Infrastruktur). Da habe ich lieber jede Menge technische Hintergrundinformationen, wieso und weshalb.
Du spielst auf die Meldepflicht an? Ist die E-Mail Plattform überhaupt Bestandteil eurer Definition des Geltungsbereichs? Würde ich an der Stelle nicht so eng sehen. Weil es sich hierbei um menschliches Versagen handelt. Je nachdem wie der Prozess bei euch aufgebaut ist, könnte man es auch ausschließlich im Logbuch vermerken und gut ist.Gruß,
Dani
- zusätzliche Disk hinzufügen und darauf neue Exchange-DB erstellen
- Postfächer auf neue Exchange-DB verschieben
- Postfächer mit unliniertem Speicher in eigener DB auf separater Disk
- bei den beiden Server nicht die gleiche Diskgrössen verwenden, damit sie nicht nahezu gleichzeitig volllaufen - Monitoring anpassen nicht vergessen
PS: kontrollieren das SSL Zertifikate nicht am gleichen Tag ablaufen
- Postfächer auf neue Exchange-DB verschieben
- Postfächer mit unliniertem Speicher in eigener DB auf separater Disk
- bei den beiden Server nicht die gleiche Diskgrössen verwenden, damit sie nicht nahezu gleichzeitig volllaufen - Monitoring anpassen nicht vergessen
PS: kontrollieren das SSL Zertifikate nicht am gleichen Tag ablaufen