Monitoring - Welche sind die wichtigsten Vitalfunktionen eines Servers
Hi,
als neues Mitglied in unserem Admin-Team auf der Arbeit möchte ich das bestehende Condition Monitoring verbessern.
Alle zu überwachenden Server sollen zu ca. 99,96% hochverfügbar gehalten werden.
Heute bestehen zwar Regeln und Verfahren, wie Fehlerfälle eskaliert werden. Leider sind sie nicht sauber dokumentiert.
Ich möchte das ganze Monitoring sauber aufbauen und dokumentieren. Dabei gehe ich den Weg der kleinen Schritte.
Zuerst möchte ich mit der Festlegung der allerwichtigsten, zu überwachenden Serverfunktionen beginnen.
Im Laufe der Zeit sollen dann aus der täglichen Erfahrung heraus die Berücksichtigung und Eskalation der Fehlerfälle ausgeweitet werden.
Hintergrund ist auch der, dass durch eine Flucht von Eskalations-E-Mail der Admin nicht hypersensibilisiert wird, sodass er
nicht mehr auf die dringlichen Notifikations-E-Mails reagiert.
Ad hoc fällt mir zu den wichtigsten Serverfunktionen - sind ja eher Komponenten - ein:
- PSU-Ausfall
- Raidcontroller-Ausfall
- HDD-Ausfall
- Lüfter-Ausfall
- CPU-Temp. außerhalb der Norm
Welche Erfahrungen habt ihr gemacht? Was würdet ihr als die wichtigsten, zu überwachenden Serverfunktionen nennen.
Vielen Dank im Voraus und ein schönes WE.
Limean
als neues Mitglied in unserem Admin-Team auf der Arbeit möchte ich das bestehende Condition Monitoring verbessern.
Alle zu überwachenden Server sollen zu ca. 99,96% hochverfügbar gehalten werden.
Heute bestehen zwar Regeln und Verfahren, wie Fehlerfälle eskaliert werden. Leider sind sie nicht sauber dokumentiert.
Ich möchte das ganze Monitoring sauber aufbauen und dokumentieren. Dabei gehe ich den Weg der kleinen Schritte.
Zuerst möchte ich mit der Festlegung der allerwichtigsten, zu überwachenden Serverfunktionen beginnen.
Im Laufe der Zeit sollen dann aus der täglichen Erfahrung heraus die Berücksichtigung und Eskalation der Fehlerfälle ausgeweitet werden.
Hintergrund ist auch der, dass durch eine Flucht von Eskalations-E-Mail der Admin nicht hypersensibilisiert wird, sodass er
nicht mehr auf die dringlichen Notifikations-E-Mails reagiert.
Ad hoc fällt mir zu den wichtigsten Serverfunktionen - sind ja eher Komponenten - ein:
- PSU-Ausfall
- Raidcontroller-Ausfall
- HDD-Ausfall
- Lüfter-Ausfall
- CPU-Temp. außerhalb der Norm
Welche Erfahrungen habt ihr gemacht? Was würdet ihr als die wichtigsten, zu überwachenden Serverfunktionen nennen.
Vielen Dank im Voraus und ein schönes WE.
Limean
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 123761
Url: https://administrator.de/forum/monitoring-welche-sind-die-wichtigsten-vitalfunktionen-eines-servers-123761.html
Ausgedruckt am: 15.05.2025 um 08:05 Uhr
5 Kommentare
Neuester Kommentar
du hast da die hardware beschrieben... Ich sag mal wenn die Ausfällt dann wirst du als Admin ja eh sofort was merken (idR. klingelt dein Telefon dann nämlich wie wild und jeder User erzählt dir das was nich geht - und er das aber ganz dringend und jetzt sofort benötigt!)
Ich würde viel relevanter finden die DIENSTE des jeweiligen Servers zu überprüfen... Denn wenn dir z.B. auf dem Exchange-Server die Store.exe wegnagelt dann hat die CPU relativ wenig zu tun, HDD usw. machen auch nen ruhigen. Dein Monitoring sagt also "jo, leg dich schlafen, is alles ok". Deine Exchange/Outlook-User werden dir da aber sehr schnell was anderes erzählen (vermute ich...)
Andersrum: Fliegt dir grad die CPU schon durchs Gehäuse dann wird auch sofort der Exchange stehen -> dein System sollte also sofort Alarm schlagen... (wobei ich durchaus nicht der meinung bin das nen HW-Monitoring und nen SW-Monitoring sich gegenseitig ausschliessen - ich würde beides machen)
Ich würde viel relevanter finden die DIENSTE des jeweiligen Servers zu überprüfen... Denn wenn dir z.B. auf dem Exchange-Server die Store.exe wegnagelt dann hat die CPU relativ wenig zu tun, HDD usw. machen auch nen ruhigen. Dein Monitoring sagt also "jo, leg dich schlafen, is alles ok". Deine Exchange/Outlook-User werden dir da aber sehr schnell was anderes erzählen (vermute ich...)
Andersrum: Fliegt dir grad die CPU schon durchs Gehäuse dann wird auch sofort der Exchange stehen -> dein System sollte also sofort Alarm schlagen... (wobei ich durchaus nicht der meinung bin das nen HW-Monitoring und nen SW-Monitoring sich gegenseitig ausschliessen - ich würde beides machen)
Ich konzentriere mich primär auch auf die Dienste. Es bringt mir gar nichts zu wissen, dass die CPU nur 40° hat, die n Lüfter gemächlich ihre Runden drehen und beide Netzteile Spannung bringen.
Viel wichtiger ist zu wissen, dass je Server die darauf untergebrachten Dienste ordnungsgemäß ihre Arbeit verrichten und die User in der gewünschten Geschwindigkeit bedienen. Das ist nämlich auch das einzige, was meinen Chef und die Kollegen interessiert.
Kein Mensch interessiert sich dafür, ob ich irgendwas optimiere um ein paar Prozent Rechenleistung zu sparen, das SAN besser auszulasten oder sonst was. Aber wenn ein Dienst steht merken das alle sofort und beschweren sich zu recht. Schließlich können sie nicht arbeiten.
Das heißt natürlich nicht die Hardware zu vernachlässigen - nur halt nicht primär. Bei mir ist ohnehin alles redundant und meldet, wenn eine Komponente Ausfall hat. Dann ist ausreichend Zeit zum reagieren.
Das muss natürlich nicht für jeden zutreffen. Ich hab's in der Beziehung nämlich recht einfach: Sollte einer meiner ESX Totalausfall haben ziehen die Maschinen halt auf einen anderen ESX um bis der ausgefallene wieder läuft
Viel wichtiger ist zu wissen, dass je Server die darauf untergebrachten Dienste ordnungsgemäß ihre Arbeit verrichten und die User in der gewünschten Geschwindigkeit bedienen. Das ist nämlich auch das einzige, was meinen Chef und die Kollegen interessiert.
Kein Mensch interessiert sich dafür, ob ich irgendwas optimiere um ein paar Prozent Rechenleistung zu sparen, das SAN besser auszulasten oder sonst was. Aber wenn ein Dienst steht merken das alle sofort und beschweren sich zu recht. Schließlich können sie nicht arbeiten.
Das heißt natürlich nicht die Hardware zu vernachlässigen - nur halt nicht primär. Bei mir ist ohnehin alles redundant und meldet, wenn eine Komponente Ausfall hat. Dann ist ausreichend Zeit zum reagieren.
Das muss natürlich nicht für jeden zutreffen. Ich hab's in der Beziehung nämlich recht einfach: Sollte einer meiner ESX Totalausfall haben ziehen die Maschinen halt auf einen anderen ESX um bis der ausgefallene wieder läuft
Wenn es rein um die Hardware geht fallen mir ein
- CPU-Temperatur die länger als Zeit x am oberen Limit liegt
- Sehr viele Speicherfehler
- Ausfall einer Platte im RAID
- Ausfall eines oder mehrerer Lüfter
- Störungen in der Spannungsversorgung
- Sehr hohe Lüfterdrehzahlen
- Switche
- Router
- TapeLibrary
- TK-Anlage
- Internetzugang
- Firewall
- und und und