Event-ID Analyse - wie findet man den Wald vor lauter Bäumen?
Wie findet man sich bei tausenden Events aus mehreren Servern zurecht und kann möglicherweise noch den Ursprung eines bereits augetretenen Problemes finden?
Wenn man in einer kleinen Firmenumgebung nur einen oder zwei Server administriert - sind die auflaufenden Eventlogs meist überschaubar und durchsichtig. Im Zuge der Umstellung auf "Windows Server 2008 R2" und dem verstärkten Einsatz von Virtualisierung wachsen die Anzahl an Systemen und damit auch die Anzahl der Auflaufenden Eventlogs.
Nun offen in die Runde gefragt. Wie werdet Ihr mit dieser Flut von Informationen fertig?
Gibt es da zu empfehlende Tools, mit denen man
a) die Eventlogs mehrerer Maschinen besser sortieren und analysieren kann
b) weiterführende Informationen oder Lösungsansätze für Fehler-Eventlogeinträge erhält
c) im Optimalfall zwischen Ursache und Wirkungsmeldungen aufschlüsselt
Alle Tools die ich bisher finden konnte oder die wir einsetzen, sammeln nur Eventlogs und triggern bei Warnungen und Fehlern entsprechende Alerts. (GFI-Max,Spiceworks)
Aber Hilfe für die Auswertung von Logs habe ich bisher noch nicht gefunden ausser per Hand auf eventid.net zu gehen und dort nach der entsprechenden ID zu suchen.
Mein Hauptproblem sehe ich darin, dass ich das "Ursprungsproblem" meist aufgrund der vielen Ereignisse nicht erkennen kann. Bei 3-5 Servern und einem schwerwiegenden Problem steigt die Anzahl an auflaufenden Logs zur Analyse auf mehrere huntert bis tausend Meldungen.
Um ein wenig Input und Erfahrungsaustausch wäre ich sehr dankbar.
Beste Grüße
anaxagoras83
Wenn man in einer kleinen Firmenumgebung nur einen oder zwei Server administriert - sind die auflaufenden Eventlogs meist überschaubar und durchsichtig. Im Zuge der Umstellung auf "Windows Server 2008 R2" und dem verstärkten Einsatz von Virtualisierung wachsen die Anzahl an Systemen und damit auch die Anzahl der Auflaufenden Eventlogs.
Nun offen in die Runde gefragt. Wie werdet Ihr mit dieser Flut von Informationen fertig?
Gibt es da zu empfehlende Tools, mit denen man
a) die Eventlogs mehrerer Maschinen besser sortieren und analysieren kann
b) weiterführende Informationen oder Lösungsansätze für Fehler-Eventlogeinträge erhält
c) im Optimalfall zwischen Ursache und Wirkungsmeldungen aufschlüsselt
Alle Tools die ich bisher finden konnte oder die wir einsetzen, sammeln nur Eventlogs und triggern bei Warnungen und Fehlern entsprechende Alerts. (GFI-Max,Spiceworks)
Aber Hilfe für die Auswertung von Logs habe ich bisher noch nicht gefunden ausser per Hand auf eventid.net zu gehen und dort nach der entsprechenden ID zu suchen.
Mein Hauptproblem sehe ich darin, dass ich das "Ursprungsproblem" meist aufgrund der vielen Ereignisse nicht erkennen kann. Bei 3-5 Servern und einem schwerwiegenden Problem steigt die Anzahl an auflaufenden Logs zur Analyse auf mehrere huntert bis tausend Meldungen.
Um ein wenig Input und Erfahrungsaustausch wäre ich sehr dankbar.
Beste Grüße
anaxagoras83
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 173710
Url: https://administrator.de/forum/event-id-analyse-wie-findet-man-den-wald-vor-lauter-baeumen-173710.html
Ausgedruckt am: 23.12.2024 um 00:12 Uhr
6 Kommentare
Neuester Kommentar
Moin.
Meine Meinung ist ganz platt: Eventlogs bringen nicht viel. Analysier bitte einmal, wie Deine mit Events verbundenen Probleme aussahen, wie sie sich außerhalb der gelben oder Roten Ereignisse bemerkbar gemacht haben und welche Rolle bei der Behebung das Eventlog spielte. Ich behaupte: in den allermeisten Fällen eine kleine. Klar, auch ich lasse gewisse, wenige Events (Dienst stürzt ab, Platte zickt rum, unerwartetes Runterfahren) monitoren und mir werden Mails geschickt. Dennoch würde ich für ein Überdenken der Strategie plädieren, wie Du Server monitorst. Analysier doch mal, wie Du deren Verfügbarkeit zeitnah überprüfen kannst und was alles dazugehört.
Mein Hauptproblem sehe ich darin, dass ich das "Ursprungsproblem" meist aufgrund der vielen Ereignisse nicht erkennen kann.
Sicher, dass es an der Anzahl der Ereignisse liegt? Beschreib doch mal einen Fall, bei dem Dir das Eventlog zunächst nicht geholfen hat, weil Du da nicht durchgestiegen bist und erst nachher nach einigem Sortieren dahinter gekommen bist, bitte.Meine Meinung ist ganz platt: Eventlogs bringen nicht viel. Analysier bitte einmal, wie Deine mit Events verbundenen Probleme aussahen, wie sie sich außerhalb der gelben oder Roten Ereignisse bemerkbar gemacht haben und welche Rolle bei der Behebung das Eventlog spielte. Ich behaupte: in den allermeisten Fällen eine kleine. Klar, auch ich lasse gewisse, wenige Events (Dienst stürzt ab, Platte zickt rum, unerwartetes Runterfahren) monitoren und mir werden Mails geschickt. Dennoch würde ich für ein Überdenken der Strategie plädieren, wie Du Server monitorst. Analysier doch mal, wie Du deren Verfügbarkeit zeitnah überprüfen kannst und was alles dazugehört.
Hallo anaxagoras83,
Ich sehe das ähnlich wie DerWoWusste
"Mein Hauptproblem sehe ich darin, dass ich das "Ursprungsproblem" meist aufgrund der vielen Ereignisse nicht erkennen kann. Bei 3-5 Servern und einem schwerwiegenden Problem steigt die Anzahl an auflaufenden Logs zur Analyse auf mehrere huntert bis tausend Meldungen."
Ich denke die Kunst liegt darin zu finden wo das Problem begonnen hat - also könntest du dann die ersten 1000 Events pro 5 Server nach Warnungen und Fehlern Filtern,
beginnend etwas bevor das Problem begann.
Hierbei sind HP-Openview, Whatsup oder Nagios etc. erstmal hilfreicher, weil du meist schneller siehst wo es angefangen hat.
Du kannst die wesentlichen Dienste Monitoren - und suchst bei einem Problem konkret.
Dies ist eben eine Frage der Grösse der Umgebung. In kleineren Netzen ein Problem - ja.
Eben schon die Frage ob Logs nur in den Systemen oder auf einem Logserver gespeichert werden ist für kleinere ja zu teuer - zumal wer schaut das da je an.
Wenn du zu einem System kommst das Du nicht kennst kannst du ja die meisten Events gar nicht beurteilen - der Zeitaufwand würde zum Horror, der Kunde unzufrieden.
Ich sehe das im Zusammenhang mit dem Thema Verfügbarkeit. Ist die Schmerzgrenze gross genug - ist meist auch Budget und Verständniss für Monitoring da.
Ein Tool das dir das so Erleichtert wie du gefragt hast kenne ich nicht.
gruss p
Ich sehe das ähnlich wie DerWoWusste
"Mein Hauptproblem sehe ich darin, dass ich das "Ursprungsproblem" meist aufgrund der vielen Ereignisse nicht erkennen kann. Bei 3-5 Servern und einem schwerwiegenden Problem steigt die Anzahl an auflaufenden Logs zur Analyse auf mehrere huntert bis tausend Meldungen."
Ich denke die Kunst liegt darin zu finden wo das Problem begonnen hat - also könntest du dann die ersten 1000 Events pro 5 Server nach Warnungen und Fehlern Filtern,
beginnend etwas bevor das Problem begann.
Hierbei sind HP-Openview, Whatsup oder Nagios etc. erstmal hilfreicher, weil du meist schneller siehst wo es angefangen hat.
Du kannst die wesentlichen Dienste Monitoren - und suchst bei einem Problem konkret.
Dies ist eben eine Frage der Grösse der Umgebung. In kleineren Netzen ein Problem - ja.
Eben schon die Frage ob Logs nur in den Systemen oder auf einem Logserver gespeichert werden ist für kleinere ja zu teuer - zumal wer schaut das da je an.
Wenn du zu einem System kommst das Du nicht kennst kannst du ja die meisten Events gar nicht beurteilen - der Zeitaufwand würde zum Horror, der Kunde unzufrieden.
Ich sehe das im Zusammenhang mit dem Thema Verfügbarkeit. Ist die Schmerzgrenze gross genug - ist meist auch Budget und Verständniss für Monitoring da.
Ein Tool das dir das so Erleichtert wie du gefragt hast kenne ich nicht.
gruss p
moinsen,
ich sehe das ein wenig anders....
zum Thema Logs auswerten/logserver gibt es gute kostenlose Werkzeuge, die man grade in einer großen Umgebung braucht.
Das man unabhängig davon mit werkzeugen wie incinga(Nagios) und gesonderten Minibätchen seine div. Server aktiv testen kann/sollte ist in meinen Augen ein unabdingbares muß.
Bis ein AD Controller mal einen Fehler "freiwillig" herausrückt, dauert es viel zu lange - den prüft man "aktiv".
Zum Bleistift so:
"kostet" keinen Cent, nur etwas Rechenkapazität und einen geplanten Task pro DC
Und "sowas" ist nun wirklich keine Zauberei...
Gruß
ich sehe das ein wenig anders....
zum Thema Logs auswerten/logserver gibt es gute kostenlose Werkzeuge, die man grade in einer großen Umgebung braucht.
- logparser
- kiwi syslogserver
Das man unabhängig davon mit werkzeugen wie incinga(Nagios) und gesonderten Minibätchen seine div. Server aktiv testen kann/sollte ist in meinen Augen ein unabdingbares muß.
Bis ein AD Controller mal einen Fehler "freiwillig" herausrückt, dauert es viel zu lange - den prüft man "aktiv".
Zum Bleistift so:
- postie/bmail als mailer
dcdiag |find "fail" || goto end
dcdiag>c:\script\dcdiag.ini
postie.exe -host:ip.vom.mail.server -to:support@firma.de -file:c:\script\dcdiag.ini -from:DCDIAG-%computername% -s:DCDIAG_FEHLER_%computername%
:end
"kostet" keinen Cent, nur etwas Rechenkapazität und einen geplanten Task pro DC
Und "sowas" ist nun wirklich keine Zauberei...
Gruß