CheckMK - IDRAC via IPMI
Moin,
seit Kurzem haben wir CheckMK als Hardware-Appliance. Es läuft alles gut. Nur eins nervt.
Wir überwachen via IDRAC die Hardware unserer Dell-Server. Eingesetzt wird IPMI. Das funktioniert vom Prinzip auch. Aber es kommt mehrfach täglich vor, dass ein großer Teil bis alle Sensoren den Status "UNKN" haben mit der Meldung "Item not found in monitoring data." Dann gibt es auch entsprechend viele Mails mit der Meldung. Kurz darauf funktioniert es wieder. Alle Daten kommen rein und die Fehler verschwinden. Es ist also die Konfiguration vom Prinzip richtig. Wenn ich händisch die Abfrage starte (Host -> Run service discovery) erhalte ich erst einmal
Drunter steht, dass ich einen Rescan starten soll. Mache ich das, dann werden in der Regel alle Sensoren erkannt und gehen in den Status "OK". Es kommt aber auch vor, dass das ebenso schief läuft und diverse Sensoren den Status "UNKN" erhalten. Wenn das passiert, reicht meist ein erneuter Rescan und die Sensoren sind wieder alle OK.
Ich habe sowohl FreeIPMI als auch IPMITool getestet. Bei beiden funktioniert es im Prinzip. Bei beiden kommt es aber auch zu den Falschmeldungen. Zur Zeit ist eingestellt:
Benutzername und Passwort sind natürlich auch konfiguriert.
Auf Seiten der IDRAC ist der entsprechende User eingerichtet. Er hat die Rechte "Operator" für IPMI-LAN, IPMI-serielle und SNMP. Seriell via LAN ist aktiviert und IPMI ist auch aktiviert mit dem Level "Operator".
Dann haben wir noch auf Seiten des CheckMK auf Anraten eines Dienstleisters folgende Regeln:
Trotzdem funktioniert die Abfrage der Werte nicht stabil. Während ich hier schreibe ist wieder eines der Bleche angeblich gar nicht vorhanden. Die anderen fünf stehen mit allen Sensoren auf OK. Zwischenzeitlich waren aber auch alle auf OK. Also auch das Blech, dass gerade angeblich gar nicht da ist. Nun gehen mir und leider auch unserem DL die Ideen aus.
Kennt einer von Euch das Problem und hat die Lösung? So jedenfalls ist das Monitoring sinnbefreit.
So. Zum Abschluss: Jetzt ist der Server, der gerade rumgespackt hat wieder auf OK. Dafür ist ein anderer mit 14 Sensoren "UNKN".
Liebe Grüße
Erik
seit Kurzem haben wir CheckMK als Hardware-Appliance. Es läuft alles gut. Nur eins nervt.
Wir überwachen via IDRAC die Hardware unserer Dell-Server. Eingesetzt wird IPMI. Das funktioniert vom Prinzip auch. Aber es kommt mehrfach täglich vor, dass ein großer Teil bis alle Sensoren den Status "UNKN" haben mit der Meldung "Item not found in monitoring data." Dann gibt es auch entsprechend viele Mails mit der Meldung. Kurz darauf funktioniert es wieder. Alle Daten kommen rein und die Fehler verschwinden. Es ist also die Konfiguration vom Prinzip richtig. Wenn ich händisch die Abfrage starte (Host -> Run service discovery) erhalte ich erst einmal
OK [mgmt_ipmi]: Success
OK [snmp]: Success
CRIT [special_ipmi_sensors]: No cached data availableCRIT
OK [piggyback]: Success (but no data found for this host)
Drunter steht, dass ich einen Rescan starten soll. Mache ich das, dann werden in der Regel alle Sensoren erkannt und gehen in den Status "OK". Es kommt aber auch vor, dass das ebenso schief läuft und diverse Sensoren den Status "UNKN" erhalten. Wenn das passiert, reicht meist ein erneuter Rescan und die Sensoren sind wieder alle OK.
Ich habe sowohl FreeIPMI als auch IPMITool getestet. Bei beiden funktioniert es im Prinzip. Bei beiden kommt es aber auch zu den Falschmeldungen. Zur Zeit ist eingestellt:
Use IPMITool
Privilege Level: OPERATOR
IPMI Interface: lanplus - IPMI v2.0 RMCP+ LAN interface
Benutzername und Passwort sind natürlich auch konfiguriert.
Auf Seiten der IDRAC ist der entsprechende User eingerichtet. Er hat die Rechte "Operator" für IPMI-LAN, IPMI-serielle und SNMP. Seriell via LAN ist aktiviert und IPMI ist auch aktiviert mit dem Level "Operator".
Dann haben wir noch auf Seiten des CheckMK auf Anraten eines Dienstleisters folgende Regeln:
Maximum number of check attempts for service: 6
Normal check interval for service checks: 10 minutes
Retry check interval for service checks: 5 minutes
Service check timeout (Micro Core): 5 minutes
Trotzdem funktioniert die Abfrage der Werte nicht stabil. Während ich hier schreibe ist wieder eines der Bleche angeblich gar nicht vorhanden. Die anderen fünf stehen mit allen Sensoren auf OK. Zwischenzeitlich waren aber auch alle auf OK. Also auch das Blech, dass gerade angeblich gar nicht da ist. Nun gehen mir und leider auch unserem DL die Ideen aus.
Kennt einer von Euch das Problem und hat die Lösung? So jedenfalls ist das Monitoring sinnbefreit.
So. Zum Abschluss: Jetzt ist der Server, der gerade rumgespackt hat wieder auf OK. Dafür ist ein anderer mit 14 Sensoren "UNKN".
Liebe Grüße
Erik
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 667919
Url: https://administrator.de/contentid/667919
Ausgedruckt am: 03.12.2024 um 17:12 Uhr
9 Kommentare
Neuester Kommentar
Moin.
Ich hoffe, ihr meint _SNMP_...
Die ganzen BMC-Controller, egal ob IPMI, Redfish, iDRAC, BMRC oder wie auch immer die Hersteller ihre Inkarnation davon getauft haben, sind nicht primär auf immer wiederkehrende Anfragen eines Monitoring-Systems ausgelegt. Soll heissen: Die CPU der Dinger ist einfach nicht performant genug, um die reinkommenden Abfragen innerhalb der Timeouts zu beantworten.
Bei der Verwendung von IPMI (via freeipmi) kannst du wenig an den Timeouts ändern, bei SNMP kannst du die Wartedauer/Timeout der Checks hingegen via CheckMK-GUI beeinflussen. Eure Einstellung sind schon sehr weit vom Standard entfernt und mehr als großzügig bemessen, daran klemmt es eher nicht.
Mit der 2.3.0 hat CheckMK eine neue Redfish-Version eingeführt, das hat bei uns die Probleme beim Monitoring von aktuellen Supermicro-IPMIs deutlich entschärft. Ob das auch bei nem iDRAC geht, kann ich dir leider nicht beantworten - habe aktuell genau null DELL-Server am Start...
Cheers,
jsysde
Ich hoffe, ihr meint _SNMP_...
Die ganzen BMC-Controller, egal ob IPMI, Redfish, iDRAC, BMRC oder wie auch immer die Hersteller ihre Inkarnation davon getauft haben, sind nicht primär auf immer wiederkehrende Anfragen eines Monitoring-Systems ausgelegt. Soll heissen: Die CPU der Dinger ist einfach nicht performant genug, um die reinkommenden Abfragen innerhalb der Timeouts zu beantworten.
Bei der Verwendung von IPMI (via freeipmi) kannst du wenig an den Timeouts ändern, bei SNMP kannst du die Wartedauer/Timeout der Checks hingegen via CheckMK-GUI beeinflussen. Eure Einstellung sind schon sehr weit vom Standard entfernt und mehr als großzügig bemessen, daran klemmt es eher nicht.
Mit der 2.3.0 hat CheckMK eine neue Redfish-Version eingeführt, das hat bei uns die Probleme beim Monitoring von aktuellen Supermicro-IPMIs deutlich entschärft. Ob das auch bei nem iDRAC geht, kann ich dir leider nicht beantworten - habe aktuell genau null DELL-Server am Start...
Cheers,
jsysde
Moin.
Wobei: Deine Fehlermeldung entsteht gar nicht beim Check selbst, sondern bei der Discovery (CheckMK_Discovery). Die rödelt natürlich alles durch, was der jeweilige Host an Informationen zu bieten hat, ermittelt also die zu monitorenden Services. Wir haben unsere Discovery auf 1x täglich gestellt, das hat vor allem bei Juniper-Switches zu einer deutlichen Entlastung/Verringerung dieser UNKN-Meldungen geführt. Zusätzlich haben wir die Benachrichtigungen so angepasst, dass UNKN gar keine Mail mehr erzeugt, sondern einfach nur im Dashboard angezeigt wird.
Wenn ich Montag wieder im Büro bin, kann ich dir auch die genauen Einstellungen übermitteln.
Cheers,
jsysde
Zitat von @erikro:
[...]Aber eine Anfrage alle zehn Minuten sollte doch auch die lahmste CPU nicht überfordern.
Das kommt stark darauf, was die CPU gerade so macht... Ich habe das gleiche Probleme wie du und beobachte dieses Verhalten seit der Einführung von CheckMK bei uns Anfang 2023. Wir monitoren allerdings mit den Default-Timeouts (also deutlich öfter) und wenn ich mir die CPU-Auslastung so im Graphen anschauen, erledigt die CPU auf den IPMIs immer irgendwas, die Auslastung ist nie NULL, sondern immer mind. 30%/40%, teils auch >90%. So richtig schlau bin ich da auch noch nicht daraus geworden, was genau da passiert und warum die Checks teils einfach fehlschlagen.[...]Aber eine Anfrage alle zehn Minuten sollte doch auch die lahmste CPU nicht überfordern.
Wobei: Deine Fehlermeldung entsteht gar nicht beim Check selbst, sondern bei der Discovery (CheckMK_Discovery). Die rödelt natürlich alles durch, was der jeweilige Host an Informationen zu bieten hat, ermittelt also die zu monitorenden Services. Wir haben unsere Discovery auf 1x täglich gestellt, das hat vor allem bei Juniper-Switches zu einer deutlichen Entlastung/Verringerung dieser UNKN-Meldungen geführt. Zusätzlich haben wir die Benachrichtigungen so angepasst, dass UNKN gar keine Mail mehr erzeugt, sondern einfach nur im Dashboard angezeigt wird.
Wenn ich Montag wieder im Büro bin, kann ich dir auch die genauen Einstellungen übermitteln.
Cheers,
jsysde
also ich persönlich mach das eigentlich so
IPMI, iDrac, HP ILO
Dort den SMTP Emails Server reinpflegen und bei änderungen oder Problemen Email generieren lassen an das IT Postfach. Somit ist das System auch überwacht, zwar nicht so schön wie checkmk oder prtg aber kommt aufs selbe raus.
Wenn was los ist bekommste Email, ob das nun rot leuchtet oder ist ja wurst.
IPMI, iDrac, HP ILO
Dort den SMTP Emails Server reinpflegen und bei änderungen oder Problemen Email generieren lassen an das IT Postfach. Somit ist das System auch überwacht, zwar nicht so schön wie checkmk oder prtg aber kommt aufs selbe raus.
Wenn was los ist bekommste Email, ob das nun rot leuchtet oder ist ja wurst.