niklas1754
Goto Top

Directory Service NTDS ISAM Fehler

Hallo zusammen,

ich habe hier ein System vor mir, welches andauernd viele Fehler mit der Quelle NTDS ISAM schmeißt.
Mr. Google konnte mir da bisher nicht weiterhelfen.
Die Fehlermeldungen sind bis auf die Zahlen immer identisch.

Hat einer von euch eine Idee oder Tipps?

Dankeschön

Viele Grüße

Niklas
ntds_isam

Content-ID: 3950558194

Url: https://administrator.de/contentid/3950558194

Ausgedruckt am: 20.11.2024 um 06:11 Uhr

141986
141986 15.09.2022 um 11:42:37 Uhr
Goto Top
Hi,

Platte(n) vielleicht solangsam am sterben?

Schau doch mal, wie die Ressourcenauslastung aussieht?
Anscheinend braucht es ungewöhnlich lange die file (bzw. 8kb davon) zu lesen (braucht dafür wohl 17 Sekunden was echt lange ist in dem Kontext).

Grüße
niklas1754
niklas1754 15.09.2022 um 11:48:11 Uhr
Goto Top
Hi,

Ich schaue mal nach... es sei dazu gesagt (habe ich vergessen) das das System eine VM ist.
Host ist ein ESX by the way.

Aber danke für deine Idee. Ich schaue mal.
141986
141986 15.09.2022 aktualisiert um 11:53:10 Uhr
Goto Top
das das System eine VM ist
Dann mal bei dem Host schauen, ob er noch genug Luft für deine VM hat.
Auf dem Blech schauen, ob das Raid noch vollständig läuft, ob Platten ausfallen/ausgefallen sind.

So würde ich mir das ersteinmal zusammenreimen und dem auf den Grund gehen.

Edit: VMware Tools sind auf der VM ja installiert, richtig?

Grüße
niklas1754
niklas1754 15.09.2022 um 12:46:26 Uhr
Goto Top
Alles klar, prüfe ich mal. Kann sein das eine Platte über den Jordan gegangen ist, ich schaue mal.
Auf jeden Fall eine Hardware-Geschichte?

VMware Tools sind installiert, ja.

Grüße
141986
141986 15.09.2022 um 13:06:02 Uhr
Goto Top
Kann sein das eine Platte über den Jordan gegangen ist
Klingt nach einem guten Monitoring was Ihr da so einsetzt.

Ich hoffe das Beste für Dich und deine Umgebung.

Auf jeden Fall eine Hardware-Geschichte?
Jaein. Wenn der Host überfordert ist, bzw. zuviele IOPs auf dem Volume hängen, werden wohl alle VMs massiv ausgebremst.
Natürlich kann das Raid auch degraded sein. Musste mal forschen.

Grüße
niklas1754
niklas1754 15.09.2022 um 13:23:44 Uhr
Goto Top
Ja, der Fehler kommt von unserem Monitoring :D

Ich habe nochmal geschaut, und bin zu dem entschluss gekommen, dass sich da mit zwei Klicks nichts so schnell beheben lässt.

Wahrscheinlich sind entweder die Platten oder der Host überfordert mit dem Zeugs. Ist auch nicht mehr das neuste dort.

Danke dir soweit erstmal face-smile

Grüße
141986
141986 15.09.2022 um 13:42:48 Uhr
Goto Top
der Fehler kommt von unserem Monitoring
okay, Du hast keine Ahnung wovon ich spreche?

mir ging es um:
Kann sein das eine Platte über den Jordan gegangen ist
Sprich: Ihr habt kein Monitoringsystem am rennen, welches euch via Email/SMS/Buschfunk mitteilt, dass irgendwas an eurer Hardware nicht stimmt/abraucht. Ein Monitoringsystem (PTRG, Zabbix, LibreNMS, ..) überwacht deine Technik (mal ganz grob gesagt) und meldet sich, bei Unstimmigkeiten. Darüber solltet Ihr vielleicht nachdenken, sowas aufzusetzen (lassen).

mit zwei Klicks
Jaein. Erstmal herausfinden, was überhaupt Phase ist. Wenn bereits die Platten anfangen zu sterben, wäre das blöd, wenn wenn die letzte Platte stirbt, geht gar nichts mehr - eure Daten sind vollständig verloren -> Hier hilft nur noch Backup.

Wahrscheinlich sind entweder die Platten oder der Host überfordert
Lass unbedingt wen kommen, wenn Ihr keinen Datenverlust erfahren möchtet (Worstcase: Dir raucht gerade Stück für Stück dein Raid ab).

Evtl. deinem Dienstleister mitteilen, dass Er sich das zumindest mal anschauen soll.

VG
niklas1754
niklas1754 15.09.2022 um 14:53:38 Uhr
Goto Top
Was meinst du genau?

Wir haben bei uns in der Firma ServerEye im Einsatz, und das hat es uns gemeldet.
Auf dem Server läuft der AD Health Sensor. Und dieser Meldet uns einen FRS Event Fehler. Daher bin ich darauf gekommen.

Ich finde im ESX nichts bezüglich der Gesundheit der Platten. Ich steige durch das Menü-Wirr-Warr nicht mehr durch.
Gut, Azubi, Zweites Lehrjahr weiß nicht alles.


Problem ist eben, dass ich der Dienstleiter für diese Firma bin, bei dem das Problem ist, und ich von meinen Kollegen alleine gelassen werde, ist aber hier nicht Thema face-smile
141986
141986 15.09.2022 aktualisiert um 15:06:17 Uhr
Goto Top
Was meinst du genau?
Wir haben bei uns in der Firma ServerEye im Einsatz, und das hat es uns gemeldet.
Dann habe ich Dich falsch verstanden. Ich dachte, Du hast erst im Eventvwr festgestellt, dass etwas komisch läuft. face-smile

FRS Event
Würde ich auch drum schauen. Scheint so, als hättet Ihr min. 2 DCs die sich untereinander nicht (mehr?) abgleichen.

Ich finde im ESX nichts bezüglich der Gesundheit der Platten
Normalerweise bieten aktuelle Serveranbieter Weboberflächen an, um auf dein Raid schauen zu können.
Bei Fujitsu bspw. schimpft sich das bpsw. ServerView Raidmanager.

Im Zweifel: Host mal herunterfahren, neustarten und direkt ins Raidmenu noch vor dem OS Start. Hier mal den Status begutachten: (Healthy, Degraded) - ggf. gleich noch die Smartwerte der einzellnen Spindel anschauen.

Gut, Azubi, Zweites Lehrjahr weiß nicht alles.
Ahh!

dass ich der Dienstleiter für diese Firma bin
Ohh!

Kollegen alleine gelassen werde
Unschön.

VG
niklas1754
niklas1754 15.09.2022 um 15:14:39 Uhr
Goto Top
Dann habe ich Dich falsch verstanden. Ich dachte, Du hast erst im Eventvwr festgestellt, dass etwas komisch läuft. face-smile

Die erste Meldung kam von ServerEye, später habe ich es im Eventlog gesehen.

FRS Event
Würde ich auch drum schauen. Scheint so, als hättet Ihr min. 2 DCs die sich untereinander nicht (mehr?) abgleichen.
Die Firma hat nur einen DC tatsächlich stehen... sehe aber gerade das bei "Active Directory-Standort und Dienste noch eine Leiche liegt... Och Leute... Das könnt der Fehler sein...
Ich finde im ESX nichts bezüglich der Gesundheit der Platten
Normalerweise bieten aktuelle Serveranbieter Weboberflächen an, um auf dein Raid schauen zu können.
VMware hat hier den vSphere um das zu überwachen. Muss da nochmal reinschauen.

Im Zweifel: Host mal herunterfahren, neustarten und direkt ins Raidmenu noch vor dem OS Start.
Ist bei der Firma glaube ich keine gute Idee. 24 Stunden Betrieb und so.


Ahh!
Jaa.


Unschön.
Normal bei uns....

Grüße
141986
141986 15.09.2022 um 15:29:23 Uhr
Goto Top
Die erste Meldung kam von ServerEye, später habe ich es im Eventlog gesehen.
Alright face-smile

Die Firma hat nur einen DC tatsächlich stehen
Ja gut, dann war da mal ein 2ter im Netz .. den versucht der letzte DC natürlich krampfhaft zu finden..
Aber wohl erstmal Nebensache.

Normal bei uns....
Traurig ..

Viel Erfolg. Wenn Du was in Erfahrung bringen konntest, kannst es uns ja wissen lassen.

VG
niklas1754
niklas1754 15.09.2022 um 16:26:05 Uhr
Goto Top
Ja gut, dann war da mal ein 2ter im Netz .. den versucht der letzte DC natürlich krampfhaft zu finden..

Habe tatsächlich was gefunden diesbezüglich.... aber habe noch eine weitere Fehlermeldung gefunden.

Ich habe auch herrausgefunden, das der Server die Schl für alles ist. Der macht DC, der macht Fileserver, der macht DNS, der macht DHCP. Und hat RomaingProfiles, also arbeiten alle Mitarbeiter darauf. Und 4 Kerne und 16 GB RAM ist dann da schon eng....
exchnage_fehler
Dani
Dani 15.09.2022 um 18:28:41 Uhr
Goto Top
Moin,
Und hat RomaingProfiles, also arbeiten alle Mitarbeiter darauf. Und 4 Kerne und 16 GB RAM ist dann da schon eng....
das ist alles relativ. Wir kennen bis dato keine Netzgrößen (Anzahl Benutzer, Rechner, Server, Anwendungen, etc.).

Die Warnungen deuten daraufhin, dass die VM bzw. der Host mit dem Schreiben auf den Hard Disk nicht hinterher kommt. Kann es sein, dass der Datastore im ESXi (sehr) hohe IO(PS) Werte im Monitoring hat?


Gruß,
Dani
niklas1754
niklas1754 15.09.2022 aktualisiert um 18:36:10 Uhr
Goto Top
Wir kennen bis dato keine Netzgrößen
Moin, als zu viel möchte ich darüber auch nicht preisgeben. Stichwort sensible Kundendaten und so. Benutzer sind nicht gerade wenig, sage ich's mal so...

Im vSphere ist mir bisher nichts markantes aufgefallen. Ich schaue morgen aber nochmal gründlich nach.
Danke für den Tipp. Ich melde mich dann auf dieser Welle.

Gruß,
Niklas
Dani
Dani 15.09.2022 um 19:22:57 Uhr
Goto Top
Moin,
Im vSphere ist mir bisher nichts markantes aufgefallen.
ist ja nicht so das vSphere eine Meldung die Hände hoch streckt und "Achtung Achtung" schreit, wenn es zur hohen IO(PS) kommt. Sind in dem Server HDD, SAS oder SSD verbaut. RAID 0, 1, 5, oder 10. Das sind alles Faktoren, die auf solche Warnungen einwirken können.

Moin, als zu viel möchte ich darüber auch nicht preisgeben.
Ich weiß zwar nicht was man aus den Daten schließen könnte sollte, aber das ist natürlich dir überlassen. Wobei bei einem DC können es mit Sinn und Verstand eigentlich keine 50 Leute sein. face-wink Wenn du z.B. ein RAID1 mit HDDs hast, können eben schon 3 VMs dafür sorgen, dass der Datastore nicht mehr zeitnah hinterher kommt mit seinen Operationen.


Gruß,
Dani
niklas1754
niklas1754 15.09.2022 um 20:09:47 Uhr
Goto Top
Moin,

ist ja nicht so das vSphere eine Meldung die Hände hoch streckt und "Achtung Achtung" schreit, wenn es zur hohen IO(PS) kommt. Sind in dem Server HDD, SAS oder SSD verbaut. RAID 0, 1, 5, oder 10. Das sind alles Faktoren, die auf solche Warnungen einwirken können.

Also direkte Push-Meldungen kamen mir keine Entgegen...
Aber das kann ich morgen tatsächlich mal Prüfen.. Aus dem Stehgreif kann ich es dir nicht sagen, dafür haben wir zu viele Kunden :D
Werde ich aber morgen mal in Erfahrung bringen und mit euch teilen. Danke dir erstmal face-smile

Gruß,
Niklas
niklas1754
niklas1754 16.09.2022 um 09:05:11 Uhr
Goto Top
Morgen zusammen,

ich habe so einige schöne Dinge gefunden. Kollege hatte sich wohl draum schonmal gekümmert.
Aussage DELL: Das ist ein Bug, funktioniert aber alles.
storage_2
unisphere
storage
Dani
Dani 16.09.2022 um 11:48:13 Uhr
Goto Top
Moin,
es beantwortet nach wie vor nicht, welche Festplatten- und ggf. RAID-Typen verwendet werden und wie hoch die IO(PS) zu dem Zeitpunkt sind, als die VMs die Warnungen im Ereigenisprotokoll protokollieren.

Aussage DELL: Das ist ein Bug, funktioniert aber alles.
Um was für ein Modell von DELL handelt es sich und welche ESXi Version wird genutzt? Dann schau ich mal in unseren Fuhrpark nach, ob die Kollegen sowas dokumentiert haben.

Ohne Fakten können wir nur spekulieren. Und das zu Adminis sehr ungerne...


Gruß,
Dani
niklas1754
niklas1754 16.09.2022 um 12:07:15 Uhr
Goto Top
Moin,
entweder bin ich blind oder ich finde die nicht.

Ich habe jetzt die Daten für die IO(PS) gefunden.
io_ps
ntds_11_28

Das Storage ist ein DELL CT-SCv3020
Die Server sind zwei DELL PowerEdge R640, auf denen ESXi 6.7.0 läuft

Verbaut sind DELL ST600MP0006 SAS Festplatten. Diese 21x
Diese 21 sind in zwei Storages aufgeteilt. Einmal RAID 10 und einmal RAID 5-9
Beide haben 4TB und sind abgeblich beide in Ordnung und die Storages sind "Nach oben" wie es hier steht. Gemeint ist aber "Up".... Da hat die Übersetzung gut funktioniert :D
141986
141986 23.09.2022 um 09:21:16 Uhr
Goto Top
und? Gibts schon Erfolgsmeldungen?

VG
niklas1754
niklas1754 23.09.2022 um 09:24:47 Uhr
Goto Top
Moin,

leider nein. Immernoch die selben Fehler. Liegt jetzt bei DELL als Ticket face-smile

Grüße
141986
141986 23.09.2022 aktualisiert um 09:28:22 Uhr
Goto Top
Oh man. Ich hoffe, Du/Ihr findet einen richtigen Ansatz zur Lösung.

Kannst ja ab und an berichten face-smile

VG
niklas1754
niklas1754 23.09.2022 um 09:35:08 Uhr
Goto Top
Wenn ich rückmeldungen bekomme, gerne.

Problem ist halt auch, dass auf diesem Server mal eben alles läuft, und die Platten auch nicht mehr die neusten sind... bin mal gespannt was da noch kommt.

Grüße
141986
141986 23.09.2022 um 09:36:29 Uhr
Goto Top
...hoffenlich geht das gut aus ..

VG
niklas1754
niklas1754 23.09.2022 um 09:43:43 Uhr
Goto Top
Wir bleiben gespannt face-smile

Grüße