m8ichael
Goto Top

Windows Server 2012R2 - Ausfall AD, DNS etc. nach Update

Hallo zusammen,

ich habe mit einem Windows-Server (virtualisiert) ein sehr merkwürdiges Problem: So hatte ich nach den April-Updates das Problem, dass der Server nach einer gewissen Zeit (1 bis 20 Stunden; sehr unterschiedlich) scheinbar seine Netzwerkverbindung (auch das interne Loopback) verlor/sich eine erhebliche Verzögerung bei der Verarbeitung von Pakten einstellte, was dann natürlich zu verschiedenen Folgefehlern führte (DNS-Auflösung, AD-Problem etc.). Ich hatte dann ein Backup eingespielt und anschließend noch einmal das Update und danach gab es keine Probleme mehr. Gestern wurde nun das Mai-Update eingespielt, und wieder exakt anschließend zeigt sich der Effekt, d.h., der Server ist praktisch nicht mehr wirklich ansprechbar.

server1

Ein Ping wird zwar wiederwillig beantwortet (mit entsprechender Verzögerung), aber eine Anmeldung (egal, ob lokal oder per Remote) ist praktisch nicht mehr durchführbar, da es zu erheblichen Verzögerungen - offenbar bei der Netzwerkverarbeitung - kommt. Schalte ich den Server dann hart aus und wieder ein, so funktioniert erst mal wieder alles bestens, bis dann nach dem o. a., sehr unspezifischen Zeitraum das Problem wieder auftritt.

In der Ereignisprotokollierung ergeben sich für mich keine ursächlichen Hinweise. Natürlich werden ordentlich Fehler protokolliert, jedoch erst, nachdem der o. a. Effekt auftritt (was ja auch nachvollziehbar ist)

Hat jemand eine Idee, was hier das Problem sein könnte? Wie gesagt, der Server läuft nun seit Monaten ohne Änderung (wenn man mal von den MS-Updates absieht) und erst vor rund einem Monat ist der Fehler erstmalig nach einem Update aufgetreten.

Viele Grüße

Michael

Content-Key: 337507

Url: https://administrator.de/contentid/337507

Printed on: April 25, 2024 at 08:04 o'clock

Member: Ravers
Ravers May 11, 2017 at 16:30:29 (UTC)
Goto Top
Moin!

Wenn der Fehler auftritt mal Netzwerkkabel ziehen und versuchen dann lokal anzumelden. Vermute dann ist die "Verzögerung" weg.
Dann auf Fehlersuche machen. Vllt. auch mal den Netzwerkkartentreiber aktualisieren/"drüberbüglen".
Wie virtualisiert Ihr? VMWare? Dann z.B. die VMXNET als Netzwerkadapter nehmen. Sagen die Log`s ggf was aus?

greetz
ravers
Member: sabines
sabines May 12, 2017 at 04:52:02 (UTC)
Goto Top
Zitat von @Ravers:

Wenn der Fehler auftritt mal Netzwerkkabel ziehen und versuchen dann lokal anzumelden.

Moin,

das stelle ich mir lustig vor, in einer VM das Kabel zu ziehen face-wink

Gruss
Member: m8ichael
m8ichael May 12, 2017 at 05:01:44 (UTC)
Goto Top
Guten Morgen,

habe mal probiert, in der VM die Netzwerkverbindung virtuell zu trennen - hat aber leider keine Besserung ergeben.

Viele Grüße

Michael
Member: sabines
sabines May 12, 2017 updated at 05:42:21 (UTC)
Goto Top
Moin,

auch wenn's am Problem aktuell nichts ändert, wie sieht's aus, wenn Du zukünftig vor dem Einspielen der Updates, den Server einmal komplett durchstartest?

Gruss
Member: nEmEsIs
nEmEsIs May 12, 2017 updated at 08:30:14 (UTC)
Goto Top
Hi
Wenn dies geschieht schau mal z.B im Taskmanager nach ob irgendwas den RAM oder CPU blockiert.

https://blogs.technet.microsoft.com/core/2015/06/26/memory-leak-verursac ...

Hatte dieses Verhalten auf zwei DCs urplötzlich. Keine Anmeldung mehr möglich und noch viele andere lustige Begleiterscheinungen.

Andere Frage gehe davon aus das der Server nicht der einzige ist auf dem VM Host? Diese laufen stabil ?
Nur um auszuschließen dass du nicht eine kaputte nic hast oder Probleme mit dem switchport oder einfache Kabelproblem.

mit freundlichen Grüßen Nemesis
Member: VGem-e
VGem-e May 12, 2017 at 09:06:13 (UTC)
Goto Top
Servus,

hatte grad an einem komplett neuen PC bei der Kollegin das Problem, das sie sich plötzlich mit komischen Fehlermeldungen (Benutzerprofil nur noch teilweise synchronisiert, Dateien auf Shares angeblich verschwunden, kein Internetzugang mehr möglich) herumärgern musste.

Zunächst das Patchkabel ausgetauscht => keine Änderung
Anderen Netzwerkport am dortigen Arbeitsplatz verwendet => Problem z.Zt. offensichtlich behoben

Deshalb kann ich mir @nEmEsIs vorstellen, dass hier ein Kabelproblem o.ä. vorliegt.

Gruß
Member: m8ichael
m8ichael May 12, 2017 at 12:46:29 (UTC)
Goto Top
Hallo,

ich nutze WSUS, da ich mir das manuelle Aktualisieren der einzelnen Server sparen möchte. face-wink

Viele Grüße

Michael
Member: m8ichael
m8ichael May 12, 2017 at 12:50:27 (UTC)
Goto Top
Hi,

das ist noch mal ein guter Hinweis - dem werde ich jetzt nachgehen. Gestaltet sich gerade etwas nach der Suche der Nadel im Heuhaufen... face-sad

Ein generelles Problem mit der VM kann ich mittlerweile ausschließend, da die anderen, Parallelmaschinen laufen.

Viele Grüße

Michael
Member: m8ichael
m8ichael May 13, 2017 at 07:02:10 (UTC)
Goto Top
Hallo zusammen,

ich habe jetzt noch mal einige Dinge getestet, bin aber leider noch nicht wirklich weiter... face-sad

Ich konnte jedenfalls feststellen, dass das Problem nicht auftritt, wenn der Server frisch gebootet ist und ich mich anmelde. Der Fehler tritt erst auf, wenn keine lokale Anmeldung mehr besteht (dann mittlerweile nach einem Zeitraum von ca. 30 Minuten). Ein memoryleak scheint jedoch nicht zu bestehen, denn der Speicher bleibt ab dem Fehlerfall relativ konstant. Ebenso die CPU-Auslastung, die relativ konstant bei 5% liegt.

Allerdings dreht ab diesem Zeitpunkt der Netzwerkdienst völlig durch, was dann zu extrem hohen Latenzen mit den Folgefehlern (AD, DNS etc.) führt:

server2

Ich habe vorsorglich nach einem frischen Neustart die üblichen Verdächtigen überprüft (AD --> dcdiag); dort werden jedoch keine Fehler gemeldet (mal von den Eventlogs abgesehen).

Viele Grüße

Michael
Member: m8ichael
m8ichael May 14, 2017 updated at 07:51:07 (UTC)
Goto Top
Hallo zusammen,

und noch ein Update: Es scheint sich nunmehr doch um einen MemoryLeak zu handeln. So hatte ich nun testweise über einen langen Zeitraum meine ("lokale") Anmeldung am System beibehalten. Trotz der bestehenden Anmeldung verzeichnete ich heute Morgen das gleiche Problem. Wenngleich der Taskmanager zunächst noch einen erheblichen verfügbaren Speicheranteil zeigte, bekam ich beim Neustart des Taskmanagers nun die beiden folgenden Anzeigen:

server3
server4

Sehr strange. Den Tipp (1) hatte ich bereits umgesetzt.

Hat noch jemand einen Tipp? Oder besser neu aufsetzen?

Viele Grüße

Michael
Member: nEmEsIs
nEmEsIs May 14, 2017 updated at 08:24:31 (UTC)
Goto Top
Hi

Du bist lustig face-smile.
Also gut er liegt ein Memory leak vor.
Das neu aufsetzten kann helfen muss aber nicht. Weis ja nicht ob du noch nen zweiten DC hast usw. Wenn ja ist das neumachen zeitlich und finanziell ggf. Die billigere Lösung.
Bei mir war es bei dem Memory leak leider so das es den zweiten DC gleich mit betroffen hat und zwar gleichzeitig...

Hast du nach dem Tip1 von mir neugestartet gehabt ??
Wenn es wirklich nicht geholfen haben sollte den Wert wieder zurück ändern.

Wenn neumachen keine Option dann solltest du mit einem Prozess Monitor mal schauen was da so passiert bzw welche exe sich den Speicher krallt.
Sollte man schon eine tendenz innerhalb kurzer Zeit sehen.
Bei mir hat es damals nicht mal ne Stunde gedauert dann war der RAM komplett voll und noch ne Stunde später ging wirklich nix mehr.

Kurze Frage noch.
A) wieviel RAM hat dein Host ?
B) warum 1 Soket und 8 virtuelle Prozessoren ? Bzw was macht in einem Server ein i7 ??

Hast du mehr RAM in den VMs vergeben als du real im System hast ?
Mit welcher Virtualisierungssoftware arbeitest du ?

mit freundlichen Grüßen
Nemesis
Member: m8ichael
m8ichael May 14, 2017 at 10:49:41 (UTC)
Goto Top
Hi!

Also gut er liegt ein Memory leak vor.

Na ja, zumindest hatte ich heute Morgen das erste mal die Anzeige, dass kein Speicher mehr verfügbar sei. Ein regelrechtes "Leersaugen" von Speicher liegt aber aktuell nicht vor - die Maschine läuft jetzt wieder seit zwei Stunden konstant mit 35% Speicherauslastung.

server5

Das neu aufsetzten kann helfen muss aber nicht. Weis ja nicht ob du noch nen zweiten DC hast usw. Wenn ja ist das neumachen zeitlich und finanziell ggf. Die billigere Lösung.
Bei mir war es bei dem Memory leak leider so das es den zweiten DC gleich mit betroffen hat und zwar gleichzeitig...

Das ist ja meine Befürchtung. Nachdem ich beim ersten Fehlerfall das Backup mit anschließendem manuellen Update eingespielt hatte, lief es ja auch wieder für rund einen Monat. Das Problem trat erst wieder auf, nachdem ein weiteres Update (per wsus) eingespielt wurde. Andererseits bin ich seit rund einer Woche gefühlt kein Stück weiter... face-sad

Hast du nach dem Tip1 von mir neugestartet gehabt ??

Ja, mittlerweile gefühlt so 10 Mal... face-wink

Wenn neumachen keine Option dann solltest du mit einem Prozess Monitor mal schauen was da so passiert bzw welche exe sich den Speicher krallt.
Sollte man schon eine tendenz innerhalb kurzer Zeit sehen.
Bei mir hat es damals nicht mal ne Stunde gedauert dann war der RAM komplett voll und noch ne Stunde später ging wirklich nix mehr.

Wie meinst du das genau? Der PM zeigt doch nur, wieviel Speicher sich eine Anwendung krallt, aber nicht, wieviel nicht wieder freigegeben wurde, oder?

Kurze Frage noch.
A) wieviel RAM hat dein Host ?

16 GB

B) warum 1 Soket und 8 virtuelle Prozessoren ? Bzw was macht in einem Server ein i7 ??

Frag nicht....handelt sich um einen QNAP-Server. Wir setzen hier drei weitestgehend identische physische Maschinen ein, wobei nur die hier beschriebene zickt...
Member: nEmEsIs
nEmEsIs May 14, 2017 at 13:56:16 (UTC)
Goto Top
Hi

Also Moment.
Deine VM hat 12 GB und die QNAP hat 16.
Läuft da noch mehr drauf an VMs ?
Was für Anwendungen laufen den da noch auf deinem DC ?
Sehe Java und nen SQL (WSUS?) und nen IIS (WSUS?)

Kannst du die VM auf einen anderen Host verschieben ?

mit freundlichen Grüßen Nemesis
Member: m8ichael
m8ichael May 15, 2017 at 13:10:38 (UTC)
Goto Top
Hi,

Deine VM hat 12 GB und die QNAP hat 16.
Läuft da noch mehr drauf an VMs ?

Nein, das ist auf der Maschine die einzige VM. Die restlichen 4 GB wurden für QNAP-interne Apps reserviert.

Was für Anwendungen laufen den da noch auf deinem DC ?
Sehe Java und nen SQL (WSUS?) und nen IIS (WSUS?)

Korrekt, in erster Linie ist der wsus installiert (daher auch IIS und SQL [Interne Windows-DB]). Darüber hinaus sind noch ein Mailserver (hMailserver) sowie eine Druckerverwaltung (PaperCut) installiert.

Unabhängig davon hatte ich gestern mal die gesamte Drittsoftware deaktiviert und nur die MS-Server-Dienste/-Programme laufen lassen - leider das gleiche Bild. Es scheint also - wenn man mal nicht von einem Hardwaredefekt ausgeht - tatsächlich ein MS-Thema zu sein.

Das Problem ist leider, dass der Fehler nicht sofort nach dem Systemstart auftritt, sondern in "Schüben". Erstes Anzeichen ist, dass Anfragen per nslookup nur noch verzögert vorgenommen werden oder auch gerne mal im "Timeout" stecken bleiben. Der Speicherplatz und die entsprechende Auslastung ist zu diesem Punkt noch nicht wirklich auffällig (zumindest gibt es beispielsweise im ProcessExplorer keine auffälligen Speicherfresser). Erst bei einer Laufzeit von mehr als 10 Stunden kommt es dann i. d. R. zu einem Komplettausfall des Systems, bei dem dann nur noch ein Reset hilft. Allerdings hatte ich auch schon Situationen, bei denen das System >20 Stunden lief und sich "nur" die DNS-Ausfälle (mit den Folgewirkungen) gezeigt haben, das System selbst aber dem Grunde nach noch lief (inkl. der sonstigen Anwendungen wie bspw. Mailserver).

Kannst du die VM auf einen anderen Host verschieben ?

Das steht bei mir noch als Punkt auf der Tagesordnung, wobei das - aufgrund von unterschiedlichen Netzen - nicht ganz so trivial ist.

Viele Grüße

Michael
Mitglied: 45455
45455 Jul 06, 2017 at 07:19:24 (UTC)
Goto Top
Gibts da Neuigkeiten?

Ich hab das Phänomen auf zwei Systemen in etwa zeitgleich seit Anfang Juni.
Eins virtuell auf Hyper-V, eins physikalisch auf einem Intel-Serverboard, völlig unterschiedliche NICs

Bei dem Intelboard interessanterweise nach einem Inplace-Upgrade von 2012 nach 2012R2, aber wohl auch nach dem Einspielen von Updates.

Zeitdauer unterschiedlich zwischen 1 und 3 Tagen, bis die Maschine nicht mehr über die Freigaben erreichbar ist.
Anmelden geht dann meist noch.

Auf gleichem Patchstand hab ich allerdings 2 physikalische und 8 virtuelle Maschinen auf 2012R2, die das Problem überhaupt nicht haben.
1 physikalische auf gleicher Hardware und 3 virtuelle auf demselben Hyper-V-Host.

Ich hab mir aus Zeitgründen gerade mit automatischen Reboots nachts geholfen, aber das ist natürlich kein Dauer-Zustand.

Gruß
Kai
Member: m8ichael
m8ichael Jul 15, 2017 at 06:32:14 (UTC)
Goto Top
Hallo,

ich konnte bei mir mittlerweile das Problem identifizieren: So waren bei den iSCSI-Zielen offenbar nicht erreichbare Ziele enthalten. Diese sorgten offenbar - warum auch immer - für den Ausfall. Warum das Problem erst nach einem Update aufgetaucht ist, erschließt sich mir jedoch nicht. Nachdem die fehlerhaften Ziele entfernt wurden, funktioniert wieder alles absolut ohne Probleme.

Viele Grüße

Michael