kamikamaze
Goto Top

Netzwerkprobleme auf Windows Server 2012 R2

Hallo zusammen,

wir haben bei uns "merkwürdige" Probleme auf dem DC (einziger DC in der Domain; ja, ich weiß: ist suboptimal, aber es gibt kein Geld dafür face-sad ). Zu den Symptomen:

  • Clients können sich nicht mehr Netzwerk-Freigaben auf dem Server verbinden.
  • Auf dem Server selbst gibt es keinen Zugriff mehr auf Internetseiten oder auch auf bestimmte Webserver (auch nicht per IP statt DNS und auch nicht auf den DSL-Router) innerhalb des LAN. Ein Ping auf die entsprechenden Hosts im LAN funktioniert aber.
  • Eine Remoteverbindung auf dem Server von außerhalb per Teamviewer/Anydesk funktioniert
  • Nach einem Neustart des Servers/DCs funktioniert alles wieder (ich muss das aber mittlerweile fast täglich durchführen und es ist mir noch nicht gelungen, ein zeitlichen Zusammenhang zwischen bestimmten Vorgängen auf dem Server und dem Auftreten der Probleme zu erkennen: manchmal tritt die Problematik bereits ein paar Stunden nach einem Neustart auf, manchmal habe ich dann den Rest des Tages Ruhe und es tritt erst am nächsten Tag zu irgendeinem Zeitpunkt wieder auf)
  • erst vermutete ich Probleme bei der Namensauflösung, aber ein DCDiag /test:DNS läuft ohne Fehler durch, außerdem habe ich alle zusätzlich noch die Aufräumfunktion im DNS bemüht und es gibt ja wie oben bereits erwähnt sogar Probleme bei Verbindungen per IP-Adresse.
im Ereignislog gibt es eine interessante wiederkehrende Fehlermeldung:
Fehler bei der Verarbeitung der Gruppenrichtlinie. Der Versuch, die Datei "\\<Domain>\sysvol\<Domain>\Policies\{ID}\gpt.ini" von einem Domänencontroller zu lesen, war nicht erfolgreich. Die Gruppenrichtlinieneinstellungen dürfen nicht angewendet werden, bis dieses Ereignis behoben ist. Dies ist möglicherweise ein vorübergehendes Problem, das mindestens eine der folgenden Ursachen haben kann:
a) Namensauflösung/Netzwerkverbindung mit dem aktuellen Domänencontroller.
b) Wartezeit des Dateireplikationsdienstes (eine auf einem anderen Domänencontroller erstellte Datei hat nicht auf dem aktuellen Domänencontroller repliziert).
c) Der DFS-Client (Distributed File System) wurde deaktiviert.


In den dazugehörenden Details finde ich dann:
ErrorCode 121
ErrorDescription Das Zeitlimit für die Semaphore wurde erreicht.


Das interpretiere ich ebenfalls mit grundsätzlichen Netzwerkproblemen. Denn die gpt.ini existiert und DFSR hat die Replikation des Ordners eh schon seit Jahren eingestellt, als der alte DC abgeschaltet wurde (also nach der Migration auf den neuen DC) und die Probleme existieren "erst" seit ein paar Wochen.

Am Router kann es "eigentlich" nicht liegen, denn wie gesagt: ein Neustart des DC (ohne Neustart des Routers) behebt sämtliche Probleme temporär. Der Server hat eine selbstverständlich eine statische IPv4-Adresse. An IPv6 habe ich mich seit jeher nicht dran getraut. Da habe ich immer alles gelassen wie es ist (auch nicht deaktiviert) und bis vor ein paar Wochen lief auch alles noch wie geschmiert und ich habe nichts verändert. Ist in irgendeiner Form bekannt, dass eines der MS-Updates des letzten Monats evtl. ein solches Problem verursacht?

Ich würde mich wirklich extrem freuen, wenn hier jemand helfen kann, sprich eine ähnliche Problematik schon mal gesehen oder zumindest eine neue Idee hat, wo man weiter suchen könnte! Vielen Dank an euch im voraus!!

Viele Grüße

Content-ID: 667281

Url: https://administrator.de/contentid/667281

Ausgedruckt am: 26.09.2024 um 23:09 Uhr

radiogugu
radiogugu 03.06.2021 um 11:24:47 Uhr
Goto Top
Hi.

Sind denn die Dienste alle noch gestartet, wenn die Probleme auftauchen?

Ist der DC physisch oder virtuell?

Falls eine Virtualisierungsplatform vorhanden ist, kannst du ja mal testweise einen zusätzlichen DC aufsetzen und das Verhalten beobachten.

Gruß
Marc
lcer00
lcer00 03.06.2021 um 11:30:55 Uhr
Goto Top
Hallo,

überprüfe mal das aktivierte Firewallprofil, z.b. mit Powershell:

get-netconnectionprofile

da sollte DomainAuthenticated stehen. wenn Nicht, hast Du ein Problem mit der https://docs.microsoft.com/en-us/windows/win32/winsock/network-location- ...

Grüße

lcer
Kamikamaze
Kamikamaze 03.06.2021 aktualisiert um 11:43:57 Uhr
Goto Top
Hi!

Hatte ich anfangs direkt überprüft (Dienste) - kann ich aber nochmal machen, wenn's wieder auftritt (schätzungsweise im Laufe des Tages face-wink ). Gibt es außer DNS, DHCP und DFRS noch was bestimmtes auf das ich achten sollte?

Ist ne physische Maschine.
Kamikamaze
Kamikamaze 03.06.2021 um 11:45:19 Uhr
Goto Top
Hallo zurück!

Prüfe ich beim nächsten Mal, wenn es auftritt. Im Moment ist es DomainAuth. Danke!
Dani
Dani 03.06.2021 um 12:20:57 Uhr
Goto Top
Moin,
Gibt es außer DNS, DHCP und DFRS noch was bestimmtes auf das ich achten sollte?
Schau dir den IST-Zustand an und dokumentiere diesen. Geht schnell und einfach per Powershell.

1) Get-Service > "C:\Temp\win-services_2021-06-03.txt"
2) Problem tritt auf
3) Get-Service > "C:\Temp\win-services.txt"
4) Vergleichen: compare-object (get-content "C:\Temp\win-services_2021-06-03.txt") (get-content "C:\Temp\win-services.txt")

Wie sieht es denn zu dem Zeitpunkt dem Datum und Uhrzeit auf dem Server aus, korrekt? Ebenfalls kurz und bündig mit Powershell kontrollieren: get-date


Gruß,
Dani
LordGurke
LordGurke 03.06.2021 um 12:57:48 Uhr
Goto Top
Zeitüberschreitungen beim Warten auf Semaphoren sind fast immer ein Treiberproblem — da würde ich mal ansetzen.
Nach Update des Treibers solltest du die Maschine auch einmal komplett vom Strom trennen, um Reste alter (temporärer) Firmware aus der NIC zu bekommen.
Kamikamaze
Kamikamaze 03.06.2021 um 14:55:33 Uhr
Goto Top
Moin, Dani!

Ja, gut. Get-Service --> compare scheint ein bequemer Lösungsansatz. Danke!

Zitat von @Dani:

Wie sieht es denn zu dem Zeitpunkt dem Datum und Uhrzeit auf dem Server aus, korrekt? Ebenfalls kurz und bündig mit Powershell kontrollieren: get-date

Letzteres (Zitiertes) habe ich nicht verstanden?!

Gruß Maze
Kamikamaze
Kamikamaze 03.06.2021 um 14:58:22 Uhr
Goto Top
Hi!

Das muss ich vor Ort machen - bin erst morgen wieder da. Aber das könnte auch eine Erklärung für die Symptomatik sein. Super Idee, danke!
radiogugu
radiogugu 03.06.2021 um 14:59:49 Uhr
Goto Top
Zitat von @Kamikamaze:
Moin, Dani!

Ja, gut. Get-Service --> compare scheint ein bequemer Lösungsansatz. Danke!

Zitat von @Dani:

Wie sieht es denn zu dem Zeitpunkt dem Datum und Uhrzeit auf dem Server aus, korrekt? Ebenfalls kurz und bündig mit Powershell kontrollieren: get-date

Letzteres (Zitiertes) habe ich nicht verstanden?!

Da geht es darum zu schauen, ob der DC oder ein Client die korrekte Zeit hat. Hier gibt es immer wieder domänen-weite Probleme, wenn es Abweichungen von > 3 -5 Minuten gibt.

Gruß
Marc
Kamikamaze
Kamikamaze 03.06.2021 um 15:15:50 Uhr
Goto Top
Ah, verstanden! face-smile Ich hatte gedacht, er möchte das get-Date noch irgendwie in die Abfrage der Services miteinfügen face-wink
erikro
erikro 03.06.2021 um 16:31:54 Uhr
Goto Top
Moin,

Zitat von @Kamikamaze:
wir haben bei uns "merkwürdige" Probleme auf dem DC (einziger DC in der Domain; ja, ich weiß: ist suboptimal, aber es gibt kein Geld dafür face-sad ). Zu den Symptomen:

  • Clients können sich nicht mehr Netzwerk-Freigaben auf dem Server verbinden.

Die sich demzufolge auch auf dem DC befinden. OK.

* Auf dem Server selbst gibt es keinen Zugriff mehr auf Internetseiten

Ernsthaft? Du surfst mit dem Server im Internet? Wahrscheinlich ist Dein bevorzugter Sport Freeclimbing mit eingeseiften Händen. face-wink

* Eine Remoteverbindung auf dem Server von außerhalb per Teamviewer/Anydesk funktioniert

Das ist jetzt ein Scherz, oder? Oder um im Bild zu bleiben: Füße sind auch eingeseift. face-wink

ErrorCode 121
ErrorDescription Das Zeitlimit für die Semaphore wurde erreicht.


Das interpretiere ich ebenfalls mit grundsätzlichen Netzwerkproblemen.

Falsch. Error 121 deutet entweder auf einen Treiberfehler, wie @LordGurke schon bemerkte. Das glaube ich hier aber eher nicht, da der Server ja lange problemlos lief. Oder es ist ein Hardwarefehler. Darauf tippe ich eher bei dem Fehlerbild. Kaputte Platte oder kaputter Controller. Also mal SMART der Platten auslesen. Beim Controller kommt es darauf an, wie man an den health status kommt. Da müsste man mal wissen, was für HW das ist.

hth

Erik
LordGurke
LordGurke 03.06.2021 um 16:36:37 Uhr
Goto Top
Zitat von @erikro:
Falsch. Error 121 deutet entweder auf einen Treiberfehler, wie @LordGurke schon bemerkte. Das glaube ich hier aber eher nicht, da der Server ja lange problemlos lief. Oder es ist ein Hardwarefehler. Darauf tippe ich eher bei dem Fehlerbild. Kaputte Platte oder kaputter Controller. Also mal SMART der Platten auslesen. Beim Controller kommt es darauf an, wie man an den health status kommt. Da müsste man mal wissen, was für HW das ist.

Wir reden hier von Windows - da gehört es zum Nutzungserlebnis, dass etwas, was jahrelang lief, nach einem Update nicht mehr läuft face-wink
erikro
erikro 03.06.2021 um 16:44:24 Uhr
Goto Top
Zitat von @LordGurke:

Zitat von @erikro:
Falsch. Error 121 deutet entweder auf einen Treiberfehler, wie @LordGurke schon bemerkte. Das glaube ich hier aber eher nicht, da der Server ja lange problemlos lief. Oder es ist ein Hardwarefehler. Darauf tippe ich eher bei dem Fehlerbild. Kaputte Platte oder kaputter Controller. Also mal SMART der Platten auslesen. Beim Controller kommt es darauf an, wie man an den health status kommt. Da müsste man mal wissen, was für HW das ist.

Wir reden hier von Windows - da gehört es zum Nutzungserlebnis, dass etwas, was jahrelang lief, nach einem Update nicht mehr läuft face-wink

lol YMMD Aber das Fehlerbild (mal geht's nach kurzer Zeit nicht mehr, mal nach längerer, mal nach Tagen) spricht imho eher für HW als für Windows. Software funktioniert regelmäßig nicht. face-wink
Kamikamaze
Kamikamaze 03.06.2021, aktualisiert am 21.04.2022 um 16:39:36 Uhr
Goto Top
Um es kurz zu machen: ja, zum Testen rufe ich dann schon mal heise.de auf face-wink Meine Hände sind dabei eingeseift, habe aber Handschuhe mit Grip dran face-smile

Es macht durchaus Sinn, an einem HW-Fehler zu denken bei der Symptomatik. Ich finde deine Idee gut. Das würde auch erklären, dass er nach unbestimmter Zeit die Grätsche macht, weil iwas an der Elektronik halt den Dienst quittiert. Ich werde morgen vor Ort mal den NW-Adapter wechseln. Die Onboard vorhandenen Adapter sind vom Typ Intel I210 GB NW. Habe die Treiber seit der Erstinstallation nicht aktualisiert. Treiberdatum ist der 18.06.2015. Da gibt's bestimmt was Neues, aber bisher bin ich immer gut damit gefahren, nichts zu ändern, wenn es läuft.

Bei kaputter Platte müsste mich der Server aber eigentlich ständig in den Logs wegen Disk-Fehlern anschreien, oder? Dies ist jedenfalls nicht der Fall.

Hier die Ausgabe von Crystal-Disk-Info: Einige Grenzwerte sind überschritten, die habe ich aber nicht selbst festgelegt. Welchen der Werte würde ihr als kritisch beurteilen? Edit: habe das falsch gelesen: keiner der Werte hier ist überschritten oder kritisch. Also, alles okay mit den Platten.

crystaldisk

Der Status der zweiten Platte aus dem Raid ist ähnlich bis sogar besser.
Kamikamaze
Kamikamaze 07.06.2021 um 10:01:29 Uhr
Goto Top
Moin zusammen,
würde hier gerne noch einmal nach neuen Ideen oder Meinungen fragen.

Ich habe am Freitag und am Samstag diverse Prüfungen gemacht und habe "leider" keinen Fehler finden können. Im Einzelnen:

  • Das Netzwerkprofil ist dauerhaft DomainAuth (auch wenn die Probleme mit der NW-Verbindung auftauchen)
  • Die Firewall testweise ausgeknipst. Daran liegt es auch nicht.
  • Der Abgleich der gestarteten/gestoppten Dienste ist sehr unauffällig, nichts was iwie mit Netzwerk zu tun hat - mit einer Ausnahme: der iphlpsvc ist in den get-service-Ausgaben bisher immer gestoppt, wenn die Probleme auftreten. Allerdings bringt es keinen Effekt, wenn ich den Dienst händisch wieder anknipse.
  • Ich habe am WE den Server auf den anderen Onboard-Adapter umgestellt und die Treiber aktualisiert. Dann noch mit den ProSet-Tools von Intel alle Diagnosen durchlaufen lassen. Angeblich alles tacko. Ich weiß nicht, ob es vor diesem Hintergrund wirklich Sinn macht, nochmal ne ganz andere Karte einzubauen. Das wäre auf Verdacht und die müsste ich dann extra kaufen.
  • Die Platten scheinen ja auch in Ordnung.
  • Der Zeitabgleich sieht auch gut aus. Abgesehen davon wird mir Fehlermedlung betreffend der GroupPolicies ja auch angezeigt, wenn kein Client on ist. Das heißt, es geht bei der Fehlermeldung um einen server-internen NW-Zugriff (greift auf sich selbst zu) bzw. funktioniert der Webzugriff vom Server aus ja ebenfalls nicht mehr. Bei der betreffenden Policy handelt es sich übringens um die Default-Domain-Policy und mag diese daher auch nicht einfach mal so löschen.

Habe mir mal den "guten alten" Network Monitor" von MS installiert und werde mal mitloggen, wenn es das nächste Mal nicht mehr geht. Sonst fällt mir persönlich gerade nichts mehr ein. Euch?

Gruß Maze
lcer00
lcer00 07.06.2021 um 10:18:02 Uhr
Goto Top
Hallo,

Zitat von @Kamikamaze:
Sonst fällt mir persönlich gerade nichts mehr ein. Euch?

nichts neues, aber Du solltest bei Gelegenheit nochmal nach dem DNS schauen. Auch wenn DCDiag nix ausgespuckt hat. Der DC darf in Deinem Anwendungsfall als DNS nur sich selbst eingetragen haben - und - wie ist das mit ip4/ip6? Am DC aktiv oder nicht? Wenn aktiv - spielt der DNS mit?

Grüße

lcer
Kamikamaze
Kamikamaze 07.06.2021 um 10:35:21 Uhr
Goto Top
Danke für deine Antwort.

DNS: Der Server hat nur sich selbst eingetragen. Abgesehen davon funktioniert ja im Problemfall auch der Aufruf des Routers per IP nicht mehr.

IPv6 ist aktiviert. Der DNS hat für jeden Rechner einen (oder mehrere) IPv6-Einträge.
user217
user217 08.06.2021 aktualisiert um 14:34:33 Uhr
Goto Top
sfc /scannow und dism vielleicht?
Den Fehler "Fehler bei der Verarbeitung der Gruppenrichtlinie..." hatte ich auch, denke der kommt eher von zu schnell bootenden dc's welche noch auf den Dienst warten aber fix is nix.
Ansonsten NTP, DNS checken ggf. auch mal mit dauerping auf Kabelbruch untersuchen (nic speed, CRC Fehler?)
Virenscanner runter, Firewall aus. Ggf. auch mal ganz vom Netzwerk nehmen und mit nslookup spielen.
Was sagt der BPA im Servermanager?
Kamikamaze
Kamikamaze 09.06.2021 um 09:40:24 Uhr
Goto Top
Hi!


sfc /scannow und dism vielleicht?

gefahrlos auf Windows Server 2012 als (einziger) DC ausführbar?! Kannte die Befehle bisher nicht. Hab eben mal bei MS nachgelesen was das ist. Hast Du dazu Erfahrungswerte?

Den Fehler "Fehler bei der Verarbeitung der Gruppenrichtlinie..." hatte ich auch, denke der kommt eher von zu schnell bootenden dc's welche noch auf den Dienst warten aber fix is nix.

Ja, der kommt immer einmal beim Booten, aber dann nicht mit dem "Semaphore-Fehler" im Detail, sondern dann mit "Verbindung wurde vom Remotehost geschlossen". Der "Semaphore-Fehler" kommt dann alle 5 Min. im Ereignislog, wenn das Problem gerade besteht.

Ansonsten NTP, DNS checken ggf. auch mal mit dauerping auf Kabelbruch untersuchen (nic speed, CRC Fehler?)

Es sieht m.E. soweit alles unauffällig aus.

Virenscanner runter, Firewall aus. Ggf. auch mal ganz vom Netzwerk nehmen und mit nslookup spielen.

Alles schon ausgeknipst

Was sagt der BPA im Servermanager?

Das scheint der entscheidende Hinweis gewesen zu sein! Habe gerade den BPA nochmal durchlaufen lassen und bin über eine Meldung gestolpert, die ich bisher immer ignoriert habe (weil sie bisher nicht relevant war). Es geht um den Hinweis, dass Freigaben keine Beschränkungen bei der Anzahl zugelassenen Benutzer haben sollten. Ich also in die Eigenschaften der SYSVOL-Freigabe und dort ist das Limit auf 30 festgelegt (theoretisch kein Problem, da nur 12 APs vorhanden). Aber als dieses Limit ändern wollte und auch die anderen Freigaben angeschaut habe, musste ich feststellen, dass dieser Wert fix ist für alle Freigaben und ich diesen Wert auch nicht ändern kann. Die Suche nach dem Grund dafür dauerte nicht lange: es ist eine Server 2012 R2 FOUNDATION-Edition. Auszug aus Windows Server 2012 R2 Foundation: This means that the total combined number of user accounts and devices that can connect to the server at any given time cannot exceed 30.

Ein Blick in die Freigabe-Verwaltung (in der Computerverwaltung) zeigt mir an, dass ich (insgesamt) schon bei über 30 bin (vielleicht gibt es da nen 10%-igen Sicherheitsaufschlag oder so etwas in der Art face-wink ) Aber ich bin mir ziemlich sicher, dass mein Netzwerk-Problem etwas mit den Limitierungen der Foundation-Edition zu tun hat. Ja, hätte ich direkt bei Thread-Eröffnung erwähnen müssen, aber es war mir in dem Moment auch nicht bewusst, dass da mal diese limitierte Edition angeschafft wurde. Ich kann noch nicht ganz verstehen, wieso ich dann auch keine https-Verbindung mehr zum Router aufbauen kann, aber die Gesamt-Symptomatik scheint da logisch reinzupassen. Ende April/Anfang Mai kamen zwei neue Rechner hinzu und der Fehler tritt auch immer erst nach einer gewissen aber nicht genau bestimmbaren Zeit auf. Ich werde das jetzt nochmal exakt beobachten wie das mit der steigenden Anzahl der SMB-Verbindungen korelliert, aber ich bin nun guter Dinge, dass das die richtige Spur ist. Danke für alle eure Hinweise und Mühen bei der Hilfestellung!

Viele Grüße Maze