redwraith
Goto Top

Windows Server 2008R2 vergisst Gateway

Hallo Gemeinde,

Wir betreiben einen Windows Server 2008R2 bei uns in einem /24 Netzwerk. Finden Verbindungen in ein anderes /24 Netzwerk statt, so gehen diese über unsere GateProtect Firewall. Jetzt haben wir seid einiger Zeit das Problem, dass ab und zu Verbindungen zu den Diensten dieses Servers abbrechen. Bei diesen Diensten handelt es sich zum Beispiel um eine SQL Datenbank und einer Windowsfreigabe. Dieses Problem scheint nur Kommunikation zu und von diesem Server zu betreffen, alle anderen Server machen keine Probleme.

Den ersten Verdächtigen, die Firewall, habe ich und auch ein Techniker eines Partners des Herstellers schon überprüft, ohne dass irgendwelche Fehler gefunden wurden.

Das Hauptproblem beim Nachverfolgen dieses Fehlers ist, dass er nur für kurze Zeit und anscheinend sehr willkürlich anhält. Die Verbindungen sind maximal für 1 Minute nicht möglich und wenn man mitkriegt, dass es grade passiert, ist es meist auch schon vorbei, bevor man die Konsole erreicht.

Also habe ich ein Skript auf dem Server plaziert, dass jede Minute verschiedene IPs, jeweils im und außerhalb des Netzwerks anpingt. Und siehe da, immer mal wieder sind Adressen außerhalb des eigenen Netzwerks für kurze Zeit nicht erreichbar. In den Zugriffslogs ist erkennbar, dass aber keine Pakete bei der Firewall eingegangen sind. Es scheint also so, als würde der Server kurzzeitig den eingestellten Gateway "vergessen", oder so etwas in der Art.

Ich muss an der Stelle gestehen, dass ich mit meinem Latein am Ende bin. Weiß jemand von euch Rat oder kann mir vielleicht einen Tipp geben, wie ich dieses Problem weiterverfolge?

Gruß,
RW

Content-ID: 218387

Url: https://administrator.de/contentid/218387

Ausgedruckt am: 22.11.2024 um 20:11 Uhr

Bitboy
Bitboy 03.10.2013 um 10:45:19 Uhr
Goto Top
Hi,

Da müsste man eventuell etwas mehr ins Detail gehen. Wie lange hält denn dieser Ping verlust? Ist es ab und zu mal ein Paket oder gehen über einen längeren Zeitraum welche verloren? Um das zu ermitteln wäre eine Verkürzung des Intervalls auf 5 Sekunden hilfreich.

Ist in den Windows Logs etwas zu sehen was auf Dienst-neustarts oder Verbindungsverlust hindeutet?

Ist in den Switch-Logs was auffälliges für diesen Zeitraum zu sehen?

Ansonsten wäre mal eine Art Netzplan hilfreich um zu sehen welche Komponenten an der Kommunikation beteiligt sind und dann versuchen eins nach dem anderen auszuschliessen.
RedWraith
RedWraith 04.10.2013 um 11:21:25 Uhr
Goto Top
Hi,

Das Merkwürdige ist, dass die Anzahl der Abbrüche davon abhängt ob bei uns gearbeitet wird oder nicht. Zur normalen Geschäftszeit gibt es vielleicht einen Aussetzer, über Nacht oder am Wochenende ist der Rechner manchmal mehr offline als online. Jetzt gerade über den Feiertag gab es fast nur Ausfälle.

Es gibt einen Task, der in 15 Minuten Abständen eine Datei von jeweils 4 Rechnern kopiert. 2 Rechner liegen hier lokal in jeweils anderen Subnetzen, ein dritter ist über VPN über die Standleitung zu erreichen. Die Dateien sind etwa 600kB groß. Zwischen dem 02.10 22:17 bis heute 04.10 06:00 gab es beim Kopieren insgesamt 136 Fehlschläge.

Der Verlust des Pings dauert meistens nur 1-3 Minuten, es gab aber auch schon nachts Aussetzer von 45 Minuten.

Die Windows Logs sind bis auf eine Warnung der VMWare Tools sauber.

Ich habe mir die Switche angeschaut. Auf der Strecke zwischen dem VMWare Cluster auf dem der Server läuft und der Firewall gab es jeweils am 02.10 und am 03.10 um genau 03:02:00 den Alert "Excessive broadcasts detected on port: 24". Auf Port 24 liegt unsere Siemens Telefonanlage.

Der Server liegt als VM auf einem ESX5.1 Cluster, welcher auf einen HP Procurve Switch verbunden ist. Dieser geht direkt in die Firewall.

Ich werde die Pingfrequenz jetzt mal hochdrehen und das Log dann bereitstellen.
Bitboy
Bitboy 04.10.2013 um 11:44:31 Uhr
Goto Top
Hi,

da die Ausfälle anscheinend mehrere Minute sind bringt ein hochstellen vom Intervall wohl keine neuen Erkenntnisse, war nur aus deinem Eingangspost nicht richtig ersichtlich wieviel Ausfall da ist. Bis 45 Minuten find ich aber schon extrem.

Das sich die offline Zeiten überwiegend ausserhalb des Betriebs befinden klingt auch schon merkwürdig. Fast so als würde eine Netzwerkkarte / Switchport in einen Energiesparmodus geschaltet.

Auf dem VMWare Cluster liegen wohl noch weitere Maschinen, tritt es bei denen auch auf? Oder ist wirklich nur dieser einzige betroffen?

Um das Problem weiter einzukreisen könntest du auf dem Switch eventuell ein Port Mirroring machen und die Kommunikation der VMs abgreifen. Rechner mit Wireshark hinstellen und schauen ob die Pings dort ankommen. Tun sie es geht wohl irgendwas zwischen switch und Firewall schief. Tun sies nicht, muss wohl richtung VMWare / Win Server gesucht werden.
RedWraith
RedWraith 04.10.2013 um 11:54:30 Uhr
Goto Top
Unser VMWare Cluster besteht aus zwei Hosts und einer EMC Storage, in denen insgesamt 13 Server und 10 Workstations hausen. Darauf laufen Hauptsächlich Server 2008R2 und Server 2003, aber auch ein Ubuntu Server und 2 Server 2012. Der betroffene Server ist ein Server 2008R2 und der einzige, der solche Probleme hat.

Für Port-Mirroring muss ich mal schauen wie ich das am Schlausten mache. Die Cluster haben jeweils 3 oder 4 Netzwerkschnittstellen, die auch alle aufgelegt sind.

Ursprünglich lag der betroffene Server auf einem anderen Host. Als diese Probleme dann auftraten, ist er auf den größeren, neueren, schnelleren Host mit der kürzeren Route umgezogen. Hat aber nichts gebracht.