bluesguy
Goto Top

Alle Pakete verschwinden im Nirvana - Kopfnuss für Profis!

Hi, Leute!

Im Voraus schon mal Danke für Eure Hilfe. Ich hab' ein Netzwerk-Problem, das mich seit Langem quält und niemand kann mir helfen. Ich bin mir sicher, dass hier jemand diese Kopfnuss lösen wird.

Bernhard

Hi, Leute!

Folgendes Problem. Das Netzwerk, für das ich verantwortlich bin besteht an zwei Standorten. An jedem Standort gibt es einen PDC und einen Linux-Router, der dazwischen einen IPSec-Tunnel hält und glechzeitig Internetzugang bereitstellt (Firewall, Masquerading, Virenscan, IPSec-Endpoint für RoadWarriors,...). Jeder Standort hat ein eigenes Subnet. Jeder PDC hält die kompletten Userdaten und repliziert sich über rDFS.

So weit, so gut. An einem Standort habe ich jedoch ein Problem. Hin und wieder verschwinden alle Pakete, die an das switch gesendet werden im Nirvana. Ein PowerCycle des Switches löst das Problem (zu mindest für eine Zeitlang).

Erster Gedanke: Switch hinüber. Also getauscht, keine Veränderung.
Zweiter Gedanke: Verkabelung hinüber: Alle Netzwerkkabel von einem qualifizierten Elektriker durchmessen lassen (Dämpfung, Crosstalk, Kurzschlüsse,...). Kein Fehler gefunden.
Dritter Gedanke: Schleife irgendwo im Netzwerk. Nachdem das Netz dort gewachsen ist, gibt's einen haufen kleiner Unter-Switches und so Zeugs. Also alles neu strukturiert und in einem 16er-Switch zusammengeführt. Das Netz besteht ja nur aus 5 Clients, 3 Printservern (PSUS4), dem PDC und dem Router. Aber auch hier keine Änderung.
Vierter Gedanke: Irgendein Gerät spinnt. Also einen halben Tag lang WireShark mitlaufen lassen und nix verdächtiges gefunden. Natürlich fällt das Netz aber auch ned aus, wenn ich da bin.

Woran könnte es noch liegen? Irgendwelche Ideen? Mittlerweile geht das Netz nach einem PowerCycle am Switch nur noch ein paar Minuten und das Ding is' zwei Autostunden von mir weg, also kann ich auch ned täglich hinfahren.


Danke für eure Hilfe!

Bernhard

Content-ID: 139857

Url: https://administrator.de/contentid/139857

Ausgedruckt am: 25.11.2024 um 15:11 Uhr

aqui
aqui 05.04.2010 um 14:19:14 Uhr
Goto Top
Nur nochmal nachgefragt der Klarheit folgender Punkte halber:
  • Wenn dieses "Verschwinden" Phänomen auftaucht, ist auch ein lokales Pingen der Komponenten im lokalen LAN nicht mehr möglich, richtig ??
Also ein Anpingen der 5 Clients untereinander oder der Clients mit den Printservern bzw. PDC ist nicht mehr möglich bzw. führt zu keinen Antworten, richtig ??
  • Bezieht sich dieses "Verschwinden" auf Pakete die an eine Namensadresse gesendet werden, also an einen Namen wie pdc.firma.local und/oder passiert das ebenso mit Ping Paketen die an eine nackte Ziel IP Adresse statt eines Namens im lokalen LAN gesendet werden ??
  • Passiert das "Verschwinden" auch wenn du testhalber einmal NUR das Defaultgateway (den Router) vom Switch abziehst. Ebenfalls unter den beiden vorangegangenen Punkten ??
  • Wenn das "Verschwinden" eintritt hast du einmal geprüft mit ipconfig ob die lokalen IP Adressen der Endgeräte noch stimmen ?? Nicht das ein wilder DHCP Server im lokalen IP Netz fremde IP Adressen vergibt und somit die Kommunikation unterbindet ?? Kannst du prüfen indem du mal ein Ping Pärchen mit statischen IP Adressen ans lokale Netz (Switch) anschliesst !
Das zumindest solltest du nochmal genauestens klären bevor man hier ins Eingemachte geht !
bluesguy
bluesguy 05.04.2010 um 14:24:31 Uhr
Goto Top
Danke für die rasche Antwort!

"Verschwinden" heißt, niemand kann niemanden mehr pingen. Weder über DNS-Namen, noch über die nackte IP. Auch der Default-Gateway, PDC oder Printserver sind nicht mehr erreichbar. Ich kann den Default-Gateway allerdings vom anderen Standort aus noch erreichen.

Der hat zwei Netzwerk-Interfaces. Eines ins LAN und eines Richtung Internet. Also vom anderen Standort über IPSec geht's noch. Nur weiter komm ich nicht mehr, weil auch er nichts und niemanden mehr pingen kann.

Danke für die Mühe!

Bernhard
bluesguy
bluesguy 05.04.2010 um 14:25:57 Uhr
Goto Top
Hi, nochmals!

Das mit den statischen IPs hilft leider nix. Der PDC und der Router haben ja statische IPs und auch die können nicht miteinander reden.

Bernhard
aqui
aqui 05.04.2010, aktualisiert am 18.10.2012 um 18:41:36 Uhr
Goto Top
OK, wenn der PDC 2 Netzwerkkarten hat, machst du da drüber NAT oder routest du transparent zwischen den beiden IP Segmenten ???
Sieht dein Netzwerk so aus ???

01bb0c851592d7ae79a3d7188e37f0ea

Auch das ist für die Funktion von erheblicher Wichtigkeit und hast du leider (wie anderes auch) nicht beschrieben... face-sad
Den Unterschied erklärt dir dieses Tutorial:
Routing von 2 und mehr IP Netzen mit Windows, Linux und Router
bluesguy
bluesguy 05.04.2010 um 14:37:48 Uhr
Goto Top
Das is' ein Missverständnis. Der PDC hat eine Karte und die hängt am LAN. Nur der Router hat zwei. eine ins LAN, eine ins Internet.

Mein Netzwerk sieht so aus:

Internet <-> Router <-> LAN

und am LAN hängt der PDC mit statischer IP. Der ist auch gleichzeitig DHCP-Server für die Clients und die Printserver (die mit Reservierungen immer die gleichen IPs erhalten).
aqui
aqui 05.04.2010 um 14:47:58 Uhr
Goto Top
Auch da bleibt dann die Frage: Macht der Linux Router transparentes Routing zw. beiden Segmenten oder NAT/Masquerading ??? (Siehe Tutorial)
bluesguy
bluesguy 05.04.2010 um 14:52:14 Uhr
Goto Top
Der macht Masquerading (siehe erstes Posting, da steht's drinnen).

Danke

Bernhard
aqui
aqui 05.04.2010 um 15:03:12 Uhr
Goto Top
OK, wenn du das lokale LAN Segment am Linux Router ziehst und das "Verschwinden" Phänomen bleibt erhalten, dann liegts ja de facto nicht am Router...soviel ist auch klar !!

Hast du den Switch gegen ein baugleiches Modell ausgetauscht oder ein anderes Modell genommen, was sinnvoller wäre ??
Man könnte einen MAC Angriff auf den Switch vermuten der diesen mit Mac Adressen zupflastert und wenn seine max. Anzahl an Mac Adressen erreicht ist dann stellt er den Betrieb ein.
Billige, non managed Switches machen das in der Regel obwohl sie es nicht sollten. In so einem Fall sollte der Switch dann in einen Hub Betrieb übergehen und alle Pakete, wie Hub üblich, an allen Ports fluten.
Wie gesagt Billigteile kollabieren aber meistens....
Auf der anderen Seite ist bei so einem banalen Mininetz mit gerade 5 Clients sowas eher nicht die Regel und eher unwahrscheinlich...es sei denn jemand hat dort was gegen dich als Admin...
Vielleicht solltest du den Switch mal generell gegen einen dummen Hub tauschen...der hat solch Mechanismen gar nicht erst und ist dagegen immun.

In 90% aller Fälle ist dies aber immer ein kleiner 5 Port Desktop Switch auf dem jemand ein Loop gesteckt hat und den er ins Netz hängt. Das aber wiederum kannst du sofort mit einem Wireshark Sniffer sehen. Denn dann ist das Netz zu 90% augelastet und der Sniffer zeigt nur noch Broadcast Frames an..meist ARP Pakete in Massen !
bluesguy
bluesguy 05.04.2010 um 15:14:17 Uhr
Goto Top
Ich hab' den Switch gegen ein anderes Modell (sogar einen anderen Hersteller) getauscht.

Kann gut sein, dass das Switch nicht in einen Failopen-Modus geht, es is' ein NonManaged-Switch. Aber es gibt an dem Standort keine Techniker. Wir sind ein Dienstleistungsbetrieb aus dem Pharma-Sektor, ich bin mir sicher, dass an dem Standort niemand weiß, was eine Mac-Adresse ist, geschweige denn, wie ein Mac-Flooding geht.

Außerdem sind wir eine kleine Firma, ich schließe Sabotage mit Sicherheit aus.
bluesguy
bluesguy 05.04.2010 um 15:16:39 Uhr
Goto Top
An den Fall mit der Loop habe ich auch gedacht (siehe originales Posting) und deshalb das ganze Netz neu strukturiert. Alle "kleinen" Switches rausgeschmissen. Es gibt nur noch ein Switch, sonst is' im ganzen Büro keines mehr vorhanden (hab ich alle mitgenommen).

Außerdem (so weit kann ich über Telefon diagnostizieren) sind alle Act-LEDs aus (bis auf ein Blinken alle paar Sekunden), es ist also ziemlich sicher keine Loop. Da würde ich eine dauerhafte Aktivität sehen.

Wir hatten den Fall mal, dass ein Mitarbeiter nach dem Ausmalen des Büros das Switch wieder zusammengesteckt hat und beide Enden eines "leeren" Netzwerkkabels in zwei Ports gesteckt hat. Deshalb sind die dort schon auf ständig blinkende LEDs am Switch sensibilisiert.
matze2010
matze2010 05.04.2010 um 15:39:58 Uhr
Goto Top
Hallo,

geh nochmal die Fragen von Aqui durch, insbesondere

  1. Passiert das "Verschwinden" auch wenn du testhalber einmal NUR das Defaultgateway (den Router) vom Switch abziehst. Ebenfalls unter den beiden vorangegangenen Punkten ??
  2. Wenn das "Verschwinden" eintritt hast du einmal geprüft mit ipconfig ob die lokalen IP Adressen der Endgeräte noch stimmen ?? Nicht das ein wilder DHCP Server im lokalen IP Netz fremde IP Adressen vergibt und somit die Kommunikation unterbindet ?? Kannst du prüfen indem du mal ein Ping Pärchen mit statischen IP Adressen ans lokale Netz (Switch) anschliesst !

Gerade das mit dem DHCP (was läuft für ein OS auf den Clients? hat da jemand "aus Versehen" die Internetverbindungsfreigabe aktiviert?) ist ein Punkt. Wer verteilt die IP-Adressen? Der NAT-Router? Der DC? Der Switch? Ein Drucker?

Was gibt ipconfig /all in dem Fall aus? Und arp -a? (natürlich auf jedem Rechner ausführen). Hast du IPv4 als einziges Protokoll? Was ist mit uPNP, AppleTAlk, ZeroConf. Paketen im Netz? (Hier ist das Wireshark Protokoll wieder interessant). Baut ein Mitarbeiter vielleicht eine VPN Verbindung zu einem anderen Standort auf? Das kann einen NAT-Router schonmal verwirren, hatte das mal mit dem Cisco VPN Client in Richtung Uni. Da sind bei den anderen Rechnern im LAN plötzlich alle Verbindungen gekappt worden.

LG
Matze
bluesguy
bluesguy 05.04.2010 um 15:53:23 Uhr
Goto Top
Hallo, Matze!

Also: Die IPs der Rechner stimmen noch. Es gibt also keinen fremden IP-Server und die IPs kommen vom PDC und nicht vom Router, Switch, Drucker oder sonstwo her. Ich habe auch (wie bereits beschrieben) ein Pärchen mit statischen IPs (Router und PDC) und die können auch nicht pingen. Damit fällt auch die Internet-Verbindungsfreigabe weg.

Auf den Clients läuft WinXP SP3, der Server ist Win 2003 Standard Server, der Router Gibraltar Linux.

Es gibt im Netz keine verdächtigen Pakete (laut WireShark) und IPv4 ist das einzige Protokoll. Kein ZeroConf, kein AppleTalk, NetBEUI,...

VPN-verbindungen passieren bei uns nur über OpenVPN und der hat die Probleme vom Cisco VPN-Client nicht. Ich habe sogar mal testweise eine VPN-Verbindung aus dem LAN aufgebaut und das gibt keine Probleme.

Was passiert, wenn ich nur den Default Gateway abstecke, kann ich erst ab 20 Uhr testen, auch wenn ich nicht weiß, was das bringen soll. Dann schau ich mir auch den arp-a an. Der könnte aufschlussreich sein.

LG

Bernhard
aqui
aqui 05.04.2010 um 16:51:22 Uhr
Goto Top
Dann bleibt dir nur die 2 Stunden zu investieren, vor Ort zu gehen und systematisch vorzugehen und die paar Minuten bis zur Symptomatik zu warten.:
  • Switch von allen Clients befreien und nur deinen Laptop aufzustecken
  • Router aufstecken und Dauerping auf den Router ausführen.... (Ausfallzeit abwarten)
  • Falls das stabil bleibt PDC aufstecken und den dauerpingen....(Ausfallzeit abwarten)
  • Dies Konstrukt etwas länger laufen lassen und verifizieren das das stabil rennt.
  • Nun sukzessive die Clients aufstecken und den Test wiederholen bis das Problem reproduzierbar ist...
So sollte man dann an den bösen Buhmann gelangen. Das 2 unterschiedliche Switches defekt sind kann man wohl ebenso ausschliessen...
Was anderes wird dir wohl nicht übrig bleiben...
bluesguy
bluesguy 05.04.2010 um 16:59:04 Uhr
Goto Top
Ich werd's versuchen. Bisher lag die Ausfallszeit im Tage-Bereich, also war das bisher keine gute Alternative. Vergangenen Freitag ist es wieder ausgefallen (nach ca. 2 Monaten problemlosem Betrieb) und nur ein paar Minuten gegangen. Ich hoffe, dass der Fehler jetzt reproduzierbarer wird. Falls nicht, hab ich ein Problem.

In der Vergangenheit hab ich das schon mit einem Ping-Flood über 90 Minuten pro Teilnehmer gemacht und keinen Fehler gefunden. Da war die Ausfallszeit aber auch im Tage- bis Wochen-Bereich.

Ich hab auch überlegt, generell die Switches an beiden Standorten durch Managed-Switches zu ersetzen. Die Kosten halten sich im Rahmen und ich würde solche Probleme in Zukunft besser Diagnostizieren können. Da kann ich auch Port Mirroring machen, um wirklich den gesamten Traffic auf einen WireShark spiegeln zu können.

Falls noch wem was einfällt, was ich tun kann, bitte melden.

Danke

Bernhard
bluesguy
bluesguy 11.04.2010 um 18:55:18 Uhr
Goto Top
Also: Die Lösung war ein defekter Printserver, der irgendeinen Mist am LAN-Port gebaut hat. Daraufhin hat sich das Switch verabschiedet.
matze2010
matze2010 11.04.2010 um 19:00:02 Uhr
Goto Top
Hallo,

na dann sag ich mal: Gute investigative Arbeit!

Problem erkannt, Problem gebannt, gratuliere!

Lg
Matze