leomac
Goto Top

Supermicro Server 2016 mit KernelPower41, Clients: IPv4 Haken verliert sich von allein

Hallo zusammen. Ich habe im Job aktuell eine Kundenanlage die uns schlaflose Nächte bereitet.

Server:

Supermicro (Intel Xeon, 32GB RAM, aktuell aus 2019 mit SSD und HDD Raid, OS Server 2016. Auf dem Server läuft eine Hyper-V VM mit Server 2016 (Datenbank). Veeam zur Datensicherung. Software haben wir komplett selbst installiert. Wie immer.

Cyberpower USV.

Ein Fremdserver (Dateiserver) mit Linux ist auch im Netzwerk (dieser ist auch neu).

Clients:

3x Intel Nuc mit Windows 10, zwei ATX-PCs mit Windows 10 + ein maschinenspezifischer Arbeitsplatz (Fremd-Hardware) mit Windows XP.

HP 24-Port Managed Switch, neu, (nichts eingestellt).

Fritzbox zur Einwahl, dahinter eine Securepoint UTM Firewall.

Solch eine Anlage ist Standard bei uns und wird mal größer, mal kleiner ausgeliefert. Es sind alles bekannt Komponenten.

Kunde hatte vorher Server 2008 + Win7 Clients, da fingen die Probleme schon an. Man schob es leichtfertig auf den alten Server.


Zum Fehler 1:

Unser Server + Linuxserver gehen in den Morgenstunden zw. 6-7 Uhr einfach aus. Kernelpower 41. Manchmal auch zwischendurch. Kein Bluescreen, keine Dumps. Mal ist der Kunde schon in der Firma, mal nicht.

Zum Test haben wir einen identischen Server mit an die USV angeschlossen, dieser geht auch aus. Egal ob am Netzwerk oder nicht. Alle anderen PCs bleiben an, wenn Sie zu der Zeit an sind.


Zum Fehler 2:

Die Clients haben das Problem, dass sie mitten im Betrieb ihre Verbindung zum Server verlieren. In diesem Fall ist der ipv4 Haken in der Netzwerkkarte weg. Kein Witz, das habe ich noch nie gesehen. Es ist definitiv kein Anwenderfehler, Virus etc. Das passiert wirklich von allein. Softwarefehler sind ausgeschlossen. Leider finde ich zu dem Thema nichts im Internet. Inzwischen ist das sogar bei dem alten XP-PC passiert.

Den Satz Festplatten in den Testserver gesteckt, keine Verbesserung. Neues Seasonic Netzteil eingebaut, keine Besserung. Alle Netzwerkkabel sind zum Test neu frei verlegt worden. Keine Besserung. Internet abgeklemmt, Fehler bleibt.


Wir haben alles getauscht, heute noch zwei neue NUCs, Monitore neu, Switch von anderer Firma, eine zweite USV, verschiedene Steckdosen in den Räumlichkeiten.

Der Energieversorger misst Auffälligkeiten (Oberwellen) im Stromnetz bisher ohne Erfolg. Der Hauselektriker hat mit besten Wissen gemessen und gemessen, nichts auffällig. Kein Flackerndes Licht, nichts.

Wir haben weitere bekannte ITler hinzugezogen. Keiner hat einen weiteren Ansatz.

Das plötzliche Ausgehen des Servers lässt (mMn) auf keinen Kurzschluss/Spannungsspizte vermuten. Entweder über Strom und/oder Netzwerk. Wer oder was soll das noch auslösen? Ebenso unerklärlich das verschwinden der Haken in der Netzwerkkonfiguration der Clients. Wir haben noch Netzwerkisolatoren bestellt zwecks galvanischer Trennung. Die kommen aber erst die Tage.


Wer auch immer einen Idee hat oder ihm das bekannt vorkommt oder schon einmal gehört hat, bitte schreibt einfach.


Ich danke schon mal voraus.


Grüße

Marc

Content-Key: 502720

Url: https://administrator.de/contentid/502720

Printed on: April 19, 2024 at 17:04 o'clock

Mitglied: 141384
141384 Oct 09, 2019 at 20:14:24 (UTC)
Goto Top
Hah das ist ja lustig.
- Clients: Das hab ich noch nie gehoert. Kann da leider nix zu sagen
- Server:
Schau mal bitte nach der Stromversorgung. Auch mit USV. Ich arbeite hier in Bolivien, wir haben ein... naja... manchmal stabiles Stromnetz face-smile
Wir hatten vor einigen Monaten regelmaessige Ausfaelle auf den Servern. Fehler: Strom weg.
Nach Pruefung der Hauptsicherung haben wir diese von 380V No-Name auf 400V ABB gewechselt. Zack, Fehler weg, seitdem kein Ausfall mehr.

Lass den Elektriker nochmal schauen. 20V koennen da nen Unterschied machen, grad wenn das netz keinen richtig stabilen Strom liefert.
Server sind etwas anfaelliger (als wie) dessen Lampen.
Member: LordGurke
LordGurke Oct 09, 2019 at 21:04:51 (UTC)
Goto Top
Zu dem Problem der Ausfälle:
Hat der Server mehrere Netzteile?
Hat der Server eine Kommunikationsverbindung mit der USV? Per USB, Serial, Netzwerk...?
Falls ja: Könnte es sein, dass da eine Software diese USV regelmäßig anweist, zu der Zeit etwas zu tun?

Zur Sicherheit solltest du notfalls mal sämtliche Kommunikation mit der USV unterbinden.

Was IPv4 angeht:
Könnte es sein, dass es zwei DHCP-Server im Netz gibt und/oder durch statische Adressvergabe und gleichzeitigen DHCP-Betrieb IP-Adressen gelegentlich doppelt im Netz auftauchen?
Normalerweise schimpf Windows dann deutlich sichtbar herum, schaltet aber gleichzeitig auch die IP auf dem Interface ab.
Member: Henere
Henere Oct 09, 2019 at 22:25:41 (UTC)
Goto Top
Servus.

Ich hatte so etwas mal in einem Taxi-Betrieb. Regelmäßig das komplette Netz lahmgelegt, alle Devices mussten neu gestartet werden, damit wieder Netzwerk ging. Ewiges Suchen.... bis wir uns die Kabel angeschaut hatten. Die haben (damals noch BNC) quer durchs Gebäude gezogen und in der Werkstatt, damit das Kabel nicht so runterhängt, das 2x um den elektrischen Motor der Hebebühne gewickelt.... Jedesmal wenn die Hebebühne bewegt wurde, war das ganze Netz tot.

Den Klassiker: Putzfrau im Serverraum steckt Staubsauger ein kannst Du ausschliessen ?

Grüße, Henere
Member: em-pie
em-pie Oct 10, 2019 at 05:29:32 (UTC)
Goto Top
Moin,

Ich würde mir als erstes mal die USV vornehmen.

Lies die mal aus und schaue, was die für Events erzeugt...
Und passt die USV zur abgehangenen Last?
Nicht, dass die Server in der Zeit einen CPU-lästigen Job starten, dann mehr Power benötigen und die USV zum Selbstschutz die Outlets trennt...

Gruß
em-pie
Member: Leomac
Leomac Oct 10, 2019 updated at 05:40:46 (UTC)
Goto Top
Heute Morgen wieder ähnliches Bild. Server bei Clientzugriff 2x plötzlich aus. IPv4 Haken bei den Workstations weg. Dazu hat die Alarmanlage angeschlagen. Wir holen uns jetzt Strom von einer anderen Etage.

-DHCP zeitweise keiner, jetzt zum Test einer.

-USV ist mit USB Kabel (wurde auch schon ersetzt) angeschlossen. Haben zwei verschiedene Modelle.
Logs der USV sagen bis 06:10 alles ok.

-Putzfrau hat wg. der Situation aktuell putzfrei

- Server mit OCCTP ausgelastet. Temps sind alle ok.

Danke euch.
Member: jenni
jenni Oct 10, 2019 at 07:01:44 (UTC)
Goto Top
Moinsen,

ich Tippe auf den Stromkreis!
Wahrscheinlich morgens zuviel Last....

Hängen die USV und Server an einem separaten Stromkreis?

Gruß
der jenni
Member: Ex0r2k16
Ex0r2k16 Oct 10, 2019 at 07:50:19 (UTC)
Goto Top
Zitat von @Leomac:
-USV ist mit USB Kabel (wurde auch schon ersetzt) angeschlossen. Haben zwei verschiedene Modelle.
Logs der USV sagen bis 06:10 alles ok.

Lass das USB Kabel doch mal weg. Was sagt die USV denn nach 6:10?

Insgesamt sehr seltsame Probleme. Den Haken beim IPv4 kann ich mir nur durch GPOs oder andere Skripte erklären. Kann eine Manipulation vor Ort zu 100% ausgeschlossen werden?
Member: cykes
cykes Oct 10, 2019 updated at 17:45:43 (UTC)
Goto Top
Hi,

was sagt denn das Logfile bzw. die Überwachung der Alarmanlage, was den Alarm heute morgen ausgelöst hat?

Welches USV-Modell kommt zum Einsatz und hast Du es mal mit einem "normalen" PC an der USV ausprobiert, ob der sich auch ausschaltet?

Ich hatte vor mehreren Jahren mal einen Fall, da hatte die USV keinen halbwegs sauberen Sinusstrom gelifert, der Flankenanstieg war zu steil und das mochte das Netzteil des HP-Servers nicht und hat den Server entweder zum unregelmässigen Einfrieren oder zum Totalabsturz gebracht. Das hat auch eine Weile gedauert, bis wir die Begründung des Fehlers nach USV-Austausch gefunden hatten.

Wie jenni schon angemerkt hat, könnte es aber auch eine temporäre Überlast auf dem Stromkreis sein, bspw. wenn in dem Betrieb die Maschinen eingeschaltet werden (oder auch in den benachbarten Betrieben).


Gruß

cykes
Member: Leomac
Leomac Oct 12, 2019 updated at 10:44:06 (UTC)
Goto Top
Ich denke wir können es jetzt ausschließen, das es etwas mit der IT Anlage zu tun hat.

Donnerstag Abend haben wir den 3. neuen Server (kleiner, Supermicro mit jetzt anderem Mainboard und neuen SSDs) aufgebaut.

Dieser lief über die 2. USV mit Netzwerkfilter, der Testserver hing nur am Strom sonst nichts angeschlossen, und der Fremdserver hing an der ersten USV. Alles am gleichen Stromkreis (der nur für die EDV da ist).

Alles lief durch bis Freitag 6:30 (Log USV alles ok). Kunde schaltet im Anmeldebereich zwei neue NUCs ein, in dem Moment gehen alle Server aus. Auch der ohne Netzwerk. Sicherungsautomaten sind alle oben, die NUCs starten auch.

Somit MUSS es am Strom liegen (Hauselektrik). Die Nachbarn haben afaik keine Maschinen oder ähnliches. Den Effekt konnte man zwar nicht reproduzieren aber wir sind erstmal raus. Jetzt dürfen die Elektriker ran.

Auch wenn es noch keine Erklärung ( für die ip4v Haken) gibt, ich schließe den Beitrag und sage allen Danke fürs lesen und die Tipps.

Es lebe die Nullen und die Einsen und was da noch dazwischen ist. face-smile

Grüße
Marc
Member: Ex0r2k16
Ex0r2k16 Oct 14, 2019 at 06:34:05 (UTC)
Goto Top
Was wir auch mal hatten...elektrische Aussenrollo als Störquelle. Die haben dafür gesorgt, dass sich in Fensternähe VoIP Telefone resetten und daher verloren auch die PCs kurzzeitig ihren Link.

Nur so als Tipp. Vielleicht gibts da ja auch sowas ;)
Member: jenni
jenni Oct 17, 2019 at 09:46:58 (UTC)
Goto Top
Alles lief durch bis Freitag 6:30 (Log USV alles ok). Kunde schaltet im Anmeldebereich zwei neue NUCs ein, in dem Moment gehen alle Server aus. Auch der ohne Netzwerk. Sicherungsautomaten sind alle oben, die NUCs starten auch.

Interessant

Somit MUSS es am Strom liegen (Hauselektrik). Die Nachbarn haben afaik keine Maschinen oder ähnliches. Den Effekt konnte man zwar nicht reproduzieren aber wir sind erstmal raus. Jetzt dürfen die Elektriker ran.

Bitte poste die Antwort! Die Lösung würde ich zu gern wissen wollen, denn Sie könnte mein Wissen erweitern!!

Gruß
der jenni