derwowusste
Goto Top

Tod einer NVidia Turbo-RTX 3090-24g (Code 12)?

Guten Abend!

Der Feierabend wurde mir leider vermiest.
In einem Server, der zwei Nvidia turbo-rtx 3090-24g mit nvlink verbunden nutzte, musste etwas umgebaut werden, wobei beide Karten ausgebaut und wieder eingebaut wurden. Was Strom und Elektrostatik angeht, wurde mit Sorgfalt gearbeitet (ich mache das seit über 20 Jahren).

Dennoch ist nun eine der beiden Karten nicht mehr von Windows als nvidia-Karte erkennbar.
Sie gibt noch ein Bild von sich, aber im Gerätemanager findet sie sich nur noch als "PCI Express-Stammport" mit der Meldung "Für dieses Gerät sind nicht genügend Ressourcen verfügbar (Code 12)".

Testhalber wurde Windows neu installiert, was daran nichts ändert.
Die zweite Karte bringt im selben PCI-Express-Slot keine Fehler.

Hat jemand dies schon einmal in den Griff bekommen? Ich hoffe, dass die Karte keinen weg hat, sondern nur Ihre Firmware spinnt.

Content-ID: 668563

Url: https://administrator.de/contentid/668563

Ausgedruckt am: 23.11.2024 um 08:11 Uhr

BassFishFox
BassFishFox 03.10.2024 um 22:17:28 Uhr
Goto Top
Die Betreffende raus und an den Platz wo die Funktionierende ist hast Du?
DerWoWusste
DerWoWusste 04.10.2024 um 09:55:09 Uhr
Goto Top
Moin.

Ja, das ändert auch nichts.
Zossen
Zossen 04.10.2024 um 11:58:02 Uhr
Goto Top
Moin,

mal so gefragt, was wurde denn umgebaut? Zusätzliche Komponenten vll.? Es könnte ja sein, dass nun zusätzliche Geräte mit den gleichen Ressourcen versorgt werden müssen, z.B. wenn man eine M.2 einbaut und diese sich die PCI mit den GraKas teilen muss.
Als Test (falls möglich und nicht schon geschehen) die Umbauten einmal rückgängig machen, um zu sehen, ob es dann wieder funktioniert?
Du hast wahrscheinlich schon danach gesucht und auch diesen hier von Microsoft gefunden?
DerWoWusste
DerWoWusste 04.10.2024 um 13:27:11 Uhr
Goto Top
Es wurde lediglich die NVME 1TB gegen 2TB getauscht, aber beide Karten waren im Weg.
Der MS-Artikel ist nutzlos, da er empfiehlt:
Mithilfe des Geräte-Managers können Sie die Ursache des Konflikts bestimmen und beheben. Weitere Informationen zum Beheben von Gerätekonflikten finden Sie in den Hilfeinformationen zur Verwendung des Geräte-Managers.
Ja, äh... und was soll da getan werden?

Nee, da gibt's auf diese Weise nichts zu lösen, entweder die Firmware kann resettet werden oder ich muss die Karte abschreiben.
Lochkartenstanzer
Lochkartenstanzer 04.10.2024 um 13:32:01 Uhr
Goto Top
Moin,

hast Du die nvidias testhalber einzeln in eine Desktopkiste gesteckt und geprüft?

lks
DerWoWusste
DerWoWusste 04.10.2024 um 15:13:21 Uhr
Goto Top
Nein, dazu stand derzeit keine Kiste zur Verfügung, die ausreichend Power hat, schon gar nicht für 2 davon.
Aber den test werde ich noch machen. Es sieht derzeit danah aus, als hätte ein Slot ein Problem und würde nur noch manchmal die Karte erkennen bzw. auch die andere Karte hatte in dem Slot nun dasselbe Problem.

Werde nun eine neue nvlink-Brücke brauchen, da die Karten fortan einen Slot weiter auseinander werkerln müssten, wenn der wirklich defekt ist. Montag geht's weiter, danke soweit für Ideen.
DerWoWusste
DerWoWusste 05.10.2024 um 08:34:19 Uhr
Goto Top
Karte nun in anderem PC getestet - läuft! Der Slot scheint das Problem, auch die andere Karte hat in diesem mittlwerweile doch einmal das Problem gezeigt!
DerWoWusste
DerWoWusste 18.10.2024 aktualisiert um 12:53:22 Uhr
Goto Top
Weitere Erkenntnisse:

Habe den Server nun zunächst mal mit einer Karte betrieben und für Tests eine weitere Karte organisiert.
Resultat: auf einem anderen Board macht die Karte mit einer zweiten zusammen überhaupt keine Zicken - ebenso unter Server 2019, selber Treiber.

Ich versteh' das nicht wirklich. Da wir jedoch für die Software, die beide Karten nutzen soll, gerade die Preise bekommen haben und sehen, dass zur Nutzung einer zweite Karte mal eben 17.500€ Lizenzgebühren fällig werden, werden wir vermutlich eher eine bessere Karte kaufen anstatt 2x diese Turbo-RTX 3090-24g.

Somit ist die Auflösung erst einmal hinfällig. Auf dem Server wurde auch unter Linux getestet - hier laufen beide Karten weiterhin. Echt rätselhaft.
Lochkartenstanzer
Lochkartenstanzer 18.10.2024 um 13:07:41 Uhr
Goto Top
Zitat von @DerWoWusste:


Auf dem Server wurde auch unter Linux getestet - hier laufen beide Karten weiterhin. Echt rätselhaft.

Ich gehe mal davon aus, daß Du den Server meinst, der das Problem unter Windows macht. Dann würde ich den fehler enteweder irgendwo in den BIOS-Einstellungen zur Hardware vermuten (zugeteilte lanes, doppelt belegte Lanes, etc. ) vermuten oder irgendeine Detail in den Windows-Treibern, das ausgerechnet mit dieser hardware zu diesem Verhalten führt. Wenn aber beide Karten unter Linux auf diesem Server funktionieren, ist es vermutlich ein Treiberproblem.

lks

PS: Ich würde so als letzten Versuch das Image des Server 2019, das Du zum Testen auf einem anderen Board genommen hast, mal auf dem Problemserver ausprobieren. Vielleicht funktioniert das ja. face-smile